Praticando coluna de array
A função SQL udf está disponível, assim como o dataframe df_before, do tipo DataFrame[doc: array<string>, in: array<string>, out: array<string>].
A variável TRIVIAL_TOKENS é um conjunto (set). Ela contém certas palavras que queremos remover.
Este exercício faz parte do curso
Introdução ao Spark SQL em Python
Instruções do exercício
- Mostre as linhas de
df_beforeem quedoccontém o item5. - Crie uma udf que remova itens de
TRIVIAL_TOKENSde uma coluna de array. A ordem não precisa ser preservada. - Remova tokens das colunas
ineoutemdf2que apareçam emTRIVIAL_TOKENS.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Show the rows where doc contains the item '5'
df_before.where(array_contains('doc', '____')).show()
# UDF removes items in TRIVIAL_TOKENS from array
rm_trivial_udf = udf(lambda x:
list(set(x) - ____) if x
else x,
ArrayType(____()))
# Remove trivial tokens from 'in' and 'out' columns of df2
df_after = df_before.withColumn('in', ____('in'))\
.withColumn('out', ____('out'))
# Show the rows of df_after where doc contains the item '5'
df_after.where(array_contains('doc','5')).show()