ComeçarComece de graça

Praticando coluna de array

A função SQL udf está disponível, assim como o dataframe df_before, do tipo DataFrame[doc: array<string>, in: array<string>, out: array<string>].

A variável TRIVIAL_TOKENS é um conjunto (set). Ela contém certas palavras que queremos remover.

Este exercício faz parte do curso

Introdução ao Spark SQL em Python

Ver curso

Instruções do exercício

  • Mostre as linhas de df_before em que doc contém o item 5.
  • Crie uma udf que remova itens de TRIVIAL_TOKENS de uma coluna de array. A ordem não precisa ser preservada.
  • Remova tokens das colunas in e out em df2 que apareçam em TRIVIAL_TOKENS.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Show the rows where doc contains the item '5'
df_before.where(array_contains('doc', '____')).show()

# UDF removes items in TRIVIAL_TOKENS from array
rm_trivial_udf = udf(lambda x:
                     list(set(x) - ____) if x
                     else x,
                     ArrayType(____()))

# Remove trivial tokens from 'in' and 'out' columns of df2
df_after = df_before.withColumn('in', ____('in'))\
                    .withColumn('out', ____('out'))

# Show the rows of df_after where doc contains the item '5'
df_after.where(array_contains('doc','5')).show()
Editar e executar o código