ComeçarComece de graça

Validar linhas por meio de junção

Outro exemplo de filtragem de dados é o uso de uniões para remover entradas inválidas. Você precisará verificar se os nomes das pastas estão de acordo com o esperado, com base em um DataFrame específico chamado valid_folders_df. O DataFrame split_df está como você o deixou pela última vez, com um grupo de colunas divididas.

O objeto spark está disponível e pyspark.sql.functions é importado como F.

Este exercício faz parte do curso

Limpeza de dados com o PySpark

Ver curso

Instruções do exercício

  • Renomeie a coluna _c0 para folder no DataFrame valid_folders_df.
  • Conte o número de linhas em split_df.
  • Junte os dois DataFrames no nome da pasta e chame o DataFrame resultante de joined_df. Certifique-se de que você transmita o DataFrame menor.
  • Verifique o número de linhas restantes no DataFrame e compare.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Rename the column in valid_folders_df
valid_folders_df = ____

# Count the number of rows in split_df
split_count = ____

# Join the DataFrames
joined_df = split_df.____(____(valid_folders_df), "folder")

# Compare the number of rows remaining
joined_count = ____
print("Before: %d\nAfter: %d" % (split_count, joined_count))
Editar e executar o código