Validar linhas por meio de junção

Outro exemplo de filtragem de dados é o uso de uniões para remover entradas inválidas. Você precisará verificar se os nomes das pastas estão de acordo com o esperado, com base em um DataFrame específico chamado valid_folders_df. O DataFrame split_df está como você o deixou pela última vez, com um grupo de colunas divididas.

O objeto spark está disponível e pyspark.sql.functions é importado como F.

Este exercicio faz parte do curso

Limpeza de dados com o PySpark

Ver curso

Instruções do exercicio

Renomeie a coluna _c0 para folder no DataFrame valid_folders_df.
Conte o número de linhas em split_df.
Junte os dois DataFrames no nome da pasta e chame o DataFrame resultante de joined_df. Certifique-se de que você transmita o DataFrame menor.
Verifique o número de linhas restantes no DataFrame e compare.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Rename the column in valid_folders_df
valid_folders_df = ____

# Count the number of rows in split_df
split_count = ____

# Join the DataFrames
joined_df = split_df.____(____(valid_folders_df), "folder")

# Compare the number of rows remaining
joined_count = ____
print("Before: %d\nAfter: %d" % (split_count, joined_count))

Editar e Executar Código