Subconjunto e limpeza do PySpark DataFrame

Após a inspeção dos dados, muitas vezes é necessário limpá-los, o que envolve principalmente fazer um subconjunto, renomear as colunas, remover linhas duplicadas, etc. A API DataFrame do PySpark fornece vários operadores para fazer isso. Neste exercício, sua tarefa é fazer um subconjunto das colunas "name" (nome), "sex" (sexo) e "date of birth" (data de nascimento) do DataFrame people_df, remover todas as linhas duplicadas desse conjunto de dados e contar o número de linhas antes e depois da etapa de remoção de duplicatas.

Lembre-se de que você já tem um SparkSession spark e um DataFrame people_df disponíveis em seu espaço de trabalho.

Este exercício faz parte do curso

Fundamentos de Big Data com PySpark

Ver curso

Instruções do exercício

Selecione as colunas "name" (nome), "sex" (sexo) e "date of birth" (data de nascimento) em people_df e crie o DataFrame people_df_sub.
Imprima as 10 primeiras observações no DataFrame people_df_sub.
Remova as entradas duplicadas do DataFrame people_df_sub e crie o DataFrame people_df_sub_nodup.
Quantas linhas existem antes e depois da remoção das duplicatas?

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Select name, sex and date of birth columns
people_df_sub = people_df.____('name', ____, ____)

# Print the first 10 observations from people_df_sub
people_df_sub.____(____)

# Remove duplicate entries from people_df_sub
people_df_sub_nodup = people_df_sub.____()

# Count the number of rows
print("There were {} rows before removing duplicates, and {} rows after removing duplicates".format(people_df_sub.____(), people_df_sub_nodup.____()))

Editar e executar o código