Subconjunto e limpeza do PySpark DataFrame
Após a inspeção dos dados, muitas vezes é necessário limpá-los, o que envolve principalmente fazer um subconjunto, renomear as colunas, remover linhas duplicadas, etc. A API DataFrame do PySpark fornece vários operadores para fazer isso. Neste exercício, sua tarefa é fazer um subconjunto das colunas "name" (nome), "sex" (sexo) e "date of birth" (data de nascimento) do DataFrame people_df
, remover todas as linhas duplicadas desse conjunto de dados e contar o número de linhas antes e depois da etapa de remoção de duplicatas.
Lembre-se de que você já tem um SparkSession spark
e um DataFrame people_df
disponíveis em seu espaço de trabalho.
Este exercício faz parte do curso
Fundamentos de Big Data com PySpark
Instruções de exercício
- Selecione as colunas "name" (nome), "sex" (sexo) e "date of birth" (data de nascimento) em
people_df
e crie o DataFramepeople_df_sub
. - Imprima as 10 primeiras observações no DataFrame
people_df_sub
. - Remova as entradas duplicadas do DataFrame
people_df_sub
e crie o DataFramepeople_df_sub_nodup
. - Quantas linhas existem antes e depois da remoção das duplicatas?
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Select name, sex and date of birth columns
people_df_sub = people_df.____('name', ____, ____)
# Print the first 10 observations from people_df_sub
people_df_sub.____(____)
# Remove duplicate entries from people_df_sub
people_df_sub_nodup = people_df_sub.____()
# Count the number of rows
print("There were {} rows before removing duplicates, and {} rows after removing duplicates".format(people_df_sub.____(), people_df_sub_nodup.____()))