ComeçarComece gratuitamente

Subconjunto e limpeza do PySpark DataFrame

Após a inspeção dos dados, muitas vezes é necessário limpá-los, o que envolve principalmente fazer um subconjunto, renomear as colunas, remover linhas duplicadas, etc. A API DataFrame do PySpark fornece vários operadores para fazer isso. Neste exercício, sua tarefa é fazer um subconjunto das colunas "name" (nome), "sex" (sexo) e "date of birth" (data de nascimento) do DataFrame people_df, remover todas as linhas duplicadas desse conjunto de dados e contar o número de linhas antes e depois da etapa de remoção de duplicatas.

Lembre-se de que você já tem um SparkSession spark e um DataFrame people_df disponíveis em seu espaço de trabalho.

Este exercício faz parte do curso

Fundamentos de Big Data com PySpark

Ver Curso

Instruções de exercício

  • Selecione as colunas "name" (nome), "sex" (sexo) e "date of birth" (data de nascimento) em people_df e crie o DataFrame people_df_sub.
  • Imprima as 10 primeiras observações no DataFrame people_df_sub.
  • Remova as entradas duplicadas do DataFrame people_df_sub e crie o DataFrame people_df_sub_nodup.
  • Quantas linhas existem antes e depois da remoção das duplicatas?

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Select name, sex and date of birth columns
people_df_sub = people_df.____('name', ____, ____)

# Print the first 10 observations from people_df_sub
people_df_sub.____(____)

# Remove duplicate entries from people_df_sub
people_df_sub_nodup = people_df_sub.____()

# Count the number of rows
print("There were {} rows before removing duplicates, and {} rows after removing duplicates".format(people_df_sub.____(), people_df_sub_nodup.____()))
Editar e executar código