ComeçarComece de graça

Calcular porcentagens de ausentes

Automação é o futuro da ciência de dados. Aprender a automatizar parte da preparação de dados traz ótimos resultados. Neste exercício, vamos automatizar a remoção de colunas quando elas têm dados ausentes acima de um limite específico.

Este exercício faz parte do curso

Feature Engineering com PySpark

Ver curso

Instruções do exercício

  • Defina uma função column_dropper() que receba os parâmetros df, um dataframe, e threshold, um float entre 0 e 1.
  • Calcule a porcentagem de valores ausentes usando where(), isNull() e count()
  • Verifique se a porcentagem de ausentes é maior que o limite; se for, remova a coluna usando drop()
  • Execute column_dropper() em df com o limite definido como .6

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

def column_dropper(df, threshold):
  # Takes a dataframe and threshold for missing values. Returns a dataframe.
  total_records = df.____()
  for col in df.columns:
    # Calculate the percentage of missing values
    missing = df.____(df[col].____()).____()
    missing_percent = ____ / ____
    # Drop column if percent of missing is more than threshold
    if ____ > ____:
      df = df.____(col)
  return df

# Drop columns that are more than 60% missing
df = ____(____, ____)
Editar e executar o código