Calcular porcentagens de ausentes
Automação é o futuro da ciência de dados. Aprender a automatizar parte da preparação de dados traz ótimos resultados. Neste exercício, vamos automatizar a remoção de colunas quando elas têm dados ausentes acima de um limite específico.
Este exercício faz parte do curso
Feature Engineering com PySpark
Instruções do exercício
- Defina uma função
column_dropper()que receba os parâmetrosdf, um dataframe, ethreshold, um float entre 0 e 1. - Calcule a porcentagem de valores ausentes usando
where(),isNull()ecount() - Verifique se a porcentagem de ausentes é maior que o limite; se for, remova a coluna usando
drop() - Execute
column_dropper()emdfcom o limite definido como .6
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
def column_dropper(df, threshold):
# Takes a dataframe and threshold for missing values. Returns a dataframe.
total_records = df.____()
for col in df.columns:
# Calculate the percentage of missing values
missing = df.____(df[col].____()).____()
missing_percent = ____ / ____
# Drop column if percent of missing is more than threshold
if ____ > ____:
df = df.____(col)
return df
# Drop columns that are more than 60% missing
df = ____(____, ____)