Imputando dados ausentes

Dados ausentes acontecem. Se supomos que nossos dados estão ausentes completamente ao acaso, estamos assumindo que os dados disponíveis representam bem a população. Se tivermos poucos valores ausentes, podemos removê-los ou usar a média ou a mediana como substituição. Neste exercício, vamos analisar 'PDOM': dias no mercado ao preço atual.

Este exercicio faz parte do curso

Feature Engineering com PySpark

Ver curso

Instruções do exercicio

Obtenha a contagem de valores ausentes na coluna 'PDOM' usando where(), isNull() e count().
Calcule o valor médio de 'PDOM' usando a função de agregação mean().
Use fillna() com o valor definido para a média de 'PDOM' e aplique somente à coluna 'PDOM' usando o parâmetro subset.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Count missing rows
missing = df.____(df[____].____()).____()

# Calculate the mean value
col_mean = df.____({____: ____}).____()[0][0]

# Replacing with the mean value for that column
df.____(____, ____=[____])

Editar e Executar Código