Imputando dados ausentes
Dados ausentes acontecem. Se supomos que nossos dados estão ausentes completamente ao acaso, estamos assumindo que os dados disponíveis representam bem a população. Se tivermos poucos valores ausentes, podemos removê-los ou usar a média ou a mediana como substituição. Neste exercício, vamos analisar 'PDOM': dias no mercado ao preço atual.
Este exercício faz parte do curso
Feature Engineering com PySpark
Instruções do exercício
- Obtenha a contagem de valores ausentes na coluna
'PDOM'usandowhere(),isNull()ecount(). - Calcule o valor médio de
'PDOM'usando a função de agregaçãomean(). - Use
fillna()com o valor definido para a média de'PDOM'e aplique somente à coluna'PDOM'usando o parâmetrosubset.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Count missing rows
missing = df.____(df[____].____()).____()
# Calculate the mean value
col_mean = df.____({____: ____}).____()[0][0]
# Replacing with the mean value for that column
df.____(____, ____=[____])