ComeçarComece de graça

Imputando dados ausentes

Dados ausentes acontecem. Se supomos que nossos dados estão ausentes completamente ao acaso, estamos assumindo que os dados disponíveis representam bem a população. Se tivermos poucos valores ausentes, podemos removê-los ou usar a média ou a mediana como substituição. Neste exercício, vamos analisar 'PDOM': dias no mercado ao preço atual.

Este exercício faz parte do curso

Feature Engineering com PySpark

Ver curso

Instruções do exercício

  • Obtenha a contagem de valores ausentes na coluna 'PDOM' usando where(), isNull() e count().
  • Calcule o valor médio de 'PDOM' usando a função de agregação mean().
  • Use fillna() com o valor definido para a média de 'PDOM' e aplique somente à coluna 'PDOM' usando o parâmetro subset.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Count missing rows
missing = df.____(df[____].____()).____()

# Calculate the mean value
col_mean = df.____({____: ____}).____()[0][0]

# Replacing with the mean value for that column
df.____(____, ____=[____])
Editar e executar o código