ComeçarComece de graça

Lidando com caracteres soltos (II)

No último exercício, você conseguiu identificar rapidamente, com base na chamada df.head(), quais caracteres estavam causando problema. Em muitos casos, isso não ficará tão evidente. Muitas vezes há valores mais ao fundo de uma coluna que impedem você de converter a coluna para um tipo numérico, o que é necessário para usá-la em um modelo ou em etapas adicionais de engenharia de atributos.

Uma abordagem para encontrar esses valores é forçar a coluna ao tipo de dado desejado usando pd.to_numeric(), convertendo (coercing) quaisquer valores problemáticos em NaN e, em seguida, filtrar o DataFrame apenas pelas linhas que contêm valores NaN.

Tente converter a coluna RawSalary para float — a conversão vai falhar porque agora há um caractere extra nela. Encontre esse caractere e remova-o para que a coluna possa ser convertida para float.

Este exercício faz parte do curso

Feature Engineering for Machine Learning in Python

Ver curso

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Attempt to convert the column to numeric values
numeric_vals = ____(so_survey_df['RawSalary'], errors='coerce')

# Find the indexes of missing values
idx = ____

# Print the relevant rows
print(so_survey_df['RawSalary']____)
Editar e executar o código