Removendo linhas
Quando você sabe que uma coluna específica será crítica para a sua análise e apenas uma pequena fração das linhas está sem valor nessa coluna, geralmente faz sentido remover essas linhas do conjunto de dados.
Ao longo deste curso, a coluna driver_gender será essencial para muitas das suas análises. Como apenas uma pequena fração das linhas está sem driver_gender, vamos remover essas linhas do conjunto de dados.
Este exercício faz parte do curso
Analisando a Atividade Policial com pandas
Instruções do exercício
- Conte o número de valores ausentes em cada coluna.
- Remova todas as linhas que estão sem
driver_gender, passando o nome da coluna para o parâmetrosubsetde.dropna(). - Conte novamente o número de valores ausentes em cada coluna, para verificar que nenhuma das linhas restantes está sem
driver_gender. - Examine o
.shapedo DataFrame para ver quantas linhas e colunas restaram.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Count the number of missing values in each column
print(ri.isnull().____)
# Drop all rows that are missing 'driver_gender'
ri.____(subset=[____], inplace=True)
# Count the number of missing values in each column (again)
print(ri.____.____)
# Examine the shape of the DataFrame
print(____)