ComeçarComece de graça

Removendo linhas

Quando você sabe que uma coluna específica será crítica para a sua análise e apenas uma pequena fração das linhas está sem valor nessa coluna, geralmente faz sentido remover essas linhas do conjunto de dados.

Ao longo deste curso, a coluna driver_gender será essencial para muitas das suas análises. Como apenas uma pequena fração das linhas está sem driver_gender, vamos remover essas linhas do conjunto de dados.

Este exercício faz parte do curso

Analisando a Atividade Policial com pandas

Ver curso

Instruções do exercício

  • Conte o número de valores ausentes em cada coluna.
  • Remova todas as linhas que estão sem driver_gender, passando o nome da coluna para o parâmetro subset de .dropna().
  • Conte novamente o número de valores ausentes em cada coluna, para verificar que nenhuma das linhas restantes está sem driver_gender.
  • Examine o .shape do DataFrame para ver quantas linhas e colunas restaram.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Count the number of missing values in each column
print(ri.isnull().____)

# Drop all rows that are missing 'driver_gender'
ri.____(subset=[____], inplace=True)

# Count the number of missing values in each column (again)
print(ri.____.____)

# Examine the shape of the DataFrame
print(____)
Editar e executar o código