ComeçarComece de graça

Personalização da importação do pandas

O pacote pandas é excelente para lidar com muitos dos problemas que você enfrentará ao importar dados como cientista de dados, como comentários que ocorrem em arquivos simples, linhas vazias e valores faltantes (NA ou NaN). Para encerrar este capítulo, você importará uma cópia corrompida do conjunto de dados titanic_corrupt.txt do Titanic, que contém comentários após o caractere '#', e é delimitado por tabulação.

Os principais argumentos de pd.read_csv() incluem:

  • sep define o delimitador esperado.

    • Você pode usar ',' para delimitação por vírgula.

    • Você pode usar '\t' para delimitação por tabulação.

  • comment aceita os caracteres que aparecem após os comentários no arquivo, indicando que qualquer texto que comece com esses caracteres deve ser ignorado.

  • na_values aceita uma lista de strings para identificar como NA/NaN. Por padrão, alguns valores já são reconhecidos como NA/NaN. Ao fornecer esse argumento, você fornecerá valores adicionais.

Este exercício faz parte do curso

Introdução à importação de dados em Python

Ver curso

Instruções do exercício

  • Preencha os argumentos depd.read_csv() para importartitanic_corrupt.txt corretamente usando o pandas:

    • sep define o delimitador a ser usado e funciona da mesma forma que o delimiterargumentonp.loadtxt() de 's. Lembre-se de que o arquivo que você está importando é delimitado por tabulação.

    • comment pega os caracteres que aparecem depois dos comentários no arquivo, que, neste caso, é '#'.

    • na_values aceita uma lista de strings que devem ser tratadas como NA/NaN; neste caso, a string 'Nothing'.

  • Execute o restante do código para imprimir o cabeçalho do DataFrame resultante e desenhe o histograma de 'Age' dos passageiros a bordo do Titanic.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import matplotlib.pyplot as plt
import matplotlib.pyplot as plt

# Assign filename: file
file = 'titanic_corrupt.txt'

# Import file: data
data = pd.read_csv(file, sep='____', comment='____', na_values=[____])

# Print the head of the DataFrame
print(data.head())

# Plot 'Age' variable in a histogram
pd.DataFrame.hist(data[['Age']])
plt.xlabel('Age (years)')
plt.ylabel('count')
plt.show()
Editar e executar o código