Personaliza tu importación de pandas

El paquete pandas es excelente para tratar muchos de los problemas que te plantearás encontrar al importar datos como científico de datos, como comentarios que se producen en archivos planos, líneas vacías y valores que faltan (NA o NaN). Para terminar este capítulo, vas a importar un archivo corrupto copia del conjunto de datos de Titanic titanic_corrupt.txt, que contiene comentarios después del carácter '#', y está delimitado por tabulaciones.

Los argumentos clave para pd.read_csv() incluyen:

sep establece el delimitador esperado.
- Puedes utilizar ',' para delimitado por comas.
- Puedes utilizar '\t' para delimitado por tabulaciones.
comment toma los caracteres que aparecen después de los comentarios en el archivo, lo que indica que cualquier texto que comience con esos caracteres debe ignorarse.
na_values toma una lista de cadenas para identificarlas como NA/NaN. Por defecto, algunos valores ya se reconocen como NA/NaN. Si proporcionas este argumento, obtendrás valores adicionales.

Este ejercicio forma parte del curso

Introducción a la importación de datos en Python

Ver curso

Instrucciones del ejercicio

Completa los argumentos depd.read_csv() para importartitanic_corrupt.txt correctamente usando pandas:
- sep establece el delimitador que se va a utilizar y funciona igual que el delimiterargumentonp.loadtxt() de 's. Ten en cuenta que el archivo que estás importando está delimitado por tabulaciones.
- comment toma los caracteres que aparecen después de los comentarios en el archivo, que en este caso es '#'.
- na_values toma una lista de cadenas que se deben tratar como NA/NaN; en este caso, la cadena 'Nothing'.
Ejecuta el resto del código para imprimir el encabezado del DataFrame resultante y trazar el histograma del 'Age' de pasajeros a bordo del Titanic.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Import matplotlib.pyplot as plt
import matplotlib.pyplot as plt

# Assign filename: file
file = 'titanic_corrupt.txt'

# Import file: data
data = pd.read_csv(file, sep='____', comment='____', na_values=[____])

# Print the head of the DataFrame
print(data.head())

# Plot 'Age' variable in a histogram
pd.DataFrame.hist(data[['Age']])
plt.xlabel('Age (years)')
plt.ylabel('count')
plt.show()

Editar y ejecutar código