Utilizar pandas para importar archivos planos como DataFrames (2)
En el último ejercicio, pudiste importar ficheros planos
en un DataFrame pandas. Además, es muy sencillo
para recuperar la correspondiente
matriz numpy mediante el método .to_numpy(). Ahora tendrás la oportunidad
Para ello, utiliza el conjunto de datos MNIST, disponible en digits.csv.
Hay una serie de argumentos que pd.read_csv() toma y que te resultarán útiles para este ejercicio:
nrowste permite especificar cuántas filas leer del archivo. Por ejemplo,nrows=10solo importará las primeras 10 filas.headerAcepta números de fila para utilizarlos como etiquetas de columna y marca el inicio de los datos. Si el archivo no contiene una fila de encabezado, puedes establecerheader=Noneypandasasignará automáticamente etiquetas de columna enteras comenzando por 0 (por ejemplo, 0, 1, 2, …).
Este ejercicio forma parte del curso
Introducción a la importación de datos en Python
Instrucciones del ejercicio
- Importa las 5 primeras filas del archivo a un DataFrame utilizando la función ** y asigna el resultado a
pd.read_csv(). Tendrás que utilizar los argumentosnrowsyheader. Ten en cuenta que este archivo no tiene fila de encabezado. - Construye un array
numpya partir del DataFrame resultante endatay asígnalo adata_array. - Ejecuta
print(type(data_array))para imprimir el tipo de dato dedata_array.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Assign the filename: file
file = 'digits.csv'
# Read the first 5 rows of the file into a DataFrame: data
data = ____(____, ____, ____)
# Build a numpy array from the DataFrame: data_array
data_array = ____
# Print the datatype of data_array to the shell
print(type(data_array))