Utilizar pandas para importar archivos planos como DataFrames (2)
En el último ejercicio, pudiste importar ficheros planos
en un DataFrame pandas. Además, es muy sencillo
para recuperar la correspondiente
matriz numpy mediante el método .to_numpy(). Ahora tendrás la oportunidad
para hacerlo usando el conjunto de datos MNIST, que está disponible comodigits.csv…
Hay una serie de argumentos quepd.read_csv()te resultarán útiles para este ejercicio:
nrowste permite especificar cuántas filas quieres leer del archivo. Por ejemplo, solonrows=10importará las primeras 10 filas.headeracepta números de fila para utilizarlos como etiquetas de columna y marca el inicio de los datos. Si el archivo no contiene una fila de encabezado, puedes configurarheader=None, ypandasasignará automáticamente etiquetas de columna con números enteros a partir del 0 (por ejemplo, 0, 1, 2, …).
Este ejercicio forma parte del curso
Introducción a la importación de datos en Python
Instrucciones del ejercicio
- Importa las primeras 5 filas del archivo a un DataFrame usando la función
pd.read_csv()y asigna el resultado adata. Tendrás que usar los argumentosnrowsyheader. Ten en cuenta que este archivo no tiene fila de encabezado. - Construye un array
numpya partir del DataFrame resultante endatay asígnalo adata_array. - Ejecuta
print(type(data_array))para imprimir el tipo de dato dedata_array.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Assign the filename: file
file = 'digits.csv'
# Read the first 5 rows of the file into a DataFrame: data
data = ____(____, ____, ____)
# Build a numpy array from the DataFrame: data_array
data_array = ____
# Print the datatype of data_array to the shell
print(type(data_array))