Utilizar pandas para importar archivos planos como DataFrames (2)
En el último ejercicio, pudiste importar ficheros planos
en un Marco de datos pandas
. Además, es muy sencillo
para recuperar la correspondiente
numpy
mediante el método .to_numpy()
. Ahora tendrás la oportunidad
para hacerlo utilizando el conjunto de datos MNIST, que está disponible como digits.csv
.
Hay una serie de argumentos que toma pd.read_csv()
que te resultarán útiles para este ejercicio:
nrows
te permite especificar cuántas filas leer del archivo. Por ejemplo,nrows=10
sólo importará las 10 primeras filas.header
acepta los números de fila que se utilizarán como etiquetas de columna y marca el inicio de los datos. Si el archivo no contiene una fila de encabezamiento, puedes ponerheader=None
, ypandas
asignará automáticamente etiquetas de columna enteras empezando por 0 (por ejemplo, 0, 1, 2, …).
Este ejercicio forma parte del curso
Introducción a la importación de datos en Python
Instrucciones de ejercicio
- Importa las 5 primeras filas del fichero a un DataFrame utilizando la función
pd.read_csv()
y asigna el resultado adata
. Tendrás que utilizar los argumentosnrows
yheader
. Ten en cuenta que no hay ninguna fila de encabezamiento en este archivo. - Construye un array
numpy
a partir del DataFrame resultante endata
y asígnalo adata_array
. - Ejecuta
print(type(data_array))
para imprimir el tipo de dato dedata_array
.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Assign the filename: file
file = 'digits.csv'
# Read the first 5 rows of the file into a DataFrame: data
data = ____(____, ____, ____)
# Build a numpy array from the DataFrame: data_array
data_array = ____
# Print the datatype of data_array to the shell
print(type(data_array))