Usare pandas per importare flat file come DataFrame (2)
Nell'ultimo esercizio sei riuscito a importare flat file
in un DataFrame di pandas. Come bonus, è poi semplice
ottenere il corrispondente
array numpy usando il metodo .to_numpy(). Ora avrai l'occasione
di farlo usando il dataset MNIST, disponibile come digits.csv.
Ci sono diversi argomenti che pd.read_csv() accetta e che ti saranno utili per questo esercizio:
nrowsti permette di specificare quante righe leggere dal file. Per esempio,nrows=10importerà solo le prime 10 righe.headeraccetta i numeri di riga da usare come etichette di colonna e segna l'inizio dei dati. Se il file non contiene una riga di intestazione, puoi impostareheader=Noneepandasassegnerà automaticamente etichette di colonna intere a partire da 0 (ad es. 0, 1, 2, …).
Questo esercizio fa parte del corso
Introduzione all'importazione dei dati in Python
Istruzioni dell'esercizio
- Importa le prime 5 righe del file in un DataFrame usando la funzione
pd.read_csv()e assegna il risultato adata. Dovrai usare gli argomentinrowseheader. Nota che in questo file non c'è una riga di intestazione. - Crea un array
numpydal DataFrame risultante indatae assegnalo adata_array. - Esegui
print(type(data_array))per stampare il tipo di dato didata_array.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Assign the filename: file
file = 'digits.csv'
# Read the first 5 rows of the file into a DataFrame: data
data = ____(____, ____, ____)
# Build a numpy array from the DataFrame: data_array
data_array = ____
# Print the datatype of data_array to the shell
print(type(data_array))