Flat files importeren als DataFrames met pandas (2)
In de vorige oefening kon je flat files importeren in een pandas DataFrame. Als extraatje is het daarna eenvoudig om met de methode .to_numpy() de bijbehorende numpy-array op te halen. Je gaat dit nu doen met de MNIST-gegevensset, beschikbaar als digits.csv.
pd.read_csv() accepteert een aantal argumenten die handig zijn voor deze oefening:
- Met
nrowskun je opgeven hoeveel rijen je uit het bestand wilt inlezen. Bijvoorbeeld,nrows=10importeert alleen de eerste 10 rijen. headeraccepteert rijnummers die als kolomlabels worden gebruikt en het begin van de data markeren. Als het bestand geen header-rij bevat, kun jeheader=Noneinstellen en wijstpandasautomatisch gehele kolomlabels toe vanaf 0 (bijv. 0, 1, 2, …).
Deze oefening maakt deel uit van de cursus
Introductie tot data importeren in Python
Oefeninstructies
- Importeer de eerste 5 rijen van het bestand in een DataFrame met de functie
pd.read_csv()en wijs het resultaat toe aandata. Je hebt de argumentennrowsenheadernodig. Let op: dit bestand heeft geen header-rij. - Bouw een
numpy-array uit het resulterende DataFrame indataen wijs die toe aandata_array. - Voer
print(type(data_array))uit om het datatype vandata_arrayaf te drukken.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Assign the filename: file
file = 'digits.csv'
# Read the first 5 rows of the file into a DataFrame: data
data = ____(____, ____, ____)
# Build a numpy array from the DataFrame: data_array
data_array = ____
# Print the datatype of data_array to the shell
print(type(data_array))