Aan de slagGa gratis aan de slag

Flat files importeren als DataFrames met pandas (2)

In de vorige oefening kon je flat files importeren in een pandas DataFrame. Als extraatje is het daarna eenvoudig om met de methode .to_numpy() de bijbehorende numpy-array op te halen. Je gaat dit nu doen met de MNIST-gegevensset, beschikbaar als digits.csv.

pd.read_csv() accepteert een aantal argumenten die handig zijn voor deze oefening:

  • Met nrows kun je opgeven hoeveel rijen je uit het bestand wilt inlezen. Bijvoorbeeld, nrows=10 importeert alleen de eerste 10 rijen.
  • header accepteert rijnummers die als kolomlabels worden gebruikt en het begin van de data markeren. Als het bestand geen header-rij bevat, kun je header=None instellen en wijst pandas automatisch gehele kolomlabels toe vanaf 0 (bijv. 0, 1, 2, …).

Deze oefening maakt deel uit van de cursus

Introductie tot data importeren in Python

Cursus bekijken

Oefeninstructies

  • Importeer de eerste 5 rijen van het bestand in een DataFrame met de functie pd.read_csv() en wijs het resultaat toe aan data. Je hebt de argumenten nrows en header nodig. Let op: dit bestand heeft geen header-rij.
  • Bouw een numpy-array uit het resulterende DataFrame in data en wijs die toe aan data_array.
  • Voer print(type(data_array)) uit om het datatype van data_array af te drukken.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Assign the filename: file
file = 'digits.csv'

# Read the first 5 rows of the file into a DataFrame: data
data = ____(____, ____, ____)

# Build a numpy array from the DataFrame: data_array
data_array = ____

# Print the datatype of data_array to the shell
print(type(data_array))
Code bewerken en uitvoeren