pandas zum Importieren von Flat Files als DataFrames verwenden (2)
In der letzten Übung hast du Flat Files
in einen pandas
-DataFrame importiert. Als Bonus ist es dann ganz einfach,
das entsprechende
numpy
-Array mit der Methode .to_numpy()
aufzurufen. Du hast jetzt die Chance,
dies mit dem MNIST-Datensatz zu tun, der als digits.csv
zur Verfügung steht.
Es gibt verschiedene Argumente, die pd.read_csv()
entgegennimmt, die dir bei dieser Übung nützlich sein könnten:
- Mit
nrows
kannst du angeben, wie viele Zeilen aus der Datei gelesen werden sollen. Mitnrows=10
werden zum Beispiel nur die ersten 10 Zeilen importiert. header
akzeptiert Zeilennummern, die als Spaltenbeschriftungen verwendet werden sollen, und stellt den Beginn der Daten dar. Wenn die Datei keine Kopfzeile enthält, kannst duheader=None
aktivieren.pandas
weist dann automatisch ganzzahlige Spaltenbezeichnungen zu, die bei 0 beginnen (z. B. 0, 1, 2, …).
Diese Übung ist Teil des Kurses
Einführung in das Importieren von Daten in Python
Anleitung zur Übung
- Importiere die ersten 5 Zeilen der Datei mit der Funktion
pd.read_csv()
in einen DataFrame und weise das Ergebnisdata
zu. Du musst die Argumentenrows
undheader
verwenden. Beachte, dass es in dieser Datei keine Kopfzeile gibt. - Erstelle ein
numpy
-Array aus dem resultierenden DataFrame indata
und weise esdata_array
zu. - Führe
print(type(data_array))
aus, um den Datentyp vondata_array
auszugeben.
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Assign the filename: file
file = 'digits.csv'
# Read the first 5 rows of the file into a DataFrame: data
data = ____(____, ____, ____)
# Build a numpy array from the DataFrame: data_array
data_array = ____
# Print the datatype of data_array to the shell
print(type(data_array))