pandas zum Importieren von Flat Files als DataFrames verwenden (2)

In der letzten Übung hast du Flat Files in einen pandas-DataFrame importiert. Als Bonus ist es dann ganz einfach, das entsprechende numpy-Array mit der Methode .to_numpy() aufzurufen. Du hast jetzt die Chance, dies mit dem MNIST-Datensatz zu tun, der als digits.csv zur Verfügung steht.

Es gibt verschiedene Argumente, die pd.read_csv() entgegennimmt, die dir bei dieser Übung nützlich sein könnten:

Mit nrows kannst du angeben, wie viele Zeilen aus der Datei gelesen werden sollen. Mit nrows=10 werden zum Beispiel nur die ersten 10 Zeilen importiert.
header akzeptiert Zeilennummern, die als Spaltenbeschriftungen verwendet werden sollen, und stellt den Beginn der Daten dar. Wenn die Datei keine Kopfzeile enthält, kannst du header=None aktivieren. pandas weist dann automatisch ganzzahlige Spaltenbezeichnungen zu, die bei 0 beginnen (z. B. 0, 1, 2, …).

Diese Übung ist Teil des Kurses

<Kurs>Einführung in das Importieren von Daten in Python</Kurs>

Kurs ansehen

Übungsanweisungen

Importiere die ersten 5 Zeilen der Datei mit der Funktion pd.read_csv() in einen DataFrame und weise das Ergebnis data zu. Du musst die Argumente nrows und header verwenden. Beachte, dass es in dieser Datei keine Kopfzeile gibt.
Erstelle ein numpy-Array aus dem resultierenden DataFrame in data und weise es data_array zu.
Führe print(type(data_array)) aus, um den Datentyp von data_array auszugeben.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Assign the filename: file
file = 'digits.csv'

# Read the first 5 rows of the file into a DataFrame: data
data = ____(____, ____, ____)

# Build a numpy array from the DataFrame: data_array
data_array = ____

# Print the datatype of data_array to the shell
print(type(data_array))

Code bearbeiten und ausführen