LoslegenKostenlos loslegen

pandas zum Importieren von Flat Files als DataFrames verwenden (2)

In der letzten Übung hast du Flat Files in einen pandas-DataFrame importiert. Als Bonus ist es dann ganz einfach, das entsprechende numpy-Array mit der Methode .to_numpy() aufzurufen. Du hast jetzt die Chance, dies mit dem MNIST-Datensatz zu tun, der als digits.csv zur Verfügung steht.

Es gibt verschiedene Argumente, die pd.read_csv() entgegennimmt, die dir bei dieser Übung nützlich sein könnten:

  • Mit nrows kannst du angeben, wie viele Zeilen aus der Datei gelesen werden sollen. Mit nrows=10 werden zum Beispiel nur die ersten 10 Zeilen importiert.
  • header akzeptiert Zeilennummern, die als Spaltenbeschriftungen verwendet werden sollen, und stellt den Beginn der Daten dar. Wenn die Datei keine Kopfzeile enthält, kannst du header=None aktivieren. pandas weist dann automatisch ganzzahlige Spaltenbezeichnungen zu, die bei 0 beginnen (z. B. 0, 1, 2, …).

Diese Übung ist Teil des Kurses

Einführung in das Importieren von Daten in Python

Kurs anzeigen

Anleitung zur Übung

  • Importiere die ersten 5 Zeilen der Datei mit der Funktion pd.read_csv() in einen DataFrame und weise das Ergebnis data zu. Du musst die Argumente nrows und header verwenden. Beachte, dass es in dieser Datei keine Kopfzeile gibt.
  • Erstelle ein numpy-Array aus dem resultierenden DataFrame in data und weise es data_array zu.
  • Führe print(type(data_array)) aus, um den Datentyp von data_array auszugeben.

Interaktive Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Assign the filename: file
file = 'digits.csv'

# Read the first 5 rows of the file into a DataFrame: data
data = ____(____, ____, ____)

# Build a numpy array from the DataFrame: data_array
data_array = ____

# Print the datatype of data_array to the shell
print(type(data_array))
Code bearbeiten und ausführen