Daten aus Parkettdateien extrahieren
Eine der gängigsten Möglichkeiten, Daten aus einem Quellsystem zu übernehmen, ist das Lesen von Daten aus einer Datei, z. B. einer CSV-Datei. Da die Daten immer größer werden, hat der Bedarf an besseren Dateiformaten zu neuen spaltenorientierten Dateitypen geführt, wie z.B. Parkettdateien.
In dieser Übung übst du das Extrahieren von Daten aus einer Parkettdatei.
Diese Übung ist Teil des Kurses
ETL und ELT in Python
Anleitung zur Übung
- Lies die Parkettdatei unter dem Pfad
"sales_data.parquet"
in einenpandas
DataFrame ein. - Überprüfe die Datentypen des DataFrames über
print()
ing. - Gib die Form des DataFrames und den Kopf des DataFrames aus.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
import pandas as pd
# Read the sales data into a DataFrame
sales_data = pd.____("____", engine="fastparquet")
# Check the data type of the columns of the DataFrames
print(sales_data.____)
# Print the shape of the DataFrame, as well as the head
print(sales_data.____)
print(sales_data.____())