Micro-Partitioning und Data Clustering nutzen
Bei einem kurzen Gespräch auf dem Flur hat dir deine Lead Data Engineerin erzählt, dass Snowflake Data Clustering nutzt, um die Daten innerhalb von Micro-Partitionen nach dem Feld year in der Tabelle olympic_medals zu sortieren. Du führst regelmäßig ein paar Abfragen gegen diese Tabelle aus und möchtest sie so anpassen, dass sie Snowflakes Micro-Partitionen und Data Clustering besser ausnutzen.
Die Funktion create_engine aus dem Modul sqlalchemy wurde importiert, und ein Verbindungsobjekt wurde erstellt und in der Variablen conn gespeichert.
Diese Übung ist Teil des Kurses
Einführung in NoSQL
Anleitung zur Übung
- Aktualisiere die Snowflake-Abfrage so, dass nur Datensätze für Spiele zurückgegeben werden, die 2000 oder später stattgefunden haben.
- Gib die Ergebnisse der Snowflake-Abfrage als
pandas-DataFramezurück und gib das Resultset aus.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Leverage the existing micro-partitions and data clustering
query = """
SELECT
team,
year,
sport,
event,
medal
FROM olympic_medals
____ year >= ____;
"""
# Execute the query, print the results
results = conn.cursor().____(query).fetch_pandas_all()
print(____)