Tirer parti des micro-partitions et du clustering des données

Lors d’une brève discussion dans le couloir avec votre Lead Data Engineer, elle vous a indiqué que Snowflake utilise le clustering des données pour trier les enregistrements au sein des micro-partitions selon le champ year de la table olympic_medals. Vous exécutez régulièrement quelques requêtes sur cette table et vous souhaitez les mettre à jour pour mieux exploiter les micro-partitions et le clustering des données de Snowflake.

La fonction create_engine du module sqlalchemy a été importée, et un objet de connexion a été créé puis stocké dans la variable conn.

Cet exercice fait partie du cours

<cours>Introduction à NoSQL</cours>

Voir le cours

Instructions de l’exercice

Mettez à jour la requête Snowflake pour ne renvoyer que les enregistrements des Jeux qui ont eu lieu à partir de 2000.
Renvoyez les résultats de la requête Snowflake sous forme de DataFrame pandas et affichez l’ensemble des résultats.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Leverage the existing micro-partitions and data clustering
query = """
SELECT
	team,
    year,
    sport,
    event,
    medal
FROM olympic_medals
____ year >= ____;
"""

# Execute the query, print the results
results = conn.cursor().____(query).fetch_pandas_all()
print(____)

Modifier et exécuter le code