Tirer parti des micro-partitions et du clustering des données
Lors d’une brève discussion dans le couloir avec votre Lead Data Engineer, elle vous a indiqué que Snowflake utilise le clustering des données pour trier les enregistrements au sein des micro-partitions selon le champ year de la table olympic_medals. Vous exécutez régulièrement quelques requêtes sur cette table et vous souhaitez les mettre à jour pour mieux exploiter les micro-partitions et le clustering des données de Snowflake.
La fonction create_engine du module sqlalchemy a été importée, et un objet de connexion a été créé puis stocké dans la variable conn.
Cet exercice fait partie du cours
Introduction à NoSQL
Instructions
- Mettez à jour la requête Snowflake pour ne renvoyer que les enregistrements des Jeux qui ont eu lieu à partir de 2000.
- Renvoyez les résultats de la requête Snowflake sous forme de
DataFramepandaset affichez l’ensemble des résultats.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Leverage the existing micro-partitions and data clustering
query = """
SELECT
team,
year,
sport,
event,
medal
FROM olympic_medals
____ year >= ____;
"""
# Execute the query, print the results
results = conn.cursor().____(query).fetch_pandas_all()
print(____)