Sélectionner des colonnes avec SQL
Les jeux de données peuvent contenir des colonnes qui ne sont pas nécessaires à une analyse, comme c’est le cas de la table weather dans data.db. Certaines, comme l’altitude, sont redondantes puisque toutes les observations ont eu lieu au même endroit, tandis que d’autres portent sur des variables qui ne nous intéressent pas. Après avoir créé un moteur de base de données, vous écrirez une requête pour SELECT uniquement les colonnes de date et de température, puis vous passerez les deux à read_sql() afin de créer un dataframe des températures maximales et minimales.
pandas a été importé sous le nom pd, et create_engine() a été importé depuis sqlalchemy.
Remarque : Le vérificateur SQL est assez strict concernant l’ordre des colonnes et s’attend à ce que les champs soient sélectionnés dans l’ordre indiqué.
Cet exercice fait partie du cours
Ingestion de données simplifiée avec pandas
Instructions
- Créez un moteur de base de données pour
data.db. - Écrivez une requête SQL qui
SELECTles colonnesdate,tmaxettminde la tableweather. - Créez un dataframe en passant la requête et le moteur à
read_sql()et affectez le dataframe obtenu àtemperatures.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create database engine for data.db
engine = ____
# Write query to get date, tmax, and tmin from weather
query = """
SELECT ____,
____,
____
FROM ____;
"""
# Make a dataframe by passing query and engine to read_sql()
temperatures = ____
# View the resulting dataframe
print(temperatures)