CommencerCommencer gratuitement

Sélectionner des colonnes avec SQL

Les jeux de données peuvent contenir des colonnes qui ne sont pas nécessaires à une analyse, comme c’est le cas de la table weather dans data.db. Certaines, comme l’altitude, sont redondantes puisque toutes les observations ont eu lieu au même endroit, tandis que d’autres portent sur des variables qui ne nous intéressent pas. Après avoir créé un moteur de base de données, vous écrirez une requête pour SELECT uniquement les colonnes de date et de température, puis vous passerez les deux à read_sql() afin de créer un dataframe des températures maximales et minimales.

pandas a été importé sous le nom pd, et create_engine() a été importé depuis sqlalchemy.

Remarque : Le vérificateur SQL est assez strict concernant l’ordre des colonnes et s’attend à ce que les champs soient sélectionnés dans l’ordre indiqué.

Cet exercice fait partie du cours

Ingestion de données simplifiée avec pandas

Afficher le cours

Instructions

  • Créez un moteur de base de données pour data.db.
  • Écrivez une requête SQL qui SELECT les colonnes date, tmax et tmin de la table weather.
  • Créez un dataframe en passant la requête et le moteur à read_sql() et affectez le dataframe obtenu à temperatures.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create database engine for data.db
engine = ____

# Write query to get date, tmax, and tmin from weather
query = """
SELECT ____, 
       ____, 
       ____
  FROM ____;
"""

# Make a dataframe by passing query and engine to read_sql()
temperatures = ____

# View the resulting dataframe
print(temperatures)
Modifier et exécuter le code