Kolommen selecteren met SQL
Gegevenssets kunnen kolommen bevatten die je niet nodig hebt voor een analyse, zoals de weather-tabel in data.db. Sommige zijn, zoals hoogte, overbodig omdat alle observaties op dezelfde plek zijn gedaan, terwijl andere variabelen bevatten waarin we niet geïnteresseerd zijn. Nadat je een database-engine hebt gemaakt, schrijf je een query om met SELECT alleen de datum- en temperatuurkolommen op te halen, en geef je beide door aan read_sql() om een dataframe te maken met hoogste en laagste temperatuurmetingen.
pandas is geladen als pd, en create_engine() is geïmporteerd uit sqlalchemy.
Opmerking: De SQL-checker is vrij strikt over de positie van kolommen en verwacht dat velden in de opgegeven volgorde worden geselecteerd.
Deze oefening maakt deel uit van de cursus
Gestroomlijnde data-inname met pandas
Oefeninstructies
- Maak een database-engine voor
data.db. - Schrijf een SQL-query die de kolommen
date,tmaxentminuit de tabelweatherSELECT. - Maak een dataframe door de query en de engine aan
read_sql()door te geven en wijs het resulterende dataframe toe aantemperatures.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create database engine for data.db
engine = ____
# Write query to get date, tmax, and tmin from weather
query = """
SELECT ____,
____,
____
FROM ____;
"""
# Make a dataframe by passing query and engine to read_sql()
temperatures = ____
# View the resulting dataframe
print(temperatures)