Spalten mit SQL auswählen
Datensätze können Spalten enthalten, die für eine Analyse nicht benötigt werden – so auch die Tabelle weather in data.db. Manche, wie die Höhe über dem Meeresspiegel, sind redundant, weil alle Beobachtungen am gleichen Ort gemacht wurden, andere enthalten Variablen, die uns nicht interessieren. Nachdem du eine Datenbank-Engine erstellt hast, schreibst du eine Abfrage, die mit SELECT nur das Datum und die Temperaturspalten auswählt, und übergibst beides an read_sql(), um ein DataFrame mit Höchst- und Tiefsttemperaturen zu erstellen.
pandas wurde als pd geladen und create_engine() aus sqlalchemy importiert.
Hinweis: Der SQL-Checker ist ziemlich pingelig bei der Spaltenreihenfolge und erwartet, dass die Felder in der angegebenen Reihenfolge ausgewählt werden.
Diese Übung ist Teil des Kurses
Vereinfachte Datenaufnahme mit pandas
Anleitung zur Übung
- Erstelle eine Datenbank-Engine für
data.db. - Schreibe eine SQL-Abfrage, die die Spalten
date,tmaxundtminaus der TabelleweatherSELECT-iert. - Erzeuge ein DataFrame, indem du die Abfrage und die Engine an
read_sql()übergibst, und weise das resultierende DataFrametemperatureszu.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Create database engine for data.db
engine = ____
# Write query to get date, tmax, and tmin from weather
query = """
SELECT ____,
____,
____
FROM ____;
"""
# Make a dataframe by passing query and engine to read_sql()
temperatures = ____
# View the resulting dataframe
print(temperatures)