Dokumentdaten bearbeiten

In diesem Kapitel hast du verschiedene Tools kennengelernt, um mit halbstrukturierten Dokumentdaten in Postgres zu arbeiten. In dieser letzten Übung setzt du all diese Werkzeuge ein, um einen analytics-fähigen Datensatz zu erstellen. Du arbeitest mit der Tabelle nested_reviews, die in der unten gezeigten Form vorliegt.

nested_reviews table, showing sample data.

Zum Einstieg wurde pandas bereits als pd importiert und ein Verbindungsobjekt erstellt und in der Variablen db_engine gespeichert. Viel Erfolg!

Diese Übung ist Teil des Kurses

Einführung in NoSQL

Kurs anzeigen

Anleitung zur Übung

Verwende den Operator #>, um das verschachtelte Feld branch aus dem Objekt location in der Spalte review als JSON zurückzugeben. Alias als branch.
Frage das Feld statement in der Spalte review mit dem Operator ->> ab und vergebe für das Ergebnis den Alias statement.
Filtere die Ergebnisse so, dass nur Datensätze mit einem reviewer-Standort von 'Australia' enthalten sind. Nutze dabei die Funktion json_extract_path_text.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Extract fields from JSON, and filter by reviewer location
query = """
    SELECT
    	review_id,
        ____ #> '{____, ____}' AS ____,
        ____ ->> '____' AS ____,
        rating
    FROM nested_reviews
    WHERE ____(____, '____', '____') = 'Australia'
    ORDER BY rating DESC;
"""

data = pd.read_sql(query, db_engine)
print(data)

Code bearbeiten und ausführen