Datentypen von Bewertungen

Markus schaut viele Filme, darunter Dokus, Superheldenfilme, Klassiker und Dramen. Greife auf deine bisherigen Spark-Erfahrungen zurück und nutze das DataFrame markus_ratings, das enthält, wie oft Markus Filme in verschiedenen Genres gesehen hat, und überlege, ob es sich dabei um implizite oder explizite Bewertungen handelt. Verwende die Methode groupBy(), um festzustellen, welches Genre die höchste Bewertung hat – das könnte beeinflussen, welche Empfehlungen ALS für Markus generieren würde.

Diese Übung ist Teil des Kurses

<Kurs>Recommendation Engines mit PySpark erstellen</Kurs>

Übungsanweisungen

Verwende die Methode groupBy(), um das DataFrame markus_ratings nach "Genre" zu gruppieren.
Wende die Methode .sum() an, um die Gesamtanzahl der gesehenen Filme je Genre zu erhalten.
Füge am Ende unbedingt .show() hinzu, um dir die Zählwerte anzeigen zu lassen.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Group the data by "Genre"
markus_ratings.____("____").____().____()

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

<Kurs>Recommendation Engines mit PySpark erstellen</Kurs>

Hohe SchwierigkeitSchwierigkeitsgrad

4.9+

Kurs kostenlos starten

Dieses Kapitel zeigt dir, wie leistungsfähig Recommendation Engines sein können, und erklärt die wichtigen Unterschiede zwischen Collaborative-Filtering-Engines und Content-basierten Engines sowie die verschiedenen Arten von impliziten und expliziten Daten, die Recommendation Engines nutzen können. Außerdem lernst du eine sehr wirkungsvolle Methode kennen, um verborgene Merkmale (Latent Features) in Kundendatensätzen aufzudecken, von deren Existenz du vielleicht noch gar nichts weißt.

Exercise 1: Warum solltest du lernen, Empfehlungsmaschinen zu bauen?Exercise 2: Erlebe, wie stark ein Recommendation-Engine ist Exercise 3: Die Macht von Recommendation-Engines Exercise 4: Arten von Empfehlungssystemen und Datentypen Exercise 5: Collaborative Filtering vs. Content-based Filtering Exercise 6: Collaborative vs. Content-based Filtering, Teil II Exercise 7: Implizite vs. explizite Daten Exercise 8: Datentypen von Bewertungen

Aktuelle Übung

Exercise 9: Einsatzmöglichkeiten von Empfehlungssystemen Exercise 10: Alternative Einsatzmöglichkeiten von Empfehlungssystemen.Exercise 11: Verständnis von latenten Merkmalen überprüfen

In diesem Kapitel wiederholst du Grundlagen der Matrixmultiplikation und Matrixfaktorisierung und tauchst ein in die Funktionsweise des Alternating-Least-Squares-Algorithmus – inklusive der Argumente und Hyperparameter, mit denen er die bestmöglichen Empfehlungen liefert. Außerdem lernst du wichtige Techniken kennen, um deine Daten in Spark richtig für ALS aufzubereiten.

Exercise 1: Überblick über die Matrixmultiplikation Exercise 2: Matrixmultiplikation Exercise 3: Matrizenmultiplikation Teil II Exercise 4: Überblick über die Matrixfaktorisierung Exercise 5: Matrixfaktorisierung Exercise 6: Nichtnegative Matrixfaktorisierung Exercise 7: Wie ALS alterniert, um Vorhersagen zu erzeugen Exercise 8: Empfehlungen abschätzen Exercise 9: RMSE während der ALS-Iteration Exercise 10: Datenaufbereitung für Spark ALS Exercise 11: Korrektes Format und eindeutige Nutzer Exercise 12: Ganzzahl-IDs für Filme vergeben Exercise 13: ALS-Parameter und -Hyperparameter Exercise 14: Ein ALS-Modell aufbauen Exercise 15: RMSE-Evaluator erstellen Exercise 16: RMSE ermitteln

In diesem Kapitel lernst du den MovieLens-Datensatz kennen. Du gehst Schritt für Schritt durch die Beurteilung seiner Eignung für ALS, baust darauf ein vollständig kreuzvalidiertes ALS-Modell auf und lernst, seine Performance zu evaluieren. Das bildet die Grundlage für alle weiteren ALS-Modelle, die du mit PySpark erstellst.

Exercise 1: Einführung in den MovieLens-Datensatz Exercise 2: MovieLens-Daten ansehen Exercise 3: Sparsamkeit berechnen Exercise 4: Die Methoden GroupBy und Filter Exercise 5: MovieLens: zusammenfassende Statistiken Exercise 6: Schema anzeigen Exercise 7: ALS-Modellaufbau auf dem MovieLens-Datensatz Exercise 8: Train/Test-Splits erstellen und dein ALS‑Modell bauen Exercise 9: Sag Spark, wie es dein ALS-Modell abstimmen soll Exercise 10: Erstelle deine Cross-Validation-Pipeline Exercise 11: Bestes Modell und Modellparameter Exercise 12: Bewertung der Modellleistung Exercise 13: Vorhersagen erzeugen und RMSE berechnen Exercise 14: Das RMSE interpretieren Exercise 15: Ergeben die Empfehlungen Sinn

In den meisten realen Situationen stehen dir keine „perfekten“ Kundendaten für den Aufbau eines ALS-Modells zur Verfügung. In diesem Kapitel lernst du, wie du aus dem Kundenverhalten Bewertungen „ableiten“ kannst und diese abgeleiteten Bewertungen zum Aufbau einer ALS-Recommendation-Engine nutzt. Mithilfe des Million Songs-Datensatzes sowie einer weiteren Version des MovieLens-Datensatzes zeigt dir dieses Kapitel, wie du die verfügbaren Daten verwendest, um mit ALS eine Recommendation Engine zu bauen und ihre Performance zu bewerten.

Exercise 1: Einführung in den Million Songs Dataset Exercise 2: Verstehe Konzepte impliziter Bewertungen bestätigen Exercise 3: MSD – zusammenfassende Statistiken Exercise 4: Gruppierte zusammenfassende Statistiken Exercise 5: Nullen hinzufügen Exercise 6: Implizite Bewertungsmodelle evaluieren Exercise 7: ALS-Hyperparameter festlegen Exercise 8: Implizite Modelle bauen Exercise 9: Ein cross-validiertes implizites ALS-Modell ausführen Exercise 10: Parameter extrahieren Exercise 11: Überblick über binäre, implizite Bewertungen Exercise 12: Leistung des binären Modells Exercise 13: Empfehlungen aus binären Daten Exercise 14: Kursrückblick