Ganzzahl-IDs für Filme vergeben

Machen wir dasselbe für die Filme. Anschließend verbinden wir die neuen User-IDs und Film-IDs in einem DataFrame.

Diese Übung ist Teil des Kurses

<Kurs>Recommendation Engines mit PySpark erstellen</Kurs>

Übungsanweisungen

Verwende die Methoden .select() und .distinct(), um alle eindeutigen Movies aus dem DataFrame ratings zu extrahieren.
Repartioniere das DataFrame movies mit coalesce() auf eine Partition.
Vervollständige den bereitgestellten Code, um jedem Film eine eindeutige ganze ID zuzuweisen. Nenne die neue Spalte movieId und rufe die Methode .persist() auf dem resultierenden DataFrame auf.
Führe einen Join des DataFrames ratings mit users und anschließend mit movies durch. Nenne das Ergebnis movie_ratings.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Extract the distinct movie id's
movies = ratings.select("____").distinct() 

# Repartition the data to have only one partition.
movies = movies.coalesce(____) 

# Create a new column of movieId integers. 
movies = movies.withColumn("____", monotonically_increasing_id()).____() 

# Join the ratings, users and movies dataframes
movie_ratings = ratings.join(____, "User", "left").join(____, "Movie", "left")
movie_ratings.show()

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

<Kurs>Recommendation Engines mit PySpark erstellen</Kurs>

Hohe SchwierigkeitSchwierigkeitsgrad

4.9+

Kurs kostenlos starten

Dieses Kapitel zeigt dir, wie leistungsfähig Recommendation Engines sein können, und erklärt die wichtigen Unterschiede zwischen Collaborative-Filtering-Engines und Content-basierten Engines sowie die verschiedenen Arten von impliziten und expliziten Daten, die Recommendation Engines nutzen können. Außerdem lernst du eine sehr wirkungsvolle Methode kennen, um verborgene Merkmale (Latent Features) in Kundendatensätzen aufzudecken, von deren Existenz du vielleicht noch gar nichts weißt.

Exercise 1: Warum solltest du lernen, Empfehlungsmaschinen zu bauen?Exercise 2: Erlebe, wie stark ein Recommendation-Engine ist Exercise 3: Die Macht von Recommendation-Engines Exercise 4: Arten von Empfehlungssystemen und Datentypen Exercise 5: Collaborative Filtering vs. Content-based Filtering Exercise 6: Collaborative vs. Content-based Filtering, Teil II Exercise 7: Implizite vs. explizite Daten Exercise 8: Datentypen von Bewertungen Exercise 9: Einsatzmöglichkeiten von Empfehlungssystemen Exercise 10: Alternative Einsatzmöglichkeiten von Empfehlungssystemen.Exercise 11: Verständnis von latenten Merkmalen überprüfen

In diesem Kapitel wiederholst du Grundlagen der Matrixmultiplikation und Matrixfaktorisierung und tauchst ein in die Funktionsweise des Alternating-Least-Squares-Algorithmus – inklusive der Argumente und Hyperparameter, mit denen er die bestmöglichen Empfehlungen liefert. Außerdem lernst du wichtige Techniken kennen, um deine Daten in Spark richtig für ALS aufzubereiten.

Exercise 1: Überblick über die Matrixmultiplikation Exercise 2: Matrixmultiplikation Exercise 3: Matrizenmultiplikation Teil II Exercise 4: Überblick über die Matrixfaktorisierung Exercise 5: Matrixfaktorisierung Exercise 6: Nichtnegative Matrixfaktorisierung Exercise 7: Wie ALS alterniert, um Vorhersagen zu erzeugen Exercise 8: Empfehlungen abschätzen Exercise 9: RMSE während der ALS-Iteration Exercise 10: Datenaufbereitung für Spark ALS Exercise 11: Korrektes Format und eindeutige Nutzer Exercise 12: Ganzzahl-IDs für Filme vergeben

Aktuelle Übung

Exercise 13: ALS-Parameter und -Hyperparameter Exercise 14: Ein ALS-Modell aufbauen Exercise 15: RMSE-Evaluator erstellen Exercise 16: RMSE ermitteln

In diesem Kapitel lernst du den MovieLens-Datensatz kennen. Du gehst Schritt für Schritt durch die Beurteilung seiner Eignung für ALS, baust darauf ein vollständig kreuzvalidiertes ALS-Modell auf und lernst, seine Performance zu evaluieren. Das bildet die Grundlage für alle weiteren ALS-Modelle, die du mit PySpark erstellst.

Exercise 1: Einführung in den MovieLens-Datensatz Exercise 2: MovieLens-Daten ansehen Exercise 3: Sparsamkeit berechnen Exercise 4: Die Methoden GroupBy und Filter Exercise 5: MovieLens: zusammenfassende Statistiken Exercise 6: Schema anzeigen Exercise 7: ALS-Modellaufbau auf dem MovieLens-Datensatz Exercise 8: Train/Test-Splits erstellen und dein ALS‑Modell bauen Exercise 9: Sag Spark, wie es dein ALS-Modell abstimmen soll Exercise 10: Erstelle deine Cross-Validation-Pipeline Exercise 11: Bestes Modell und Modellparameter Exercise 12: Bewertung der Modellleistung Exercise 13: Vorhersagen erzeugen und RMSE berechnen Exercise 14: Das RMSE interpretieren Exercise 15: Ergeben die Empfehlungen Sinn

In den meisten realen Situationen stehen dir keine „perfekten“ Kundendaten für den Aufbau eines ALS-Modells zur Verfügung. In diesem Kapitel lernst du, wie du aus dem Kundenverhalten Bewertungen „ableiten“ kannst und diese abgeleiteten Bewertungen zum Aufbau einer ALS-Recommendation-Engine nutzt. Mithilfe des Million Songs-Datensatzes sowie einer weiteren Version des MovieLens-Datensatzes zeigt dir dieses Kapitel, wie du die verfügbaren Daten verwendest, um mit ALS eine Recommendation Engine zu bauen und ihre Performance zu bewerten.

Exercise 1: Einführung in den Million Songs Dataset Exercise 2: Verstehe Konzepte impliziter Bewertungen bestätigen Exercise 3: MSD – zusammenfassende Statistiken Exercise 4: Gruppierte zusammenfassende Statistiken Exercise 5: Nullen hinzufügen Exercise 6: Implizite Bewertungsmodelle evaluieren Exercise 7: ALS-Hyperparameter festlegen Exercise 8: Implizite Modelle bauen Exercise 9: Ein cross-validiertes implizites ALS-Modell ausführen Exercise 10: Parameter extrahieren Exercise 11: Überblick über binäre, implizite Bewertungen Exercise 12: Leistung des binären Modells Exercise 13: Empfehlungen aus binären Daten Exercise 14: Kursrückblick