Schema anzeigen

Wie du aus den vorherigen Kapiteln weißt, verlangt Sparks Implementierung von ALS, dass movieIds und userIds als Integer-Datentypen vorliegen. Viele Datensätze müssen dafür entsprechend vorbereitet werden, damit sie mit Spark korrekt funktionieren. Ein häufiges Problem ist, dass Spark Zahlen für Strings hält – und umgekehrt.

Hier nutzt du die Methode .cast(), um solche Probleme zu beheben. Schau dir das Schema des Datensatzes an, um sicherzustellen, dass alles im richtigen Format vorliegt.

Diese Übung ist Teil des Kurses

<Kurs>Recommendation Engines mit PySpark erstellen</Kurs>

Übungsanweisungen

Verwende .printSchema(), um zu prüfen, ob der Ratings-Datensatz die passenden Datentypen hat, damit ALS korrekt funktioniert. Liegen userIds und movieIds als Integer-Datentypen vor? Sind die ratings numerisch?
Stelle sicher, dass die Spalten des DataFrames ratings die richtigen Datentypen haben. Rufe für jede Spalte cast() auf und setze die Spalten userID und movieId auf den Typ "integer" und die Spalte rating auf den Typ "double". (Die Spalte timestamp brauchen wir nicht, die können wir weglassen.)
Rufe erneut .printSchema() auf ratings auf, um zu bestätigen, dass die Datentypen jetzt korrekt sind.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Use .printSchema() to see the datatypes of the ratings dataset
ratings.____()

# Tell Spark to convert the columns to the proper data types
ratings = ratings.select(ratings.userId.cast("____"), ratings.movieId.cast("____"), ratings.rating.cast("____"))

# Call .printSchema() again to confirm the columns are now in the correct format
ratings.____()

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

<Kurs>Recommendation Engines mit PySpark erstellen</Kurs>

Hohe SchwierigkeitSchwierigkeitsgrad

4.9+

Kurs kostenlos starten

Dieses Kapitel zeigt dir, wie leistungsfähig Recommendation Engines sein können, und erklärt die wichtigen Unterschiede zwischen Collaborative-Filtering-Engines und Content-basierten Engines sowie die verschiedenen Arten von impliziten und expliziten Daten, die Recommendation Engines nutzen können. Außerdem lernst du eine sehr wirkungsvolle Methode kennen, um verborgene Merkmale (Latent Features) in Kundendatensätzen aufzudecken, von deren Existenz du vielleicht noch gar nichts weißt.

Exercise 1: Warum solltest du lernen, Empfehlungsmaschinen zu bauen?Exercise 2: Erlebe, wie stark ein Recommendation-Engine ist Exercise 3: Die Macht von Recommendation-Engines Exercise 4: Arten von Empfehlungssystemen und Datentypen Exercise 5: Collaborative Filtering vs. Content-based Filtering Exercise 6: Collaborative vs. Content-based Filtering, Teil II Exercise 7: Implizite vs. explizite Daten Exercise 8: Datentypen von Bewertungen Exercise 9: Einsatzmöglichkeiten von Empfehlungssystemen Exercise 10: Alternative Einsatzmöglichkeiten von Empfehlungssystemen.Exercise 11: Verständnis von latenten Merkmalen überprüfen

In diesem Kapitel wiederholst du Grundlagen der Matrixmultiplikation und Matrixfaktorisierung und tauchst ein in die Funktionsweise des Alternating-Least-Squares-Algorithmus – inklusive der Argumente und Hyperparameter, mit denen er die bestmöglichen Empfehlungen liefert. Außerdem lernst du wichtige Techniken kennen, um deine Daten in Spark richtig für ALS aufzubereiten.

Exercise 1: Überblick über die Matrixmultiplikation Exercise 2: Matrixmultiplikation Exercise 3: Matrizenmultiplikation Teil II Exercise 4: Überblick über die Matrixfaktorisierung Exercise 5: Matrixfaktorisierung Exercise 6: Nichtnegative Matrixfaktorisierung Exercise 7: Wie ALS alterniert, um Vorhersagen zu erzeugen Exercise 8: Empfehlungen abschätzen Exercise 9: RMSE während der ALS-Iteration Exercise 10: Datenaufbereitung für Spark ALS Exercise 11: Korrektes Format und eindeutige Nutzer Exercise 12: Ganzzahl-IDs für Filme vergeben Exercise 13: ALS-Parameter und -Hyperparameter Exercise 14: Ein ALS-Modell aufbauen Exercise 15: RMSE-Evaluator erstellen Exercise 16: RMSE ermitteln

In diesem Kapitel lernst du den MovieLens-Datensatz kennen. Du gehst Schritt für Schritt durch die Beurteilung seiner Eignung für ALS, baust darauf ein vollständig kreuzvalidiertes ALS-Modell auf und lernst, seine Performance zu evaluieren. Das bildet die Grundlage für alle weiteren ALS-Modelle, die du mit PySpark erstellst.

Exercise 1: Einführung in den MovieLens-Datensatz Exercise 2: MovieLens-Daten ansehen Exercise 3: Sparsamkeit berechnen Exercise 4: Die Methoden GroupBy und Filter Exercise 5: MovieLens: zusammenfassende Statistiken Exercise 6: Schema anzeigen

Aktuelle Übung

Exercise 7: ALS-Modellaufbau auf dem MovieLens-Datensatz Exercise 8: Train/Test-Splits erstellen und dein ALS‑Modell bauen Exercise 9: Sag Spark, wie es dein ALS-Modell abstimmen soll Exercise 10: Erstelle deine Cross-Validation-Pipeline Exercise 11: Bestes Modell und Modellparameter Exercise 12: Bewertung der Modellleistung Exercise 13: Vorhersagen erzeugen und RMSE berechnen Exercise 14: Das RMSE interpretieren Exercise 15: Ergeben die Empfehlungen Sinn

In den meisten realen Situationen stehen dir keine „perfekten“ Kundendaten für den Aufbau eines ALS-Modells zur Verfügung. In diesem Kapitel lernst du, wie du aus dem Kundenverhalten Bewertungen „ableiten“ kannst und diese abgeleiteten Bewertungen zum Aufbau einer ALS-Recommendation-Engine nutzt. Mithilfe des Million Songs-Datensatzes sowie einer weiteren Version des MovieLens-Datensatzes zeigt dir dieses Kapitel, wie du die verfügbaren Daten verwendest, um mit ALS eine Recommendation Engine zu bauen und ihre Performance zu bewerten.

Exercise 1: Einführung in den Million Songs Dataset Exercise 2: Verstehe Konzepte impliziter Bewertungen bestätigen Exercise 3: MSD – zusammenfassende Statistiken Exercise 4: Gruppierte zusammenfassende Statistiken Exercise 5: Nullen hinzufügen Exercise 6: Implizite Bewertungsmodelle evaluieren Exercise 7: ALS-Hyperparameter festlegen Exercise 8: Implizite Modelle bauen Exercise 9: Ein cross-validiertes implizites ALS-Modell ausführen Exercise 10: Parameter extrahieren Exercise 11: Überblick über binäre, implizite Bewertungen Exercise 12: Leistung des binären Modells Exercise 13: Empfehlungen aus binären Daten Exercise 14: Kursrückblick