1. Nauka
  2. /
  3. Kursy
  4. /
  5. Podstawy Big Data z PySpark

Connected

ćwiczenie

Wczytywanie zbioru danych MovieLens do RDD

Filtrowanie kolaboratywne to technika stosowana w systemach rekomendacyjnych, w której oceny i interakcje użytkowników z różnymi produktami służą do sugerowania nowych pozycji. Wraz z rozwojem uczenia maszynowego i przetwarzania równoległego systemy rekomendacyjne zyskały dużą popularność i są wykorzystywane w wielu dziedzinach – od filmów i muzyki, przez książki i artykuły naukowe, po zapytania wyszukiwarek i tagi społecznościowe. W tym trzyczęściowym ćwiczeniu zbudujesz prosty system rekomendacji filmów przy użyciu PySpark MLlib, korzystając z fragmentu zbioru danych MovieLens 100k.

W pierwszej części wczytasz dane MovieLens (ratings.csv) do RDD. Każda linia RDD ma format userId,movieId,rating,timestamp – musisz odwzorować dane MovieLens na obiekt klasy Rating (userID, productID, rating), usuwając kolumnę timestamp, a następnie podzielić RDD na zbiory treningowy i testowy.

Pamiętaj, że w przestrzeni roboczej masz dostęp do SparkContext sc. Zmienna file_path (ścieżka do pliku ratings.csv) oraz klasa ALS (Rating) są już dostępne w przestrzeni roboczej.

Instrukcje

100 XP
  • Wczytaj zbiór danych ratings.csv do RDD.
  • Podziel RDD, używając , jako separatora.
  • Dla każdej linii RDD utwórz krotkę userID, productID, rating, korzystając z klasy Rating().
  • Losowo podziel dane na zbiór treningowy i testowy (0.8 i 0.2).