1. Nauka
  2. /
  3. Kursy
  4. /
  5. Podstawy Big Data z PySpark

Connected

ćwiczenie

Wczytywanie i parsowanie zbioru 5000 punktów

Klastrowanie to zadanie uczenia nienadzorowanego polegające na grupowaniu obiektów w klastry o wysokim stopniu podobieństwa. W odróżnieniu od zadań nadzorowanych, gdzie dane są etykietowane, klastrowanie pozwala wyciągać wnioski z danych bez etykiet. PySpark MLlib zawiera popularny algorytm k-średnich (K-means) do klastrowania. W tym trzyczęściowym ćwiczeniu sprawdzisz, ile klastrów można wyróżnić w zbiorze danych zawierającym 5000 wierszy i 2 kolumny. W tym celu najpierw wczytasz dane do RDD, sparsuje RDD na podstawie separatora, uruchomisz model KMeans, ocenisz go, a na końcu zwizualizujesz klastry.

W pierwszej części wczytasz dane do RDD, sparsuje RDD na podstawie separatora i przekonwertujesz dane z typu tekstowego na liczby całkowite.

Pamiętaj, że w swoim środowisku pracy masz dostępny SparkContext sc. Zmienna file_path (ścieżka do pliku 5000_points.txt) jest już dostępna w środowisku pracy.

Instrukcje

100 XP
  • Wczytaj zbiór danych 5000_points do RDD o nazwie clusterRDD.
  • Przekształć clusterRDD, dzieląc wiersze na podstawie tabulatora ("\t").
  • Przekształć podzielone RDD, tworząc listę liczb całkowitych dla obu kolumn.
  • Sprawdź, czy zbiór danych zawiera 5000 wierszy.