Wczytywanie i parsowanie zbioru 5000 punktów

Klastrowanie to zadanie uczenia nienadzorowanego polegające na grupowaniu obiektów w klastry o wysokim stopniu podobieństwa. W odróżnieniu od zadań nadzorowanych, gdzie dane są etykietowane, klastrowanie pozwala wyciągać wnioski z danych bez etykiet. PySpark MLlib zawiera popularny algorytm k-średnich (K-means) do klastrowania. W tym trzyczęściowym ćwiczeniu sprawdzisz, ile klastrów można wyróżnić w zbiorze danych zawierającym 5000 wierszy i 2 kolumny. W tym celu najpierw wczytasz dane do RDD, sparsuje RDD na podstawie separatora, uruchomisz model KMeans, ocenisz go, a na końcu zwizualizujesz klastry.

W pierwszej części wczytasz dane do RDD, sparsuje RDD na podstawie separatora i przekonwertujesz dane z typu tekstowego na liczby całkowite.

Pamiętaj, że w swoim środowisku pracy masz dostępny SparkContext sc. Zmienna file_path (ścieżka do pliku 5000_points.txt) jest już dostępna w środowisku pracy.

Wczytaj zbiór danych 5000_points do RDD o nazwie clusterRDD.
Przekształć clusterRDD, dzieląc wiersze na podstawie tabulatora ("\t").
Przekształć podzielone RDD, tworząc listę liczb całkowitych dla obu kolumn.
Sprawdź, czy zbiór danych zawiera 5000 wierszy.

ćwiczenie

Wczytywanie i parsowanie zbioru 5000 punktów

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie