Trening K-means

Teraz, gdy RDD jest gotowe do treningu, w tej 2. części przetestujesz je dla wartości k od 13 do 16 (aby skrócić czas obliczeń) i zastosujesz metodę łokcia, aby wybrać odpowiednie k. Idea tej metody polega na uruchomieniu algorytmu K-means dla różnych wartości k, obliczeniu sumy kwadratów błędów wewnątrz klastrów (WSSSE) i wyborze najlepszego k na podstawie nagłego spadku WSSSE – czyli w miejscu, gdzie pojawia się „łokieć". Następnie ponownie wytrenojesz model z najlepszym k i wyznaczysz centroidy (centra klastrów).

Pamiętaj, że w swoim środowisku pracy masz już dostępny SparkContext sc oraz RDD rdd_split_int.

Wytrenuj model KMeans dla liczby klastrów od 13 do 16 i wyświetl wartość WSSSE dla każdej z nich.
Wytrenuj model KMeans ponownie, używając najlepszego k.
Wyznacz centra klastrów (centroidy) modelu KMeans wytrenowanego z najlepszym k.

ćwiczenie

Trening K-means

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie