1. Nauka
  2. /
  3. Kursy
  4. /
  5. Podstawy Big Data z PySpark

Connected

ćwiczenie

Trening K-means

Teraz, gdy RDD jest gotowe do treningu, w tej 2. części przetestujesz je dla wartości k od 13 do 16 (aby skrócić czas obliczeń) i zastosujesz metodę łokcia, aby wybrać odpowiednie k. Idea tej metody polega na uruchomieniu algorytmu K-means dla różnych wartości k, obliczeniu sumy kwadratów błędów wewnątrz klastrów (WSSSE) i wyborze najlepszego k na podstawie nagłego spadku WSSSE – czyli w miejscu, gdzie pojawia się „łokieć". Następnie ponownie wytrenojesz model z najlepszym k i wyznaczysz centroidy (centra klastrów).

Pamiętaj, że w swoim środowisku pracy masz już dostępny SparkContext sc oraz RDD rdd_split_int.

Instrukcje

100 XP
  • Wytrenuj model KMeans dla liczby klastrów od 13 do 16 i wyświetl wartość WSSSE dla każdej z nich.
  • Wytrenuj model KMeans ponownie, używając najlepszego k.
  • Wyznacz centra klastrów (centroidy) modelu KMeans wytrenowanego z najlepszym k.