1. Nauka
  2. /
  3. Kursy
  4. /
  5. Podstawy Big Data z PySpark

Connected

ćwiczenie

Wizualizacja klastrów

Przed chwilą wytrenowano model k-średnich z optymalną wartością k (k=16) i wygenerowano centra klastrów (centroidy). W tym ostatnim ćwiczeniu zwizualizujesz klastry i centroidy, nakładając je na siebie. Pozwoli to ocenić jakość grupowania – w idealnym przypadku klastry powinny być wyraźnie od siebie oddzielone, a centroidy powinny znajdować się w środku swoich klastrów.

Aby to osiągnąć, najpierw przekonwertujesz RDD rdd_split_int na Spark DataFrame, a następnie na DataFrame biblioteki pandas, który można wykorzystać do tworzenia wykresów. Analogicznie przekonwertujesz cluster_centers na DataFrame biblioteki pandas. Po utworzeniu obu DataFrame'ów stworzysz wykresy punktowe przy użyciu Matplotlib.

W obszarze roboczym dostępne są: SparkContext sc, zmienne rdd_split_int i cluster_centers oraz pakiet matplotlib.pyplot (zaimportowany jako plt).

Instrukcje

100 XP
  • Przekonwertuj RDD rdd_split_int na Spark DataFrame, a następnie na DataFrame biblioteki pandas.
  • Utwórz DataFrame biblioteki pandas z listy cluster_centers.
  • Stwórz wykres punktowy na podstawie DataFrame pandas z surowymi danymi (rdd_split_int_df_pandas) i nałóż na niego wykres punktowy z DataFrame pandas centroidów (cluster_centers_pandas).