1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Machine Learning for Marketing in Python

Connected

cvičení

Určení optimálního počtu clusterů

V tomto cvičení použiješ metodu loketního kritéria (elbow criterion) k určení optimálního počtu clusterů – tedy bodu, kde se pokles součtu čtverců chyb stává zanedbatelným. Jde o důležitý krok, který ti matematicky napoví, kolik clusterů má smysl testovat. Projdeš několik hodnot k a pro každou spustíš algoritmus KMeans, pak vykreslíš chyby proti jednotlivým hodnotám k a najdeš „loket" – místo, kde se pokles chyb začíná zpomalovat.

Modul KMeans je načtený ze sklearn.cluster, knihovna seaborn je dostupná jako sns a modul matplotlib.pyplot jako plt. Škálovaná datová sada je načtená jako wholesale_scaled_df ve formě pandas DataFrame.

Pokyny

100 XP
  • Vytvoř prázdný slovník sse.
  • Natrénuj algoritmus KMeans pro hodnoty k od 1 do 11 a chyby ukládej do slovníku sse.
  • Přidej do grafu nadpis.
  • Vytvoř bodový graf s klíči na ose X a hodnotami na ose Y a graf zobraz.