LoslegenKostenlos loslegen

Bewertung des Getreide-Clusterings

In der vorherigen Übung hast du im Trägheitsdiagramm gesehen, dass Drei eine gute Cluster-Anzahl für die Getreidedaten ist. Tatsächlich stammen die Getreideproben aus einer Mischung von drei verschiedenen Sorten: „Kama“, „Rosa“ und „Canadian“. In dieser Übung clusterst du die Getreideproben in drei Cluster und vergleichst die Cluster mithilfe einer Kreuztabelle mit den Sorten.

Du hast das Array samples mit Getreideproben sowie eine Liste varieties, die für jede Probe die Sorte angibt. Pandas (pd) und KMeans sind bereits importiert.

Diese Übung ist Teil des Kurses

Unsupervised Learning in Python

Kurs anzeigen

Anleitung zur Übung

  • Erstelle ein KMeans-Modell namens model mit 3 Clustern.
  • Verwende die Methode .fit_predict() von model, um es auf samples zu fitten und die Cluster-Labels zu erhalten. Die Verwendung von .fit_predict() entspricht .fit() gefolgt von .predict().
  • Erstelle einen DataFrame df mit zwei Spalten namens 'labels' und 'varieties' und verwende dafür labels bzw. varieties als Spaltenwerte. Das wurde bereits für dich erledigt.
  • Verwende die Funktion pd.crosstab() auf df['labels'] und df['varieties'], um zu zählen, wie oft jede Sorte mit jedem Cluster-Label zusammenfällt. Weise den Ergebnis-DataFrame ct zu.
  • Klicke auf Antworten, um die Kreuztabelle zu sehen!

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Create a KMeans model with 3 clusters: model
model = ____

# Use fit_predict to fit model and obtain cluster labels: labels
labels = ____

# Create a DataFrame with labels and varieties as columns: df
df = pd.DataFrame({'labels': labels, 'varieties': varieties})

# Create crosstab: ct
ct = ____

# Display ct
print(ct)
Code bearbeiten und ausführen