Grundlegende Checks für Cluster
Im FIFA-18-Datensatz haben wir uns in den vorherigen Übungen auf Verteidiger konzentriert. Lass uns jetzt die offensiven Attribute eines Spielers in den Blick nehmen. Pace (pac), Dribbling (dri) und Schuss (sho) sind Merkmale, die bei offensiv ausgerichteten Spielern vorkommen. In dieser Übung wurde k-means-Clustering bereits auf die Daten angewendet, und zwar mit den skalierten Werten dieser drei Attribute. Führe ein paar grundlegende Checks für die so gebildeten Cluster durch.
Die Daten liegen in einem pandas-DataFrame fifa. Die Namen der skalierten Spalten stehen in einer Liste scaled_features. Die Cluster-Labels sind in der Spalte cluster_labels gespeichert. Denk daran: Mit den pandas-Methoden .count() und .mean() findest du die Anzahl der Beobachtungen bzw. den Mittelwert der Beobachtungen in einem DataFrame.
Diese Übung ist Teil des Kurses
Cluster Analysis in Python
Anleitung zur Übung
- Gib die Größe der Cluster aus, indem du nach der Spalte
cluster_labelsgruppierst. - Gib die Durchschnittswerte der Gehälter der Spieler in jedem Cluster aus.
eur_wageist der Spaltenname, in dem das Gehalt eines Spielers in Euro gespeichert ist.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Print the size of the clusters
print(fifa.____(____)['ID'].count())
# Print the mean value of wages in each cluster
print(fifa.____(____)['eur_wage'].____())