Basistests op clusters
In de FIFA 18-gegevensset hebben we ons in eerdere oefeningen gericht op verdedigers. Laten we nu inzoomen op de aanvallende eigenschappen van een speler. Pace (pac), Dribbling (dri) en Shooting (sho) zijn kenmerken die je vooral ziet bij aanvallend ingestelde spelers. In deze oefening is k-means clustering al toegepast op de gegevens met de geschaalde waarden van deze drie kenmerken. Voer een paar basistests uit op de gevormde clusters.
De data staat in een pandas DataFrame, fifa. De namen van de geschaalde kolommen staan in een lijst scaled_features. De clusterlabels zijn opgeslagen in de kolom cluster_labels. Denk eraan dat de methoden .count() en .mean() in pandas je helpen om het aantal observaties en het gemiddelde van observaties in een DataFrame te vinden.
Deze oefening maakt deel uit van de cursus
Clusteranalyse in Python
Oefeninstructies
- Print de grootte van de clusters door te groeperen op de kolom
cluster_labels. - Print de gemiddelde lonen van de spelers in elke cluster.
eur_wageis de kolomnaam waarin het loon van een speler in euro’s is opgeslagen.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Print the size of the clusters
print(fifa.____(____)['ID'].count())
# Print the mean value of wages in each cluster
print(fifa.____(____)['eur_wage'].____())