Pokémon-waarnemingen: hiërarchisch clusteren
We gaan verder met het onderzoek naar de waarnemingen van legendarische Pokémon uit de vorige oefening. Weet je nog dat je in de scatterplot van de vorige oefening twee gebieden zag met veel Pokémon-waarnemingen? Dat betekent dat de punten lijken te splitsen in twee clusters. In deze oefening vorm je twee clusters van de waarnemingen met hiërarchisch clusteren.
'x' en 'y' zijn kolommen met de X- en Y-coördinaten van de locaties van waarnemingen, opgeslagen in een pandas DataFrame, df. De volgende libraries zijn beschikbaar: matplotlib.pyplot als plt, seaborn als sns, en pandas als pd.
Deze oefening maakt deel uit van de cursus
Clusteranalyse in Python
Oefeninstructies
- Importeer de libraries
linkageenfcluster. - Gebruik de functie
linkage()om afstanden te berekenen met de ward-methode. - Genereer clusterlabels voor elk datapunt met twee clusters met de functie
fcluster(). - Plot de punten met seaborn en geef elk cluster een andere kleur.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import linkage and fcluster functions
from scipy.cluster.hierarchy import ____, ____
# Use the linkage() function to compute distance
Z = ____(____, 'ward')
# Generate cluster labels
df['cluster_labels'] = ____(____, ____, criterion='maxclust')
# Plot the points with seaborn
sns.scatterplot(x=____, y=____, hue=____, data=df)
plt.show()