Clusteringlabels extraheren
In de vorige oefening zag je dat de tussentijdse clustering van de graanmonsters op hoogte 6 drie clusters heeft. Gebruik nu de functie fcluster() om de labels voor deze tussentijdse clustering te extraheren, en vergelijk de labels met de graanvariëteiten met behulp van een kruistabel.
De hiërarchische clustering is al uitgevoerd en mergings is het resultaat van de functie linkage(). De lijst varieties geeft de variëteit van elk graanmonster.
Deze oefening maakt deel uit van de cursus
Unsupervised Learning in Python
Oefeninstructies
- Importeer:
pandasalspd.fclusteruitscipy.cluster.hierarchy.
- Voer een platte hiërarchische clustering uit door
fcluster()opmergingstoe te passen. Geef een maximale hoogte van6en het keywordargumentcriterion='distance'op. - Maak een DataFrame
dfmet twee kolommen genaamd'labels'en'varieties', waarbij je respectievelijklabelsenvarietiesgebruikt als kolomwaarden. Dit is al voor je gedaan. - Maak een kruistabel
cttussendf['labels']endf['varieties']om te tellen hoe vaak elke graanvariëteit samenvalt met elk clusterlabel.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Perform the necessary imports
import ____ as ____
from ____ import ____
# Use fcluster to extract labels: labels
labels = ____
# Create a DataFrame with labels and varieties as columns: df
df = pd.DataFrame({'labels': labels, 'varieties': varieties})
# Create crosstab: ct
ct = ____
# Display ct
print(ct)