Avaliação do agrupamento de grãos
No exercício anterior, você observou no gráfico de inércia que 3 é um bom número de clusters para os dados de grãos. Na verdade, as amostras de grãos são provenientes de uma mistura de três variedades diferentes de grãos: "Kama", "Rosa" e "Canadian". Neste exercício, agrupe as amostras de grãos em três grupos e compare os grupos com as variedades de grãos usando uma tabulação cruzada.
Você tem a matriz samples de amostras de grãos e uma lista varieties com a variedade de grãos de cada amostra. Os pandas (pd) e KMeans já foram importados para você.
Este exercício faz parte do curso
Aprendizado não supervisionado em Python
Instruções do exercício
- Crie um modelo
KMeanschamadomodelcom clusters3. - Use o método
.fit_predict()demodelpara ajustá-lo asamplese derivar os rótulos de cluster. Usar.fit_predict()é o mesmo que usar.fit()seguido de.predict(). - Crie um DataFrame
dfcom duas colunas denominadas'labels'e'varieties', usandolabelsevarieties, respectivamente, para os valores das colunas. Isso foi feito para você. - Use a função
pd.crosstab()emdf['labels']edf['varieties']para contar o número de vezes que cada variedade de grão coincide com cada rótulo de cluster. Atribua o resultado act. - Clique em enviar para ver a tabulação cruzada!
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create a KMeans model with 3 clusters: model
model = ____
# Use fit_predict to fit model and obtain cluster labels: labels
labels = ____
# Create a DataFrame with labels and varieties as columns: df
df = pd.DataFrame({'labels': labels, 'varieties': varieties})
# Create crosstab: ct
ct = ____
# Display ct
print(ct)