Avaliando o agrupamento dos grãos
No exercício anterior, você viu no gráfico de inércia que 3 é um bom número de clusters para os dados de grãos. Na verdade, as amostras de grãos vêm de uma mistura de 3 variedades diferentes de grãos: “Kama”, “Rosa” e “Canadian”. Neste exercício, agrupe as amostras de grãos em três grupos e compare os grupos com as variedades de grãos usando uma tabulação cruzada.
Você tem a matriz samples com amostras de grãos e uma lista varieties com a variedade de grãos de cada amostra. Pandas (pd) e KMeans já foram importados pra você.
Este exercício faz parte do curso
Aprendizado não supervisionado em Python
Instruções do exercício
- Crie um modelo de
KMeanschamadomodelcom clusters de3. - Use o método “
.fit_predict()” de “model” para ajustá-lo a “samples” e obter os rótulos do cluster. Usar.fit_predict()é igual a usar.fit()seguido de.predict(). - Crie um DataFrame chamado “
df” com duas colunas chamadas “'labels'” e “'varieties'”, usando “labels” e “varieties”, respectivamente, para os valores das colunas. Isso foi feito para você. - Use a função “
pd.crosstab()” emdf['labels']edf['varieties']para contar quantas vezes cada tipo de grão aparece com cada rótulo de grupo. Atribua o resultado act. - Clique em enviar para ver a tabulação cruzada!
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create a KMeans model with 3 clusters: model
model = ____
# Use fit_predict to fit model and obtain cluster labels: labels
labels = ____
# Create a DataFrame with labels and varieties as columns: df
df = pd.DataFrame({'labels': labels, 'varieties': varieties})
# Create crosstab: ct
ct = ____
# Display ct
print(ct)