Avaliando o agrupamento dos grãos
No exercício anterior, você viu no gráfico de inércia que 3 é um bom número de clusters para os dados de grãos. Na verdade, as amostras de grãos vêm de uma mistura de 3 variedades diferentes de grãos: “Kama”, “Rosa” e “Canadian”. Neste exercício, agrupe as amostras de grãos em três grupos e compare os grupos com as variedades de grãos usando uma tabulação cruzada.
Você tem a matriz samples
com amostras de grãos e uma lista varieties
com a variedade de grãos de cada amostra. Pandas (pd
) e KMeans
já foram importados pra você.
Este exercício faz parte do curso
Aprendizado não supervisionado em Python
Instruções do exercício
- Crie um modelo de
KMeans
chamadomodel
com clusters de3
. - Use o método “
.fit_predict()
” de “model
” para ajustá-lo a “samples
” e obter os rótulos do cluster. Usar.fit_predict()
é igual a usar.fit()
seguido de.predict()
. - Crie um DataFrame chamado “
df
” com duas colunas chamadas “'labels'
” e “'varieties'
”, usando “labels
” e “varieties
”, respectivamente, para os valores das colunas. Isso foi feito para você. - Use a função “
pd.crosstab()
” emdf['labels']
edf['varieties']
para contar quantas vezes cada tipo de grão aparece com cada rótulo de grupo. Atribua o resultado act
. - Clique em enviar para ver a tabulação cruzada!
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create a KMeans model with 3 clusters: model
model = ____
# Use fit_predict to fit model and obtain cluster labels: labels
labels = ____
# Create a DataFrame with labels and varieties as columns: df
df = pd.DataFrame({'labels': labels, 'varieties': varieties})
# Create crosstab: ct
ct = ____
# Display ct
print(ct)