Evaluación de la agrupación de granos

En el ejercicio anterior, observaste en el gráfico de inercia que 3 es un buen número de clústeres para los datos de los granos. De hecho, las muestras de grano proceden de una mezcla de 3 variedades de grano diferentes: "Kama", "Rosa" y "Canadian". En este ejercicio, agrupa las muestras de grano en tres clústeres, y compara los clústeres con las variedades de grano mediante una tabulación cruzada.

Tienes la matriz samples de muestras de grano, y una lista varieties que da la variedad de grano de cada muestra. Pandas (pd) y KMeans ya se han importado para ti.

Este ejercicio forma parte del curso

Aprendizaje no supervisado en Python

Instrucciones del ejercicio

Crea un modelo KMeans llamado model con clústeres 3.
Utiliza el método .fit_predict() de model para ajustarlo a samples y obtener las etiquetas de los clústeres. Utilizar .fit_predict() es lo mismo que utilizar .fit() seguido de .predict().
Crea un DataFrame df con dos columnas llamadas 'labels' y 'varieties', utilizando labels y varieties, respectivamente, para los valores de las columnas. Esto se te proporciona hecho.
Utiliza la función pd.crosstab() en df['labels'] y df['varieties'] para contar el número de veces que cada variedad de grano coincide con cada etiqueta de clúster. Asigna el resultado a ct.
¡Pulsa enviar para ver la tabulación cruzada!

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Create a KMeans model with 3 clusters: model
model = ____

# Use fit_predict to fit model and obtain cluster labels: labels
labels = ____

# Create a DataFrame with labels and varieties as columns: df
df = pd.DataFrame({'labels': labels, 'varieties': varieties})

# Create crosstab: ct
ct = ____

# Display ct
print(ct)

Editar y ejecutar código

Este ejercicio forma parte del curso

Aprendizaje no supervisado en Python

IntermedioNivel de habilidad

4.8+

Empieza el curso gratis

Aprende a descubrir los grupos subyacentes (o "clústeres") en un conjunto de datos. Al final de este capítulo, podrás agrupar empresas utilizando sus cotizaciones bursátiles, y distinguir diferentes especies agrupando sus medidas.

Exercise 1: Aprendizaje no supervisado Exercise 2: ¿Cuántas agrupaciones?Exercise 3: Agrupación de puntos 2D Exercise 4: Inspecciona tu agrupación Exercise 5: Evaluar una agrupación Exercise 6: ¿Cuántos clústeres de grano?Exercise 7: Evaluación de la agrupación de granos

Ejercicio actual

Exercise 8: Transformación de rasgos para mejorar las agrupaciones Exercise 9: Escala de datos de peces para la agrupación Exercise 10: Agrupación de los datos de los peces Exercise 11: Agrupación de acciones mediante K-Means Exercise 12: ¿Qué acciones se mueven juntas?

En este capítulo, aprenderás dos técnicas de aprendizaje no supervisado para la visualización de datos: la agrupación jerárquica y el t-SNE. La agrupación jerárquica agrupa las muestras de datos en clústeres cada vez más amplios, lo que da como resultado una visualización en forma de árbol de la jerarquía de clústeres resultante. El t-SNE proyecta las muestras de datos en un espacio bidimensional para que se pueda visualizar la proximidad entre ellas.

Exercise 1: Visualizar jerarquías Exercise 2: ¿Cuántas fusiones?Exercise 3: Agrupación jerárquica de los datos de los granos Exercise 4: Jerarquías de acciones Exercise 5: Etiquetas de clústeres en la agrupación jerárquica Exercise 6: ¿Qué grupos están más cerca?Exercise 7: ¡Vinculación diferente, agrupación jerárquica diferente!Exercise 8: Agrupaciones intermedias Exercise 9: Extraer las etiquetas de los clústeres Exercise 10: t-SNE para mapas bidimensionales Exercise 11: Visualización t-SNE del conjunto de datos sobre cereales Exercise 12: Un mapa t-SNE del mercado de valores

La reducción dimensional resume un conjunto de datos utilizando sus patrones comunes. En este capítulo, aprenderás cuál es la técnica más básica de reducción de dimensiones: el «análisis de componentes principales» (PCA). El PCA se suele utilizar antes del aprendizaje supervisado para mejorar el rendimiento y la generalización del modelo. También puede ser útil para el aprendizaje no supervisado. Por ejemplo, ¡utilizarás una variante del PCA que te permitirá agrupar los artículos de Wikipedia según su contenido!

Exercise 1: Visualización de la transformación PCA Exercise 2: Datos correlacionados en la naturaleza Exercise 3: Descorrelación de las mediciones de grano mediante el análisis de componentes principales (PCA)Exercise 4: Componentes principales Exercise 5: Dimensión intrínseca Exercise 6: El primer componente principal Exercise 7: Varianza de las características del PCA Exercise 8: Dimensión intrínseca de los datos de los peces Exercise 9: Reducción de dimensiones con el PCA Exercise 10: Reducción dimensional de las medidas de los peces Exercise 11: Una matriz tf-idf de frecuencia de palabras Exercise 12: Agrupación Wikipedia parte I Exercise 13: Agrupación de Wikipedia, parte II

En este capítulo, aprenderás una técnica de reducción de dimensiones llamada «factorización de matrices no negativas» (NMF), que expresa las muestras como combinaciones de componentes interpretables. Por ejemplo, expresa los documentos como combinaciones de temas, y las imágenes en términos de patrones visuales habituales. ¡También aprenderás a usar el NMF para crear sistemas de recomendación que te sugieran artículos similares para leer o artistas musicales que se ajusten a tu historial de reproducción!

Exercise 1: Factorización de matrices no negativas (NMF)Exercise 2: Datos no negativos Exercise 3: NMF aplicado a los artículos de Wikipedia Exercise 4: Características NMF de los artículos de Wikipedia Exercise 5: NMF reconstruye las muestras Exercise 6: El NMF aprende partes interpretables Exercise 7: El NMF identifica los temas de los documentos Exercise 8: Explora el conjunto de datos de dígitos LED Exercise 9: El NMF identifica las partes de las imágenes Exercise 10: PCA no aprende las piezas Exercise 11: Creación de sistemas de recomendación con NMF Exercise 12: ¿Qué artículos son similares a "Cristiano Ronaldo"?Exercise 13: Recomienda artistas musicales parte I Exercise 14: Recomendaciones de artistas musicales, parte II Exercise 15: Reflexiones finales