TF-IDF de sinopsis de películas

Vamos a usar las sinopsis de películas seleccionadas al azar para realizar clustering de documentos. Antes de agrupar documentos, hay que limpiarlos de ruido (como caracteres especiales y stop words) y convertirlos en una matriz dispersa mediante el TF-IDF de los documentos.

Usa la clase TfidfVectorizer para calcular el TF-IDF de las sinopsis almacenadas en la lista plots. La función remove_noise() está disponible para usarla como tokenizer en la clase TfidfVectorizer. El método .fit_transform() ajusta los datos en el objeto TfidfVectorizer y luego genera la matriz dispersa TF-IDF.

Nota: El método .fit_transform() tarda unos segundos en ejecutarse.

Este ejercicio forma parte del curso

Análisis de clústeres en Python

Instrucciones del ejercicio

Importa la clase TfidfVectorizer de sklearn.
Inicializa la clase TfidfVectorizer con frecuencias mínima y máxima de 0.1 y 0.75, y 50 características máximas.
Usa el método fit_transform() del TfidfVectorizer inicializado con la lista plots.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Import TfidfVectorizer class from sklearn
from sklearn.feature_extraction.text import ____

# Initialize TfidfVectorizer
tfidf_vectorizer = TfidfVectorizer(____)

# Use the .fit_transform() method on the list plots
tfidf_matrix = ____

Editar y ejecutar código

Este ejercicio forma parte del curso

Análisis de clústeres en Python

IntermedioNivel de habilidad

4.8+

Empieza el curso gratis

Antes de estar listo para clasificar artículos de noticias, necesitas conocer las bases del clustering. Este capítulo te familiariza con una clase de algoritmos de Machine Learning llamada aprendizaje no supervisado y, a continuación, te introduce el clustering, uno de sus métodos más populares. Conocerás dos técnicas habituales de clustering: el clustering jerárquico y el clustering k-means. El capítulo concluye con los pasos básicos de preprocesamiento antes de empezar a agrupar datos.

Exercise 1: Machine Learning no supervisado: conceptos básicos Exercise 2: Unsupervised learning en el mundo real Exercise 3: Avistamientos de Pokémon Exercise 4: Fundamentos del análisis de clústeres Exercise 5: Avistamientos de Pokémon: clustering jerárquico Exercise 6: Avistamientos de Pokémon: clustering con k-means Exercise 7: Preparación de datos para el análisis de clústeres Exercise 8: Normaliza datos básicos en una lista Exercise 9: Visualiza datos normalizados Exercise 10: Normalización de números pequeños Exercise 11: FIFA 18: Normaliza los datos

Este capítulo se centra en un algoritmo de clustering muy utilizado —el clustering jerárquico— y su implementación en SciPy. Además de explicar el procedimiento para realizar clustering jerárquico, te ayuda a responder una pregunta importante: ¿cuántos clústeres hay en tus datos? El capítulo finaliza con una revisión de las limitaciones del clustering jerárquico y las consideraciones a tener en cuenta al usarlo.

Exercise 1: Conceptos básicos del clustering jerárquico Exercise 2: Clustering jerárquico: método ward Exercise 3: Clustering jerárquico: método single Exercise 4: Clustering jerárquico: método complete Exercise 5: Visualiza los clústeres Exercise 6: Visualiza clústeres con matplotlib Exercise 7: Visualiza clústeres con seaborn Exercise 8: ¿Cuántos clústeres?Exercise 9: Crea un dendrograma Exercise 10: ¿Cuántos clústeres hay en los datos de la comic con?Exercise 11: Limitaciones del clustering jerárquico Exercise 12: Medir el tiempo de ejecución del clustering jerárquico Exercise 13: FIFA 18: explorando defensas

Este capítulo presenta un algoritmo de clustering diferente —k-means— y su implementación en SciPy. K-means supera la mayor desventaja del clustering jerárquico que se comentó en el capítulo anterior. Como los dendrogramas son específicos del clustering jerárquico, aquí se aborda un método para encontrar el número de clústeres antes de ejecutar k-means. El capítulo concluye con un repaso de las limitaciones de k-means y las consideraciones al usar este algoritmo.

Exercise 1: Fundamentos del clustering k-means Exercise 2: Clustering k-means: primer ejercicio Exercise 3: Tiempo de ejecución de k-means clustering Exercise 4: ¿Cuántos clústeres?Exercise 5: Método del codo en clústeres bien definidos Exercise 6: Método del codo con datos uniformes Exercise 7: Limitaciones del clustering k-means Exercise 8: Impacto de las semillas en clusters distintos Exercise 9: Patrones de clustering uniformes Exercise 10: FIFA 18: defensas (revisión)

Ahora que ya conoces dos de las técnicas de clustering más populares, este capítulo te ayuda a aplicar lo aprendido a problemas reales. Primero se explica el proceso para encontrar los colores dominantes en una imagen y, después, se retoma el problema comentado en la introducción: el clustering de artículos de noticias. El capítulo termina con una discusión sobre el clustering con múltiples variables, lo que dificulta visualizar todos los datos.

Exercise 1: Colores dominantes en imágenes Exercise 2: Extraer valores RGB de una imagen Exercise 3: ¿Cuántos colores dominantes?Exercise 4: Muestra los colores dominantes Exercise 5: Clustering de documentos Exercise 6: TF-IDF de sinopsis de películas

Ejercicio actual

Exercise 7: Términos más destacados en clústeres de películas Exercise 8: Clustering con múltiples variables Exercise 9: Clustering con muchas variables Exercise 10: Comprobaciones básicas de los clústeres Exercise 11: FIFA 18: ¿qué hace a un jugador completo?Exercise 12: ¡Hasta pronto!