Modelos n-gram para lemas de películas
En este ejercicio, se te proporciona un corpus con más de 9000 lemas de películas. Tu tarea es generar modelos n-gram hasta n igual a 1, n igual a 2 y n igual a 3 para estos datos y averiguar el número de características de cada modelo.
Después compararemos cuántas características genera cada modelo.
Este ejercicio forma parte del curso
Ingeniería de características para NLP en Python
Instrucciones del ejercicio
- Genera un modelo n-gram con n-grams hasta n=1. Llámalo
ng1. - Genera un modelo n-gram con n-grams hasta n=2. Llámalo
ng2. - Genera un modelo n-gram con n-grams hasta n=3. Llámalo
ng3. - Imprime el número de características de cada modelo.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Generate n-grams upto n=1
vectorizer_ng1 = CountVectorizer(ngram_range=(1,1))
ng1 = vectorizer_ng1.____(corpus)
# Generate n-grams upto n=2
vectorizer_ng2 = CountVectorizer(ngram_range=(1,2))
ng2 = vectorizer_ng2.____(corpus)
# Generate n-grams upto n=3
vectorizer_ng3 = CountVectorizer(ngram_range=(____, ____))
ng3 = vectorizer_ng3.fit_transform(corpus)
# Print the number of features for each model
print("ng1, ng2 and ng3 have %i, %i and %i features respectively" % (ng1.____[1], ng2.____[1], ng3.____[1]))