Modelos n-gram para lemas de películas

En este ejercicio, se te proporciona un corpus con más de 9000 lemas de películas. Tu tarea es generar modelos n-gram hasta n igual a 1, n igual a 2 y n igual a 3 para estos datos y averiguar el número de características de cada modelo.

Después compararemos cuántas características genera cada modelo.

Este ejercicio forma parte del curso

Ingeniería de características para NLP en Python

Ver curso

Instrucciones del ejercicio

Genera un modelo n-gram con n-grams hasta n=1. Llámalo ng1.
Genera un modelo n-gram con n-grams hasta n=2. Llámalo ng2.
Genera un modelo n-gram con n-grams hasta n=3. Llámalo ng3.
Imprime el número de características de cada modelo.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Generate n-grams upto n=1
vectorizer_ng1 = CountVectorizer(ngram_range=(1,1))
ng1 = vectorizer_ng1.____(corpus)

# Generate n-grams upto n=2
vectorizer_ng2 = CountVectorizer(ngram_range=(1,2))
ng2 = vectorizer_ng2.____(corpus)

# Generate n-grams upto n=3
vectorizer_ng3 = CountVectorizer(ngram_range=(____, ____))
ng3 = vectorizer_ng3.fit_transform(corpus)

# Print the number of features for each model
print("ng1, ng2 and ng3 have %i, %i and %i features respectively" % (ng1.____[1], ng2.____[1], ng3.____[1]))

Editar y ejecutar código