Modelli n-gram per gli slogan dei film
In questo esercizio ti viene fornito un corpus con oltre 9000 slogan di film. Il tuo compito è generare modelli n-gram con n fino a 1, fino a 2 e fino a 3 per questi dati e scoprire il numero di feature per ciascun modello.
Confronteremo poi il numero di feature generate per ogni modello.
Questo esercizio fa parte del corso
Feature Engineering per NLP in Python
Istruzioni dell'esercizio
- Genera un modello n-gram con n-gram fino a n=1. Chiamalo
ng1 - Genera un modello n-gram con n-gram fino a n=2. Chiamalo
ng2 - Genera un modello n-gram con n-gram fino a n=3. Chiamalo
ng3 - Stampa il numero di feature per ciascun modello.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Generate n-grams upto n=1
vectorizer_ng1 = CountVectorizer(ngram_range=(1,1))
ng1 = vectorizer_ng1.____(corpus)
# Generate n-grams upto n=2
vectorizer_ng2 = CountVectorizer(ngram_range=(1,2))
ng2 = vectorizer_ng2.____(corpus)
# Generate n-grams upto n=3
vectorizer_ng3 = CountVectorizer(ngram_range=(____, ____))
ng3 = vectorizer_ng3.fit_transform(corpus)
# Print the number of features for each model
print("ng1, ng2 and ng3 have %i, %i and %i features respectively" % (ng1.____[1], ng2.____[1], ng3.____[1]))