n-grammodellen voor filmtaglines
In deze oefening krijg je een corpus met meer dan 9000 filmtaglines. Je gaat n-grammodellen maken tot en met n gelijk aan 1, n gelijk aan 2 en n gelijk aan 3 voor deze data en het aantal features per model bepalen.
Daarna vergelijken we het aantal features dat voor elk model is gegenereerd.
Deze oefening maakt deel uit van de cursus
Feature Engineering voor NLP in Python
Oefeninstructies
- Genereer een n-grammodel met n-grams tot en met n=1. Noem het
ng1 - Genereer een n-grammodel met n-grams tot en met n=2. Noem het
ng2 - Genereer een n-grammodel met n-grams tot en met n=3. Noem het
ng3 - Print het aantal features voor elk model.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Generate n-grams upto n=1
vectorizer_ng1 = CountVectorizer(ngram_range=(1,1))
ng1 = vectorizer_ng1.____(corpus)
# Generate n-grams upto n=2
vectorizer_ng2 = CountVectorizer(ngram_range=(1,2))
ng2 = vectorizer_ng2.____(corpus)
# Generate n-grams upto n=3
vectorizer_ng3 = CountVectorizer(ngram_range=(____, ____))
ng3 = vectorizer_ng3.fit_transform(corpus)
# Print the number of features for each model
print("ng1, ng2 and ng3 have %i, %i and %i features respectively" % (ng1.____[1], ng2.____[1], ng3.____[1]))