n-grammodellen voor filmtaglines

In deze oefening krijg je een corpus met meer dan 9000 filmtaglines. Je gaat n-grammodellen maken tot en met n gelijk aan 1, n gelijk aan 2 en n gelijk aan 3 voor deze data en het aantal features per model bepalen.

Daarna vergelijken we het aantal features dat voor elk model is gegenereerd.

Deze oefening maakt deel uit van de cursus

Feature Engineering voor NLP in Python

Bekijk cursus

Oefeninstructies

Genereer een n-grammodel met n-grams tot en met n=1. Noem het ng1
Genereer een n-grammodel met n-grams tot en met n=2. Noem het ng2
Genereer een n-grammodel met n-grams tot en met n=3. Noem het ng3
Print het aantal features voor elk model.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Generate n-grams upto n=1
vectorizer_ng1 = CountVectorizer(ngram_range=(1,1))
ng1 = vectorizer_ng1.____(corpus)

# Generate n-grams upto n=2
vectorizer_ng2 = CountVectorizer(ngram_range=(1,2))
ng2 = vectorizer_ng2.____(corpus)

# Generate n-grams upto n=3
vectorizer_ng3 = CountVectorizer(ngram_range=(____, ____))
ng3 = vectorizer_ng3.fit_transform(corpus)

# Print the number of features for each model
print("ng1, ng2 and ng3 have %i, %i and %i features respectively" % (ng1.____[1], ng2.____[1], ng3.____[1]))

Code bewerken en uitvoeren