Modelli n-gram per gli slogan dei film

In questo esercizio ti viene fornito un corpus con oltre 9000 slogan di film. Il tuo compito è generare modelli n-gram con n fino a 1, fino a 2 e fino a 3 per questi dati e scoprire il numero di feature per ciascun modello.

Confronteremo poi il numero di feature generate per ogni modello.

Questo esercizio fa parte del corso

Feature Engineering per NLP in Python

Visualizza corso

Istruzioni dell'esercizio

Genera un modello n-gram con n-gram fino a n=1. Chiamalo ng1
Genera un modello n-gram con n-gram fino a n=2. Chiamalo ng2
Genera un modello n-gram con n-gram fino a n=3. Chiamalo ng3
Stampa il numero di feature per ciascun modello.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Generate n-grams upto n=1
vectorizer_ng1 = CountVectorizer(ngram_range=(1,1))
ng1 = vectorizer_ng1.____(corpus)

# Generate n-grams upto n=2
vectorizer_ng2 = CountVectorizer(ngram_range=(1,2))
ng2 = vectorizer_ng2.____(corpus)

# Generate n-grams upto n=3
vectorizer_ng3 = CountVectorizer(ngram_range=(____, ____))
ng3 = vectorizer_ng3.fit_transform(corpus)

# Print the number of features for each model
print("ng1, ng2 and ng3 have %i, %i and %i features respectively" % (ng1.____[1], ng2.____[1], ng3.____[1]))

Modifica ed esegui il codice