IniziaInizia gratis

Modelli n-gram per gli slogan dei film

In questo esercizio ti viene fornito un corpus con oltre 9000 slogan di film. Il tuo compito è generare modelli n-gram con n fino a 1, fino a 2 e fino a 3 per questi dati e scoprire il numero di feature per ciascun modello.

Confronteremo poi il numero di feature generate per ogni modello.

Questo esercizio fa parte del corso

Feature Engineering per NLP in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Genera un modello n-gram con n-gram fino a n=1. Chiamalo ng1
  • Genera un modello n-gram con n-gram fino a n=2. Chiamalo ng2
  • Genera un modello n-gram con n-gram fino a n=3. Chiamalo ng3
  • Stampa il numero di feature per ciascun modello.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Generate n-grams upto n=1
vectorizer_ng1 = CountVectorizer(ngram_range=(1,1))
ng1 = vectorizer_ng1.____(corpus)

# Generate n-grams upto n=2
vectorizer_ng2 = CountVectorizer(ngram_range=(1,2))
ng2 = vectorizer_ng2.____(corpus)

# Generate n-grams upto n=3
vectorizer_ng3 = CountVectorizer(ngram_range=(____, ____))
ng3 = vectorizer_ng3.fit_transform(corpus)

# Print the number of features for each model
print("ng1, ng2 and ng3 have %i, %i and %i features respectively" % (ng1.____[1], ng2.____[1], ng3.____[1]))
Modifica ed esegui il codice