Modèles n-grammes pour des slogans de films

Dans cet exercice, on vous fournit un corpus de plus de 9 000 slogans de films. Votre tâche est de générer des modèles n-grammes jusqu’à n égal à 1, n égal à 2 et n égal à 3 pour ces données, puis de déterminer le nombre de variables pour chaque modèle.

Nous comparerons ensuite le nombre de variables générées par chaque modèle.

Cet exercice fait partie du cours

Feature Engineering pour le NLP en Python

Afficher le cours

Instructions

Générez un modèle n-grammes avec des n-grammes jusqu’à n=1. Nommez-le ng1
Générez un modèle n-grammes avec des n-grammes jusqu’à n=2. Nommez-le ng2
Générez un modèle n-grammes avec des n-grammes jusqu’à n=3. Nommez-le ng3
Affichez le nombre de variables pour chaque modèle.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Generate n-grams upto n=1
vectorizer_ng1 = CountVectorizer(ngram_range=(1,1))
ng1 = vectorizer_ng1.____(corpus)

# Generate n-grams upto n=2
vectorizer_ng2 = CountVectorizer(ngram_range=(1,2))
ng2 = vectorizer_ng2.____(corpus)

# Generate n-grams upto n=3
vectorizer_ng3 = CountVectorizer(ngram_range=(____, ____))
ng3 = vectorizer_ng3.fit_transform(corpus)

# Print the number of features for each model
print("ng1, ng2 and ng3 have %i, %i and %i features respectively" % (ng1.____[1], ng2.____[1], ng3.____[1]))

Modifier et exécuter le code