Modèles n-grammes pour des slogans de films
Dans cet exercice, on vous fournit un corpus de plus de 9 000 slogans de films. Votre tâche est de générer des modèles n-grammes jusqu’à n égal à 1, n égal à 2 et n égal à 3 pour ces données, puis de déterminer le nombre de variables pour chaque modèle.
Nous comparerons ensuite le nombre de variables générées par chaque modèle.
Cet exercice fait partie du cours
<cours>Feature Engineering pour le NLP en Python</cours>Instructions de l’exercice
- Générez un modèle n-grammes avec des n-grammes jusqu’à n=1. Nommez-le
ng1 - Générez un modèle n-grammes avec des n-grammes jusqu’à n=2. Nommez-le
ng2 - Générez un modèle n-grammes avec des n-grammes jusqu’à n=3. Nommez-le
ng3 - Affichez le nombre de variables pour chaque modèle.
Exercice interactif pratique
Essayez cet exercice en complétant ce code d’exemple.
# Generate n-grams upto n=1
vectorizer_ng1 = CountVectorizer(ngram_range=(1,1))
ng1 = vectorizer_ng1.____(corpus)
# Generate n-grams upto n=2
vectorizer_ng2 = CountVectorizer(ngram_range=(1,2))
ng2 = vectorizer_ng2.____(corpus)
# Generate n-grams upto n=3
vectorizer_ng3 = CountVectorizer(ngram_range=(____, ____))
ng3 = vectorizer_ng3.fit_transform(corpus)
# Print the number of features for each model
print("ng1, ng2 and ng3 have %i, %i and %i features respectively" % (ng1.____[1], ng2.____[1], ng3.____[1]))