Modèles n-grammes pour des slogans de films
Dans cet exercice, on vous fournit un corpus de plus de 9 000 slogans de films. Votre tâche est de générer des modèles n-grammes jusqu’à n égal à 1, n égal à 2 et n égal à 3 pour ces données, puis de déterminer le nombre de variables pour chaque modèle.
Nous comparerons ensuite le nombre de variables générées par chaque modèle.
Cet exercice fait partie du cours
Feature Engineering pour le NLP en Python
Instructions
- Générez un modèle n-grammes avec des n-grammes jusqu’à n=1. Nommez-le
ng1 - Générez un modèle n-grammes avec des n-grammes jusqu’à n=2. Nommez-le
ng2 - Générez un modèle n-grammes avec des n-grammes jusqu’à n=3. Nommez-le
ng3 - Affichez le nombre de variables pour chaque modèle.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Generate n-grams upto n=1
vectorizer_ng1 = CountVectorizer(ngram_range=(1,1))
ng1 = vectorizer_ng1.____(corpus)
# Generate n-grams upto n=2
vectorizer_ng2 = CountVectorizer(ngram_range=(1,2))
ng2 = vectorizer_ng2.____(corpus)
# Generate n-grams upto n=3
vectorizer_ng3 = CountVectorizer(ngram_range=(____, ____))
ng3 = vectorizer_ng3.fit_transform(corpus)
# Print the number of features for each model
print("ng1, ng2 and ng3 have %i, %i and %i features respectively" % (ng1.____[1], ng2.____[1], ng3.____[1]))