Modelos de n-gramas para slogans de filmes
Neste exercício, foi fornecido um corpus com mais de 9.000 slogans de filmes. Sua tarefa é gerar modelos de n-gramas com n até 1, n até 2 e n até 3 para esses dados e descobrir o número de features de cada modelo.
Depois, vamos comparar a quantidade de features geradas por cada modelo.
Este exercício faz parte do curso
Feature Engineering para NLP em Python
Instruções do exercício
- Gere um modelo de n-gramas com n-gramas até n=1. Dê a ele o nome
ng1 - Gere um modelo de n-gramas com n-gramas até n=2. Dê a ele o nome
ng2 - Gere um modelo de n-gramas com n-gramas até n=3. Dê a ele o nome
ng3 - Imprima o número de features de cada modelo.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Generate n-grams upto n=1
vectorizer_ng1 = CountVectorizer(ngram_range=(1,1))
ng1 = vectorizer_ng1.____(corpus)
# Generate n-grams upto n=2
vectorizer_ng2 = CountVectorizer(ngram_range=(1,2))
ng2 = vectorizer_ng2.____(corpus)
# Generate n-grams upto n=3
vectorizer_ng3 = CountVectorizer(ngram_range=(____, ____))
ng3 = vectorizer_ng3.fit_transform(corpus)
# Print the number of features for each model
print("ng1, ng2 and ng3 have %i, %i and %i features respectively" % (ng1.____[1], ng2.____[1], ng3.____[1]))