Modelos de n-gramas para slogans de filmes

Neste exercício, foi fornecido um corpus com mais de 9.000 slogans de filmes. Sua tarefa é gerar modelos de n-gramas com n até 1, n até 2 e n até 3 para esses dados e descobrir o número de features de cada modelo.

Depois, vamos comparar a quantidade de features geradas por cada modelo.

Este exercicio faz parte do curso

Feature Engineering para NLP em Python

Ver curso

Instruções do exercicio

Gere um modelo de n-gramas com n-gramas até n=1. Dê a ele o nome ng1
Gere um modelo de n-gramas com n-gramas até n=2. Dê a ele o nome ng2
Gere um modelo de n-gramas com n-gramas até n=3. Dê a ele o nome ng3
Imprima o número de features de cada modelo.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Generate n-grams upto n=1
vectorizer_ng1 = CountVectorizer(ngram_range=(1,1))
ng1 = vectorizer_ng1.____(corpus)

# Generate n-grams upto n=2
vectorizer_ng2 = CountVectorizer(ngram_range=(1,2))
ng2 = vectorizer_ng2.____(corpus)

# Generate n-grams upto n=3
vectorizer_ng3 = CountVectorizer(ngram_range=(____, ____))
ng3 = vectorizer_ng3.fit_transform(corpus)

# Print the number of features for each model
print("ng1, ng2 and ng3 have %i, %i and %i features respectively" % (ng1.____[1], ng2.____[1], ng3.____[1]))

Editar e Executar Código