Comece agoraComece grátis

Contando palavras (I)

Depois que as informações de alto nível forem registradas, você pode começar a criar features com base no conteúdo real de cada texto. Uma maneira de fazer isso é abordar o problema de forma semelhante ao que você fez com variáveis categóricas nas lições anteriores.

  • Para cada palavra única no conjunto de dados, é criada uma coluna.
  • Para cada entrada, conta-se o número de ocorrências dessa palavra e o valor da contagem é inserido na respectiva coluna.

Essas colunas de "contagem" podem então ser usadas para treinar modelos de Machine Learning.

Este exercicio faz parte do curso

Feature Engineering for Machine Learning in Python

Ver curso

Instruções do exercicio

  • Importe CountVectorizer de sklearn.feature_extraction.text.
  • Instancie CountVectorizer e atribua a cv.
  • Faça o ajuste (fit) do vetorizador na coluna text_clean.
  • Imprima os nomes das features gerados pelo vetorizador.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Import CountVectorizer
____

# Instantiate CountVectorizer
cv = ____

# Fit the vectorizer
cv.____(speech_df['text_clean'])

# Print feature names
print(cv.____)
Editar e Executar Código