Contando palavras (I)
Depois que as informações de alto nível forem registradas, você pode começar a criar features com base no conteúdo real de cada texto. Uma maneira de fazer isso é abordar o problema de forma semelhante ao que você fez com variáveis categóricas nas lições anteriores.
- Para cada palavra única no conjunto de dados, é criada uma coluna.
- Para cada entrada, conta-se o número de ocorrências dessa palavra e o valor da contagem é inserido na respectiva coluna.
Essas colunas de "contagem" podem então ser usadas para treinar modelos de Machine Learning.
Este exercício faz parte do curso
Feature Engineering for Machine Learning in Python
Instruções do exercício
- Importe
CountVectorizerdesklearn.feature_extraction.text. - Instancie
CountVectorizere atribua acv. - Faça o ajuste (fit) do vetorizador na coluna
text_clean. - Imprima os nomes das features gerados pelo vetorizador.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import CountVectorizer
____
# Instantiate CountVectorizer
cv = ____
# Fit the vectorizer
cv.____(speech_df['text_clean'])
# Print feature names
print(cv.____)