CountVectorizer para classificação de texto

É hora de começar a construir seu classificador de texto! Os dados foram carregados em um DataFrame chamado df. Explore-o no IPython Shell para ver quais colunas você pode usar. O método .head() é especialmente informativo.

Neste exercício, você usará pandas junto com scikit-learn para criar um vetorizador de texto esparso que poderá usar para treinar e testar um modelo supervisionado simples. Para começar, você vai configurar um CountVectorizer e investigar alguns de seus recursos.

Este exercicio faz parte do curso

Introdução ao Processamento de Linguagem Natural em Python

Ver curso

Instruções do exercicio

Importe CountVectorizer de sklearn.feature_extraction.text e train_test_split de sklearn.model_selection.
Crie uma Series y para usar como rótulos atribuindo o atributo .label de df a y.
Usando df["text"] (features) e y (rótulos), crie os conjuntos de treino e teste usando train_test_split(). Use test_size de 0.33 e random_state de 53.
Crie um objeto CountVectorizer chamado count_vectorizer. Certifique-se de especificar o argumento nomeado stop_words="english" para remover stop words.
Ajuste e transforme os dados de treino X_train usando o método .fit_transform() do seu objeto CountVectorizer. Faça o mesmo com os dados de teste X_test, mas usando o método .transform().
Imprima as 10 primeiras features do count_vectorizer usando seu método .get_feature_names().

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Import the necessary modules
____
____

# Print the head of df
print(df.head())

# Create a series to store the labels: y
y = ____

# Create training and test sets
X_train, X_test, y_train, y_test = ____

# Initialize a CountVectorizer object: count_vectorizer
count_vectorizer = ____

# Transform the training data using only the 'text' column values: count_train 
count_train = ____

# Transform the test data using only the 'text' column values: count_test 
count_test = ____

# Print the first 10 features of the count_vectorizer
print(____[:10])

Editar e Executar Código