CountVectorizer para clasificación de texto

¡Es hora de empezar a construir tu clasificador de texto! Los datos se han cargado en un DataFrame llamado df. Explóralo en la Shell de IPython para ver qué columnas puedes usar. El método .head() es especialmente útil.

En este ejercicio, usarás pandas junto con scikit-learn para crear un vectorizador de texto disperso que podrás usar para entrenar y probar un modelo supervisado sencillo. Para comenzar, configurarás un CountVectorizer y examinarás algunas de sus características.

Este ejercicio forma parte del curso

Introducción al Natural Language Processing en Python

Ver curso

Instrucciones del ejercicio

Importa CountVectorizer de sklearn.feature_extraction.text y train_test_split de sklearn.model_selection.
Crea una Serie y para las etiquetas asignando el atributo .label de df a y.
Usando df["text"] (características) y y (etiquetas), crea los conjuntos de entrenamiento y prueba con train_test_split(). Usa un test_size de 0.33 y un random_state de 53.
Crea un objeto CountVectorizer llamado count_vectorizer. Asegúrate de especificar el argumento con nombre stop_words="english" para eliminar las stop words.
Ajusta y transforma los datos de entrenamiento X_train usando el método .fit_transform() de tu objeto CountVectorizer. Haz lo mismo con los datos de prueba X_test, pero usando el método .transform().
Imprime las 10 primeras características de count_vectorizer usando su método .get_feature_names().

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Import the necessary modules
____
____

# Print the head of df
print(df.head())

# Create a series to store the labels: y
y = ____

# Create training and test sets
X_train, X_test, y_train, y_test = ____

# Initialize a CountVectorizer object: count_vectorizer
count_vectorizer = ____

# Transform the training data using only the 'text' column values: count_train 
count_train = ____

# Transform the test data using only the 'text' column values: count_test 
count_test = ____

# Print the first 10 features of the count_vectorizer
print(____[:10])

Editar y ejecutar código