CountVectorizer para la clasificación de textos
¡Es hora de empezar a construir tu clasificador de texto! Los datos se han cargado en un DataFrame llamado df. Explóralo en IPython Shell para investigar qué columnas puedes utilizar. El método .head() es especialmente informativo.
En este ejercicio, utilizarás pandas junto con scikit-learn para crear un vectorizador de texto disperso que puedas utilizar para entrenar y probar un modelo supervisado sencillo. Para empezar, configurarás un CountVectorizer e investigarás algunas de sus funciones.
Este ejercicio forma parte del curso
Introducción al procesamiento de lenguaje natural en Python
Instrucciones del ejercicio
- Importa
CountVectorizerdesklearn.feature_extraction.textytrain_test_splitdesklearn.model_selection. - Crea una serie
ypara utilizarla en las etiquetas asignando el atributo.labeldedfay. - Utilizando
df["text"](características) yy(etiquetas), crea conjuntos de entrenamiento y de prueba utilizandotrain_test_split(). Utiliza untest_sizede0.33y unrandom_statede53. - Crea un objeto
CountVectorizerllamadocount_vectorizer. Asegúrate de especificar el argumento de palabra clavestop_words="english"para que se eliminen las palabras de parada. - Ajusta y transforma los datos de entrenamiento
X_trainutilizando el método.fit_transform()de tu objetoCountVectorizer. Haz lo mismo con los datos de pruebaX_test, pero utilizando el método.transform(). - Imprime las 10 primeras características del
count_vectorizerutilizando su método.get_feature_names().
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Import the necessary modules
____
____
# Print the head of df
print(df.head())
# Create a series to store the labels: y
y = ____
# Create training and test sets
X_train, X_test, y_train, y_test = ____
# Initialize a CountVectorizer object: count_vectorizer
count_vectorizer = ____
# Transform the training data using only the 'text' column values: count_train
count_train = ____
# Transform the test data using only the 'text' column values: count_test
count_test = ____
# Print the first 10 features of the count_vectorizer
print(____[:10])