CountVectorizer pour la classification de texte
Il est temps de commencer à construire votre classificateur de texte ! Les données ont été chargées dans un DataFrame nommé df. Explorez-les dans l’IPython Shell pour voir quelles colonnes vous pouvez utiliser. La méthode .head() est particulièrement utile.
Dans cet exercice, vous allez utiliser pandas avec scikit-learn pour créer un vectoriseur de texte creux que vous pourrez utiliser pour entraîner et tester un modèle supervisé simple. Pour commencer, vous allez configurer un CountVectorizer et examiner certaines de ses fonctionnalités.
Cet exercice fait partie du cours
Introduction au Natural Language Processing (NLP) en Python
Instructions
- Importez
CountVectorizerdepuissklearn.feature_extraction.textettrain_test_splitdepuissklearn.model_selection. - Créez une Series
yà utiliser comme étiquettes en assignant l’attribut.labeldedfày. - En utilisant
df["text"](caractéristiques) ety(étiquettes), créez les ensembles d’entraînement et de test avectrain_test_split(). Utilisez untest_sizede0.33et unrandom_statede53. - Créez un objet
CountVectorizerappelécount_vectorizer. Veillez à spécifier l’argument nomméstop_words="english"afin de supprimer les mots vides. - Ajustez et transformez les données d’entraînement
X_trainà l’aide de la méthode.fit_transform()de votre objetCountVectorizer. Faites de même avec les données de testX_test, mais en utilisant la méthode.transform(). - Affichez les 10 premières caractéristiques de
count_vectorizeravec sa méthode.get_feature_names().
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import the necessary modules
____
____
# Print the head of df
print(df.head())
# Create a series to store the labels: y
y = ____
# Create training and test sets
X_train, X_test, y_train, y_test = ____
# Initialize a CountVectorizer object: count_vectorizer
count_vectorizer = ____
# Transform the training data using only the 'text' column values: count_train
count_train = ____
# Transform the test data using only the 'text' column values: count_test
count_test = ____
# Print the first 10 features of the count_vectorizer
print(____[:10])