CountVectorizer voor tekstclassificatie
Tijd om te beginnen met het bouwen van je tekstclassifier! De data is ingeladen in een DataFrame met de naam df. Verken het in de IPython Shell om te onderzoeken welke kolommen je kunt gebruiken. De methode .head() is daarbij bijzonder informatief.
In deze oefening gebruik je pandas samen met scikit-learn om een sparse tekstvectorizer te maken die je kunt gebruiken om een eenvoudig supervised model te trainen en te testen. Je begint met het opzetten van een CountVectorizer en het verkennen van enkele van diens features.
Deze oefening maakt deel uit van de cursus
Introductie tot Natural Language Processing in Python
Oefeninstructies
- Importeer
CountVectorizeruitsklearn.feature_extraction.textentrain_test_splituitsklearn.model_selection. - Maak een Series
yvoor de labels door de attribuutwaarde.labelvandftoe te wijzen aany. - Maak met
df["text"](features) eny(labels) de training- en testsets mettrain_test_split(). Gebruik eentest_sizevan0.33en eenrandom_statevan53. - Maak een
CountVectorizer-object met de naamcount_vectorizer. Zorg dat je het keywordargumentstop_words="english"meegeeft zodat stopwoorden worden verwijderd. - Fit en transformeer de trainingsdata
X_trainmet de methode.fit_transform()van jeCountVectorizer-object. Doe hetzelfde voor de testdataX_test, maar gebruik daar de methode.transform(). - Print de eerste 10 features van de
count_vectorizermet behulp van de methode.get_feature_names().
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import the necessary modules
____
____
# Print the head of df
print(df.head())
# Create a series to store the labels: y
y = ____
# Create training and test sets
X_train, X_test, y_train, y_test = ____
# Initialize a CountVectorizer object: count_vectorizer
count_vectorizer = ____
# Transform the training data using only the 'text' column values: count_train
count_train = ____
# Transform the test data using only the 'text' column values: count_test
count_test = ____
# Print the first 10 features of the count_vectorizer
print(____[:10])