Naive Bayes trainen met featureselectie
Je gaat nu het Naive Bayes-tekstclassificatiemodel opnieuw draaien dat je aan het einde van Hoofdstuk 3 gebruikte, maar nu met onze selectie uit de vorige oefening: de kolommen title en category_desc uit de volunteer-gegevensset.
Deze oefening maakt deel uit van de cursus
Preprocessing voor Machine Learning in Python
Oefeninstructies
- Gebruik
train_test_split()op de tekstvectorfiltered_text, de labelsy(dit zijn decategory_desc-labels), en geef dey-set door aan de parameterstratify, omdat we een ongelijke klassenverdeling hebben. - Fit het
nbNaive Bayes-model opX_traineny_train. - Bereken de accuracy op de testset van
nb.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Split the dataset according to the class distribution of category_desc
X_train, X_test, y_train, y_test = ____(____.toarray(), ____, stratify=____, random_state=42)
# Fit the model to the training data
nb.____
# Print out the model's accuracy
print(nb.____)