Naive Bayes trainen met featureselectie

Je gaat nu het Naive Bayes-tekstclassificatiemodel opnieuw draaien dat je aan het einde van Hoofdstuk 3 gebruikte, maar nu met onze selectie uit de vorige oefening: de kolommen title en category_desc uit de volunteer-gegevensset.

Deze oefening maakt deel uit van de cursus

Preprocessing voor Machine Learning in Python

Bekijk cursus

Oefeninstructies

Gebruik train_test_split() op de tekstvector filtered_text, de labels y (dit zijn de category_desc-labels), en geef de y-set door aan de parameter stratify, omdat we een ongelijke klassenverdeling hebben.
Fit het nb Naive Bayes-model op X_train en y_train.
Bereken de accuracy op de testset van nb.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Split the dataset according to the class distribution of category_desc
X_train, X_test, y_train, y_test = ____(____.toarray(), ____, stratify=____, random_state=42)

# Fit the model to the training data
nb.____

# Print out the model's accuracy
print(nb.____)

Code bewerken en uitvoeren