Analisi del sentiment con GBM
Ora utilizziamo il GradientBoostingClassifier di scikit-learn sul dataset reviews per prevedere il sentiment di una recensione a partire dal suo testo.
Non passeremo il testo grezzo come input al modello. È già stato eseguito per te il seguente pre-processing:
- Rimozione delle recensioni con valori mancanti.
- Selezione dei dati delle 5 app principali.
- Selezione di un sottoinsieme casuale di 500 recensioni.
- Rimozione delle "stop words" dalle recensioni.
- Trasformazione delle recensioni in una matrice, in cui ogni feature rappresenta la frequenza di una parola in una recensione.
Vuoi approfondire il text mining? Dai un'occhiata al corso Introduction to Natural Language Processing in Python!
Questo esercizio fa parte del corso
Metodi Ensemble in Python
Istruzioni dell'esercizio
- Costruisci un
GradientBoostingClassifiercon100stimatori e un tasso di apprendimento pari a0.1. - Calcola le predizioni sul test set.
- Calcola l'accuratezza per valutare il modello.
- Calcola e stampa la matrice di confusione.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Build and fit a Gradient Boosting classifier
clf_gbm = ____(____, ____, random_state=500)
clf_gbm.fit(X_train, y_train)
# Calculate the predictions on the test set
pred = ____
# Evaluate the performance based on the accuracy
acc = ____
print('Accuracy: {:.3f}'.format(acc))
# Get and show the Confusion Matrix
cm = ____
print(cm)