Analisi del sentiment con GBM

Ora utilizziamo il GradientBoostingClassifier di scikit-learn sul dataset reviews per prevedere il sentiment di una recensione a partire dal suo testo.

Non passeremo il testo grezzo come input al modello. È già stato eseguito per te il seguente pre-processing:

Rimozione delle recensioni con valori mancanti.
Selezione dei dati delle 5 app principali.
Selezione di un sottoinsieme casuale di 500 recensioni.
Rimozione delle "stop words" dalle recensioni.
Trasformazione delle recensioni in una matrice, in cui ogni feature rappresenta la frequenza di una parola in una recensione.

Vuoi approfondire il text mining? Dai un'occhiata al corso Introduction to Natural Language Processing in Python!

Questo esercizio fa parte del corso

Metodi Ensemble in Python

Visualizza corso

Istruzioni dell'esercizio

Costruisci un GradientBoostingClassifier con 100 stimatori e un tasso di apprendimento pari a 0.1.
Calcola le predizioni sul test set.
Calcola l'accuratezza per valutare il modello.
Calcola e stampa la matrice di confusione.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Build and fit a Gradient Boosting classifier
clf_gbm = ____(____, ____, random_state=500)
clf_gbm.fit(X_train, y_train)

# Calculate the predictions on the test set
pred = ____

# Evaluate the performance based on the accuracy
acc = ____
print('Accuracy: {:.3f}'.format(acc))

# Get and show the Confusion Matrix
cm = ____
print(cm)

Modifica ed esegui il codice