Analiza sentymentu z GBM

Użyjmy teraz GradientBoostingClassifier z biblioteki scikit-learn na zbiorze danych reviews, aby przewidzieć sentyment recenzji na podstawie jej treści.

Nie będziemy przekazywać surowego tekstu bezpośrednio do modelu. Poniższe kroki przetwarzania wstępnego zostały już wykonane:

Usunięcie recenzji z brakującymi wartościami.
Wybranie danych z 5 najpopularniejszych aplikacji.
Wylosowanie próbki 500 recenzji.
Usunięcie „stop words" z recenzji.
Przekształcenie recenzji w macierz, w której każda cecha reprezentuje częstotliwość występowania danego słowa w recenzji.

Chcesz lepiej zrozumieć przetwarzanie tekstu? Zajrzyj do kursu Introduction to Natural Language Processing in Python!

Zbuduj GradientBoostingClassifier ze 100 estymatorami i współczynnikiem uczenia 0.1.
Oblicz predykcje na zbiorze testowym.
Wyznacz dokładność, aby ocenić model.
Oblicz i wyświetl macierz pomyłek.