1. Nauka
  2. /
  3. Kursy
  4. /
  5. Przetwarzanie języka naturalnego z użyciem spaCy

Connected

ćwiczenie

Wydajność modelu na twoich danych

W tym ćwiczeniu przećwiczysz ocenę istniejącego modelu na własnych danych. Celem jest zbadanie wydajności modelu dla konkretnej etykiety encji – PRODUCT. Jeśli model poprawnie klasyfikuje dużą część encji PRODUCT (np. ponad 75%), nie musisz go doszkalać na przykładach PRODUCT. W przeciwnym razie warto rozważyć trenowanie modelu, aby poprawić jego skuteczność w przewidywaniu encji PRODUCT.

W tym ćwiczeniu skorzystasz z dwóch recenzji z zestawu danych Amazon Fine Food Reviews. Dostęp do tych recenzji masz przez listę texts.

Model en_core_web_sm jest już dla ciebie załadowany – możesz wywołać go za pomocą nlp(). Model został już uruchomiony na liście texts, a documents – lista kontenerów Doc – jest dostępna do użycia.

Instrukcje

100 XP
  • Utwórz listę target_entities zawierającą wszystkie encje z każdego dokumentu w documents i dodaj krotkę (tekst encji, etykieta encji) tylko wtedy, gdy w tekście encji pojawia się Jumbo.
  • Dla każdej krotki w target_entities dodaj True do listy correct_labels, jeśli etykieta encji (drugi element krotki) to PRODUCT; w przeciwnym razie dodaj False.