1. Nauka
  2. /
  3. Kursy
  4. /
  5. Przetwarzanie języka naturalnego z użyciem spaCy

Connected

ćwiczenie

Adnotacje i przygotowanie danych treningowych

Po zebraniu danych możesz je opatrzyć adnotacjami w formacie wymaganym przez model spaCy. W tym ćwiczeniu przećwiczysz tworzenie poprawnego rekordu z adnotacjami dla zadania NER w dziedzinie medycznej.

Do dyspozycji masz zmienną sentence oraz dwie encje: entity_1 z tekstem chest pain i typem SYMPTOM, a także entity_2 z tekstem hyperthyroidism i typem DISEASE.

Instrukcje

100 XP
  • Uzupełnij rekord annotated_data w poprawnym formacie.
  • Wyodrębnij indeksy pierwszego i ostatniego znaku każdej encji i zapisz je w odpowiednich zmiennych.
  • Zapisz to samo zdanie wejściowe wraz z jego encjami w odpowiednim formacie treningowym jako training_data.