1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Úvod do zpracování přirozeného jazyka v Pythonu

Connected

cvičení

Rozpoznávání pojmenovaných entit pomocí NLTK

Teď si vyzkoušíš rozpoznávání pojmenovaných entit v praxi! Do tvého pracovního prostředí byl předem načten článek získaný webovým scrapingem. Tvým úkolem je pomocí nltk najít v tomto článku pojmenované entity.

O čem by článek mohl být, soudě podle nalezených jmen?

Spolu s nltk jsou předem importovány také sent_tokenize a word_tokenize z nltk.tokenize.

Pokyny

100 XP
  • Rozděl article na věty.
  • Pomocí list comprehension rozděl každou větu z sentences na slova.
  • V list comprehension přiřaď každé tokenizované větě slovnědruhové tagy pomocí nltk.pos_tag().
  • Rozděl každou tagovanou větu do pojmenovaných entit pomocí nltk.ne_chunk_sents(). Společně s pos_sentences zadej také klíčový argument binary=True.
  • Projdi každou větu a každý chunk a ověř, zda jde o pojmenovanou entitu — zkontroluj, zda má atribut label a zda se chunk.label() rovná "NE". Pokud ano, vypiš daný chunk.