Rozpoznávání pojmenovaných entit pomocí NLTK

Teď si vyzkoušíš rozpoznávání pojmenovaných entit v praxi! Do tvého pracovního prostředí byl předem načten článek získaný webovým scrapingem. Tvým úkolem je pomocí nltk najít v tomto článku pojmenované entity.

O čem by článek mohl být, soudě podle nalezených jmen?

Spolu s nltk jsou předem importovány také sent_tokenize a word_tokenize z nltk.tokenize.

Rozděl article na věty.
Pomocí list comprehension rozděl každou větu z sentences na slova.
V list comprehension přiřaď každé tokenizované větě slovnědruhové tagy pomocí nltk.pos_tag().
Rozděl každou tagovanou větu do pojmenovaných entit pomocí nltk.ne_chunk_sents(). Společně s pos_sentences zadej také klíčový argument binary=True.
Projdi každou větu a každý chunk a ověř, zda jde o pojmenovanou entitu — zkontroluj, zda má atribut label a zda se chunk.label() rovná "NE". Pokud ano, vypiš daný chunk.

cvičení

Rozpoznávání pojmenovaných entit pomocí NLTK

Pokyny

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení