Tokenizacja słów z NLTK

W tym ćwiczeniu korzystamy z pierwszej sceny filmu Monty Python i Święty Graal, która została wczytana jako scene_one. Możesz ją podejrzeć w powłoce IPython!

Twoim zadaniem jest użycie funkcji word_tokenize i sent_tokenize z modułu nltk.tokenize, aby podzielić tekst na słowa i zdania – w tym przypadku na materiale z pierwszej sceny Monty Python i Świętego Graala.

Zaimportuj funkcje sent_tokenize i word_tokenize z nltk.tokenize.
Podziel wszystkie zdania w scene_one na tokeny przy użyciu funkcji sent_tokenize().
Przeprowadź tokenizację czwartego zdania z sentences – dostępnego jako sentences[3] – używając funkcji word_tokenize().
Znajdź unikalne tokeny w całej scenie: wywołaj word_tokenize() na scene_one, a następnie przekonwertuj wynik na zbiór za pomocą set().
Wyświetl znalezione unikalne tokeny. Ten krok jest już gotowy – kliknij Prześlij odpowiedź, aby zobaczyć wyniki!

ćwiczenie

Tokenizacja słów z NLTK

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie