1. Nauka
  2. /
  3. Kursy
  4. /
  5. Wprowadzenie do przetwarzania języka naturalnego w Pythonie

Connected

ćwiczenie

Tokenizacja słów z NLTK

W tym ćwiczeniu korzystamy z pierwszej sceny filmu Monty Python i Święty Graal, która została wczytana jako scene_one. Możesz ją podejrzeć w powłoce IPython!

Twoim zadaniem jest użycie funkcji word_tokenize i sent_tokenize z modułu nltk.tokenize, aby podzielić tekst na słowa i zdania – w tym przypadku na materiale z pierwszej sceny Monty Python i Świętego Graala.

Instrukcje

100 XP
  • Zaimportuj funkcje sent_tokenize i word_tokenize z nltk.tokenize.
  • Podziel wszystkie zdania w scene_one na tokeny przy użyciu funkcji sent_tokenize().
  • Przeprowadź tokenizację czwartego zdania z sentences – dostępnego jako sentences[3] – używając funkcji word_tokenize().
  • Znajdź unikalne tokeny w całej scenie: wywołaj word_tokenize() na scene_one, a następnie przekonwertuj wynik na zbiór za pomocą set().
  • Wyświetl znalezione unikalne tokeny. Ten krok jest już gotowy – kliknij Prześlij odpowiedź, aby zobaczyć wyniki!