1. Nauka
  2. /
  3. Kursy
  4. /
  5. Wprowadzenie do przetwarzania języka naturalnego w Pythonie

Connected

ćwiczenie

Ćwiczenie z wykresami

Wykorzystaj zdobyte umiejętności, aby znaleźć i zwizualizować liczbę słów w każdej linii skryptu przy użyciu matplotlib. Skrypt Świętego Graala jest już wczytany – twoim zadaniem jest zastosowanie wyrażeń regularnych do wyodrębnienia słów z poszczególnych linii.

Wyrażenia listowe przyspieszą obliczenia. Na przykład: my_lines = [tokenize(l) for l in lines] wywoła funkcję tokenize na każdej linii z listy lines, a wynik zapisze w zmiennej my_lines.

Cały skrypt jest dostępny w zmiennej holy_grail. Do dzieła!

Instrukcje

100 XP
  • Podziel skrypt holy_grail na linie, używając znaku nowej linii ('\n').
  • Użyj re.sub() wewnątrz wyrażenia listowego, aby usunąć oznaczenia postaci, takie jak ARTHUR: czy SOLDIER #1. Wzorzec jest już przygotowany.
  • Użyj wyrażenia listowego do tokenizacji zmiennej lines za pomocą regexp_tokenize(), zachowując wyłącznie słowa. Pamiętaj, że wzorzec dla słów to "\w+".
  • Użyj wyrażenia listowego, aby utworzyć listę długości linii o nazwie line_num_words.
    • Jako zmienną iteracyjną użyj t_line, iterując po tokenized_lines, a do obliczenia długości każdej linii zastosuj funkcję len().
  • Narysuj histogram line_num_words za pomocą plt.hist(). Pamiętaj, aby na końcu wywołać też plt.show(), żeby wyświetlić wykres.