1. Nauka
  2. /
  3. Kursy
  4. /
  5. Rekurencyjne sieci neuronowe (RNN) do modelowania języka w Keras

Connected

ćwiczenie

Praca z danymi tekstowymi

W tym ćwiczeniu przeanalizujesz cytaty Sheldona Coopera z serialu Teoria Wielkiego Podrywu. To dobra okazja, żeby przekonać się, jak wygląda praca z prawdziwymi danymi tekstowymi.

Wykorzystasz mechanizm dictionary comprehension do tworzenia słowników, które mapują słowa na indeksy i odwrotnie. Słowniki sprawdzają się tu lepiej niż np. pandas.DataFrame – są bardziej intuicyjne i nie wprowadzają zbędnej złożoności.

Dane są dostępne w zmiennej sheldon_quotes, a pierwsze dwa zdania zostały już wyświetlone.

Instrukcje

100 XP
  • Połącz zdania w jedną zmienną metodą join, a następnie wyodrębnij wszystkie słowa i zapisz je w liście all_words.
  • Usuń duplikaty, stosując list(set()) na liście słów, i zapisz wynik w unique_words.
  • Utwórz słownik, w którym kluczami są indeksy, a wartościami słowa – użyj do tego dictionary comprehension.
  • Utwórz słownik, w którym kluczami są słowa, a wartościami indeksy – użyj do tego dictionary comprehension.