1. Nauka
  2. /
  3. Kursy
  4. /
  5. Wyrażenia regularne w Pythonie

Connected

ćwiczenie

Normalizowanie recenzji

Czas wyodrębnić ważne słowa z twojego zbioru recenzji filmowych. Najpierw trzeba je znormalizować, a następnie policzyć ich częstotliwość. Normalizacja polega m.in. na zamianie wszystkich słów na małe litery, usunięciu znaków specjalnych i sprowadzeniu wyrazów do formy podstawowej – dzięki temu różne warianty tego samego słowa są liczone jako jedno.

Wyobraź sobie, że masz następujące recenzje: The movie surprises me very much i Marvel movies always surprise their audience. Jeśli policzysz częstotliwość słów, surprises pojawi się raz i surprise raz. Tymczasem czasownik surprise wystąpił w obu zdaniach – jego rzeczywista częstotliwość wynosi dwa.

Tekst recenzji filmowej dla jednego przykładu został już zapisany w zmiennej movie. Możesz użyć print(movie), aby wyświetlić jej zawartość w powłoce IPython.

Instrukcje 1/4

undefined XP
    1
    2
    3
    4
  • Zamień ciąg znaków zawarty w zmiennej movie na małe litery. Wydrukuj wynik.