1. Nauka
  2. /
  3. Kursy
  4. /
  5. Wyrażenia regularne w Pythonie

Connected

ćwiczenie

Powtórzoooone znaki

Wracamy do analizy wydźwięku! Tym razem zastąpisz wydłużone słowa pojawiające się w tweetach. Wydłużone słowo to takie, w którym jakiś znak powtarza się co najmniej dwa razy z rzędu – na przykład "Awesoooome".

Zastępowanie takich słów jest bardzo ważne, ponieważ klasyfikator traktuje je jako osobny termin, inny od słowa źródłowego, co obniża jego częstotliwość.

Do ich wyszukiwania użyjesz grup przechwytujących i odwołasz się do nich za pomocą numerów, np. \4.

Jeśli chcesz znaleźć dopasowanie dla Awesoooome, najpierw przechwyć Awes. Następnie dopasuj o, odwołaj się do tego samego znaku wstecz, a na końcu dopasuj me.

Lista sentiment_analysis zawierająca teksty trzech tweetów oraz moduł re są już wczytane w sesji. Możesz użyć print(), aby wyświetlić dane w powłoce IPython.

Instrukcje

100 XP
  • Uzupełnij wyrażenie regularne tak, aby dopasowywało wydłużone słowo zgodnie z opisem.
  • Przeszukaj elementy listy sentiment_analysis, aby sprawdzić, czy zawierają wydłużone słowa. Przypisz wynik do zmiennej match_elongated.
  • Przypisz przechwyconą grupę o numerze zero do zmiennej elongated_word.
  • Wyświetl wynik zapisany w zmiennej elongated_word.