1. Uczyć się
  2. /
  3. Courses
  4. /
  5. Wyrażenia regularne w Pythonie

Connected

Exercise

Wyszukiwanie plików

Czyszczenie zbioru danych z tweetami wciąż nie jest kompletne. Nadal pozostają w nim ciągi znaków, które nie wnoszą żadnej informacji o sentymencie. Wśród nich są ciągi odnoszące się do nazw plików tekstowych.

Udaje ci się znaleźć sposób na ich wykrycie:

  • Pojawiają się na początku łańcucha znaków.
  • Zawsze zaczynają się sekwencją 2 lub 3 samogłosek (a e i o u) – dużych lub małych liter.
  • Zawsze kończą się końcówką txt.

Nie jesteś jeszcze pewny, czy od razu je usunąć. Dlatego piszesz skrypt, który wyszukuje te ciągi i zapisuje je w osobnym zbiorze danych.

Na początek zapisujesz kilka przydatnych metaznaków: ^ – zakotwiczenie na początku, . – dowolny znak.

Zmienna sentiment_analysis zawierająca tekst dwóch tweetów oraz moduł re są już wczytane w twojej sesji. Możesz użyć print(), aby wyświetlić zawartość w powłoce IPython.

Instrukcje

100 XP
  • Napisz wyrażenie regularne dopasowujące wzorzec nazw plików tekstowych, np. aemyfile.txt.
  • Znajdź wszystkie dopasowania wyrażenia regularnego w elementach sentiment_analysis. Wyświetl wynik.
  • Zastąp wszystkie dopasowania wyrażenia regularnego pustym ciągiem znaków "". Wyświetl wynik.