1. Nauka
  2. /
  3. Kursy
  4. /
  5. Wyrażenia regularne w Pythonie

Connected

ćwiczenie

Porządek w danych

Wracamy do projektu analizy sentymentu na Twitterze! Istnieje kilka typów ciągów znaków, które utrudniają analizę sentymentu – i jednocześnie nie wnoszą do niej żadnej wartości. Należą do nich między innymi linki oraz wzmianki o użytkownikach.

Aby wyczyścić tweety, chcesz najpierw wyodrębnić kilka przykładów. Wiesz, że linki najczęściej zaczynają się od http i nie zawierają białych znaków, np. https://www.datacamp.com. Wzmianki o użytkownikach zaczynają się od @ i mogą zawierać wyłącznie litery oraz cyfry, np. @johnsmith3.

Zapisałeś kilka przydatnych kwantyfikatorów: * zero lub więcej razy, + jeden lub więcej razy, ? zero lub jeden raz.

Lista sentiment_analysis zawierająca tekst trzech tweetów jest już wczytana do twojej sesji. Możesz użyć funkcji print(), żeby wyświetlić dane w powłoce IPython.

Instrukcje

100 XP
  • Zaimportuj moduł re.
  • Napisz wyrażenie regularne, które znajdzie wszystkie dopasowania linków http w każdym tweet z listy sentiment_analysis. Wyświetl wynik.
  • Napisz wyrażenie regularne, które znajdzie wszystkie dopasowania wzmianek o użytkownikach w każdym tweet z listy sentiment_analysis. Wyświetl wynik.