Porządek w danych

Wracamy do projektu analizy sentymentu na Twitterze! Istnieje kilka typów ciągów znaków, które utrudniają analizę sentymentu – i jednocześnie nie wnoszą do niej żadnej wartości. Należą do nich między innymi linki oraz wzmianki o użytkownikach.

Aby wyczyścić tweety, chcesz najpierw wyodrębnić kilka przykładów. Wiesz, że linki najczęściej zaczynają się od http i nie zawierają białych znaków, np. https://www.datacamp.com. Wzmianki o użytkownikach zaczynają się od @ i mogą zawierać wyłącznie litery oraz cyfry, np. @johnsmith3.

Zapisałeś kilka przydatnych kwantyfikatorów: * zero lub więcej razy, + jeden lub więcej razy, ? zero lub jeden raz.

Lista sentiment_analysis zawierająca tekst trzech tweetów jest już wczytana do twojej sesji. Możesz użyć funkcji print(), żeby wyświetlić dane w powłoce IPython.

Zaimportuj moduł re.
Napisz wyrażenie regularne, które znajdzie wszystkie dopasowania linków http w każdym tweet z listy sentiment_analysis. Wyświetl wynik.
Napisz wyrażenie regularne, które znajdzie wszystkie dopasowania wzmianek o użytkownikach w każdym tweet z listy sentiment_analysis. Wyświetl wynik.

ćwiczenie

Porządek w danych

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie