Wyszukiwanie plików

Czyszczenie zbioru danych z tweetami wciąż nie jest kompletne. Nadal pozostają w nim ciągi znaków, które nie wnoszą żadnej informacji o sentymencie. Wśród nich są ciągi odnoszące się do nazw plików tekstowych.

Udaje ci się znaleźć sposób na ich wykrycie:

Pojawiają się na początku łańcucha znaków.
Zawsze zaczynają się sekwencją 2 lub 3 samogłosek (a e i o u) – dużych lub małych liter.
Zawsze kończą się końcówką txt.

Nie jesteś jeszcze pewny, czy od razu je usunąć. Dlatego piszesz skrypt, który wyszukuje te ciągi i zapisuje je w osobnym zbiorze danych.

Na początek zapisujesz kilka przydatnych metaznaków: ^ – zakotwiczenie na początku, . – dowolny znak.

Zmienna sentiment_analysis zawierająca tekst dwóch tweetów oraz moduł re są już wczytane w twojej sesji. Możesz użyć print(), aby wyświetlić zawartość w powłoce IPython.

To ćwiczenie jest częścią kursu

Wyrażenia regularne w Pythonie

Instrukcje do ćwiczenia

Napisz wyrażenie regularne dopasowujące wzorzec nazw plików tekstowych, np. aemyfile.txt.
Znajdź wszystkie dopasowania wyrażenia regularnego w elementach sentiment_analysis. Wyświetl wynik.
Zastąp wszystkie dopasowania wyrażenia regularnego pustym ciągiem znaków "". Wyświetl wynik.

Interaktywne ćwiczenie praktyczne

Spróbuj tego ćwiczenia, uzupełniając ten przykładowy kod.

# Write a regex to match text file name
regex = ____"____[____]{____}____txt"

for text in sentiment_analysis:
	# Find all matches of the regex
	print(re.____(____, ____))
    
	# Replace all matches with empty string
	print(re.____(____, ____, ____))

Edytuj i uruchom kod

To ćwiczenie jest częścią kursu

Wyrażenia regularne w Pythonie

SkillTag.level.beginnerSkillTag.label

4.8+

Rozpocznij kurs za darmo

Zacznij swoją przygodę z wyrażeniami regularnymi! Od wycinania i łączenia ciągów, przez zmianę wielkości liter i usuwanie spacji, aż po wyszukiwanie i zastępowanie tekstu. Na zbiorze danych z recenzjami filmów nauczysz się podstawowych operacji na ciągach znaków.

Exercise 1: Wprowadzenie do manipulacji łańcuchami znaków Exercise 2: Pierwszy dzień!Exercise 3: Sztuczne recenzje Exercise 4: Palindromy Exercise 5: Operacje na ciągach znaków Exercise 6: Normalizowanie recenzji Exercise 7: Czas na łączenie!Exercise 8: Podział według wierszy czy według separatora?Exercise 9: Wyszukiwanie i zastępowanie Exercise 10: Wyszukiwanie podciągu Exercise 11: Gdzie jest to słowo?Exercise 12: Zastępowanie negacji

Kontynuując naukę, poznasz główne metody formatowania i interpolacji ciągów znaków w Pythonie, korzystając ze zbioru danych zawierającego informacje pobrane ze stron internetowych. Zapoznasz się z zaletami i wadami formatowania pozycyjnego, osadzania wyrażeń w stałych tekstowych oraz używania klasy Template.

Exercise 1: Formatowanie pozycyjne Exercise 2: Ułóż we właściwej kolejności!Exercise 3: Wywołanie po nazwie Exercise 4: Który dziś dzień?Exercise 5: Sformatowany literał łańcuchowy Exercise 6: Formatowanie f-stringami Exercise 7: Zamień to na funkcję Exercise 8: Na czas Exercise 9: Metoda Template Exercise 10: Przygotowanie raportu Exercise 11: Identyfikowanie cen Exercise 12: Bezpieczne podstawianie

Czas poznać podstawy wyrażeń regularnych! W tym kluczowym rozdziale zrozumiesz podstawową składnię wyrażeń regularnych. Pracując z prawdziwym zbiorem tweetów przeznaczonych do analizy sentymentu, nauczysz się stosować dopasowywanie wzorców za pomocą zwykłych i specjalnych znaków oraz kwantyfikatorów zachłannych i leniwych.

Exercise 1: Wprowadzenie do wyrażeń regularnych Exercise 2: Czy to boty?Exercise 3: Znajdź liczby Exercise 4: Dopasowywanie i dzielenie Exercise 5: Powtórzenia Exercise 6: Porządek w danych Exercise 7: Jakiś czas temu Exercise 8: Pozyskiwanie tokenów Exercise 9: Metaznaki wyrażeń regularnych Exercise 10: Wyszukiwanie plików

Bieżące ćwiczenie

Exercise 11: Podaj swój adres e-mail Exercise 12: Nieprawidłowe hasło Exercise 13: Dopasowanie zachłanne i niezachłanne Exercise 14: Różnica między zachłannym a leniwym dopasowaniem Exercise 15: Dopasowanie zachłanne Exercise 16: Podejście leniwe

W ostatnim etapie poznasz bardziej zaawansowane metody dopasowywania wzorców – z użyciem nawiasów do grupowania ciągów lub odwoływania się do wcześniej dopasowanego tekstu. Dowiesz się też, jak korzystać z asercji wyprzedzających i wstecznych.

Exercise 1: Grupy przechwytujące Exercise 2: Wypróbuj inne imię Exercise 3: Lot do domu Exercise 4: Alternacja i grupy nieprzechwytujące Exercise 5: To mi się podoba!Exercise 6: Nie, to nie dla mnie!Exercise 7: Wsteczne odwołania Exercise 8: Parsowanie plików PDF Exercise 9: Zamknij tag, proszę!Exercise 10: Powtórzoooone znaki Exercise 11: Lookaround Exercise 12: Słowa otaczające Exercise 13: Filtrowanie numerów telefonów Exercise 14: Linia mety