Parsowanie HTML z BeautifulSoup

W tym interaktywnym ćwiczeniu nauczysz się używać pakietu BeautifulSoup do parsowania, formatowania i wyodrębniania informacji z HTML. Pobierzesz dane ze strony internetowej Guido van Rossuma, twórcy Pythona i jego Dożywotniego Życzliwego Dyktatora. W kolejnych ćwiczeniach sformatujesz kod HTML, a następnie wyodrębnisz tekst i hiperłącza.

Interesujący nas URL to url = 'https://www.python.org/~guido/'.

Zaimportuj funkcję BeautifulSoup z pakietu bs4.
Przypisz interesujący nas URL do zmiennej url.
Przygotuj żądanie do podanego URL, wyślij je i przechwyć odpowiedź za pomocą jednej funkcji requests.get(), przypisując odpowiedź do zmiennej r.
Użyj atrybutu text obiektu r, aby uzyskać kod HTML strony w postaci ciągu znaków; zapisz wynik w zmiennej html_doc.
Utwórz obiekt BeautifulSoup o nazwie soup z uzyskanego kodu HTML, używając funkcji BeautifulSoup().
Wywołaj metodę prettify() na obiekcie soup i przypisz wynik do zmiennej pretty_soup.
Kliknij Prześlij odpowiedź, aby wyświetlić sformatowany kod HTML w konsoli!

ćwiczenie

Parsowanie HTML z BeautifulSoup

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie