1. Nauka
  2. /
  3. Kursy
  4. /
  5. Importowanie danych w Pythonie – poziom średniozaawansowany

Connected

ćwiczenie

Parsowanie HTML z BeautifulSoup

W tym interaktywnym ćwiczeniu nauczysz się używać pakietu BeautifulSoup do parsowania, formatowania i wyodrębniania informacji z HTML. Pobierzesz dane ze strony internetowej Guido van Rossuma, twórcy Pythona i jego Dożywotniego Życzliwego Dyktatora. W kolejnych ćwiczeniach sformatujesz kod HTML, a następnie wyodrębnisz tekst i hiperłącza.

Interesujący nas URL to url = 'https://www.python.org/~guido/'.

Instrukcje

100 XP
  • Zaimportuj funkcję BeautifulSoup z pakietu bs4.
  • Przypisz interesujący nas URL do zmiennej url.
  • Przygotuj żądanie do podanego URL, wyślij je i przechwyć odpowiedź za pomocą jednej funkcji requests.get(), przypisując odpowiedź do zmiennej r.
  • Użyj atrybutu text obiektu r, aby uzyskać kod HTML strony w postaci ciągu znaków; zapisz wynik w zmiennej html_doc.
  • Utwórz obiekt BeautifulSoup o nazwie soup z uzyskanego kodu HTML, używając funkcji BeautifulSoup().
  • Wywołaj metodę prettify() na obiekcie soup i przypisz wynik do zmiennej pretty_soup.
  • Kliknij Prześlij odpowiedź, aby wyświetlić sformatowany kod HTML w konsoli!