1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Intermediate Importing Data in Python

Connected

cvičení

Parsování HTML pomocí BeautifulSoup

V tomto interaktivním cvičení se naučíš, jak pomocí balíčku BeautifulSoup parsovat, upravovat a extrahovat informace z HTML. Budeme scrapovat data z webové stránky Guida van Rossuma, zakladatele Pythonu a jeho Benevolentního doživotního diktátora. V dalších cvičeních pak HTML upravíš do čitelné podoby a extrahujete z něj text i hypertextové odkazy.

URL, se kterým budeme pracovat, je url = 'https://www.python.org/~guido/'.

Pokyny

100 XP
  • Importuj funkci BeautifulSoup z balíčku bs4.
  • Přiřaď URL, se kterým chceš pracovat, do proměnné url.
  • Pomocí funkce requests.get() sestav požadavek na dané URL, odešli ho a zachyť odpověď — výsledek ulož do proměnné r.
  • Pomocí atributu text objektu r získej HTML stránky jako řetězec a výsledek ulož do proměnné html_doc.
  • Pomocí funkce BeautifulSoup() vytvoř z tohoto HTML objekt soup.
  • Na objektu soup zavolej metodu prettify() a výsledek ulož do proměnné pretty_soup.
  • Klikni na Odeslat a zobraz upravené HTML ve svém shellu!