Parsování HTML pomocí BeautifulSoup

V tomto interaktivním cvičení se naučíš, jak pomocí balíčku BeautifulSoup parsovat, upravovat a extrahovat informace z HTML. Budeme scrapovat data z webové stránky Guida van Rossuma, zakladatele Pythonu a jeho Benevolentního doživotního diktátora. V dalších cvičeních pak HTML upravíš do čitelné podoby a extrahujete z něj text i hypertextové odkazy.

URL, se kterým budeme pracovat, je url = 'https://www.python.org/~guido/'.

Importuj funkci BeautifulSoup z balíčku bs4.
Přiřaď URL, se kterým chceš pracovat, do proměnné url.
Pomocí funkce requests.get() sestav požadavek na dané URL, odešli ho a zachyť odpověď — výsledek ulož do proměnné r.
Pomocí atributu text objektu r získej HTML stránky jako řetězec a výsledek ulož do proměnné html_doc.
Pomocí funkce BeautifulSoup() vytvoř z tohoto HTML objekt soup.
Na objektu soup zavolej metodu prettify() a výsledek ulož do proměnné pretty_soup.
Klikni na Odeslat a zobraz upravené HTML ve svém shellu!

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení