1. Learn
  2. /
  3. Cursuri
  4. /
  5. Importul intermediar de date în Python

Connected

exercițiu

Parsarea HTML cu BeautifulSoup

În acest exercițiu interactiv, vei învăța cum să folosești pachetul BeautifulSoup pentru a parsa, formata și extrage informații din HTML. Vei extrage datele de pe pagina web a lui Guido van Rossum, Dictatorul Binevoitor pe Viață al Python-ului. În exercițiile următoare, vei formata HTML-ul și vei extrage textul și hyperlink-urile.

URL-ul de interes este url = 'https://www.python.org/~guido/'.

Instrucțiuni

100 XP
  • Importă funcția BeautifulSoup din pachetul bs4.
  • Atribuie URL-ul de interes variabilei url.
  • Pregătește cererea către URL, trimite cererea și captează răspunsul cu o singură funcție, requests.get(), atribuind răspunsul variabilei r.
  • Folosește atributul text al obiectului r pentru a returna HTML-ul paginii web ca șir de caractere; stochează rezultatul în variabila html_doc.
  • Creează un obiect BeautifulSoup numit soup din HTML-ul rezultat, folosind funcția BeautifulSoup().
  • Aplică metoda prettify() pe soup și atribuie rezultatul variabilei pretty_soup.
  • Apasă Trimite răspunsul pentru a afișa HTML-ul formatat în consolă!