Analisando HTML com BeautifulSoup
Neste exercício interativo, você aprenderá a usar o pacote BeautifulSoup para analisar, embelezar e extrair informações do site HTML. Você extrairá os dados da página da Web de Guido van Rossum, o próprio Ditador Benevolente Vitalício do Python. Nos exercícios a seguir, você vai embelezar o site HTML e, em seguida, extrair o texto e os hiperlinks.
O site URL de interesse é url = 'https://www.python.org/~guido/'
.
Este exercício faz parte do curso
Importação intermediária de dados em Python
Instruções de exercício
- Importe a função
BeautifulSoup
do pacotebs4
. - Atribua o URL de interesse à variável
url
. - Empacote a solicitação para URL, envie a solicitação e capture a resposta com uma única função
requests.get()
, atribuindo a resposta à variávelr
. - Use o atributo
text
do objetor
para retornar o HTML da página da Web como uma cadeia de caracteres; armazene o resultado em uma variávelhtml_doc
. - Crie um objeto BeautifulSoup
soup
a partir do HTML resultante usando a funçãoBeautifulSoup()
. - Use o método
prettify()
emsoup
e atribua o resultado apretty_soup
. - Clique em enviar para imprimir o HTML para você!
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Import packages
import requests
from ____ import ____
# Specify url: url
# Package the request, send the request and catch the response: r
# Extracts the response as html: html_doc
# Create a BeautifulSoup object from the HTML: soup
# Prettify the BeautifulSoup object: pretty_soup
# Print the response
print(pretty_soup)