ComeçarComece gratuitamente

Analisando HTML com BeautifulSoup

Neste exercício interativo, você aprenderá a usar o pacote BeautifulSoup para analisar, embelezar e extrair informações do site HTML. Você extrairá os dados da página da Web de Guido van Rossum, o próprio Ditador Benevolente Vitalício do Python. Nos exercícios a seguir, você vai embelezar o site HTML e, em seguida, extrair o texto e os hiperlinks.

O site URL de interesse é url = 'https://www.python.org/~guido/'.

Este exercício faz parte do curso

Importação intermediária de dados em Python

Ver Curso

Instruções de exercício

  • Importe a função BeautifulSoup do pacote bs4.
  • Atribua o URL de interesse à variável url.
  • Empacote a solicitação para URL, envie a solicitação e capture a resposta com uma única função requests.get(), atribuindo a resposta à variável r.
  • Use o atributo text do objeto r para retornar o HTML da página da Web como uma cadeia de caracteres; armazene o resultado em uma variável html_doc.
  • Crie um objeto BeautifulSoup soup a partir do HTML resultante usando a função BeautifulSoup().
  • Use o método prettify() em soup e atribua o resultado a pretty_soup.
  • Clique em enviar para imprimir o HTML para você!

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Import packages
import requests
from ____ import ____

# Specify url: url


# Package the request, send the request and catch the response: r


# Extracts the response as html: html_doc


# Create a BeautifulSoup object from the HTML: soup


# Prettify the BeautifulSoup object: pretty_soup


# Print the response
print(pretty_soup)
Editar e executar código