Transformando uma página da Web em dados usando o BeautifulSoup: obtendo o texto
Conforme prometido, nos exercícios a seguir, você aprenderá os conceitos básicos de extração de informações da sopa HTML. Neste exercício, você descobrirá como extrair o texto da página da Web do BDFL, além de imprimir o título da página da Web.
Este exercício faz parte do curso
Importação intermediária de dados em Python
Instruções de exercício
- No código de exemplo, o objeto de resposta HTML
html_doc
já foi criado: sua primeira tarefa é fazer o Soupify usando a funçãoBeautifulSoup()
e atribuir o soup resultante à variávelsoup
. - Extraia o título da sopa HTML
soup
usando o atributotitle
e atribua o resultado aguido_title
. - Imprima o título da página da Web de Guido no shell usando a função
print()
. - Extraia o texto da sopa HTML
soup
usando o métodoget_text()
e atribua aguido_text
. - Pressione submit para imprimir o texto da página da Web do Guido no shell.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Import packages
import requests
from bs4 import BeautifulSoup
# Specify url: url
url = 'https://www.python.org/~guido/'
# Package the request, send the request and catch the response: r
r = requests.get(url)
# Extract the response as html: html_doc
html_doc = r.text
# Create a BeautifulSoup object from the HTML: soup
# Get the title of Guido's webpage: guido_title
# Print the title of Guido's webpage to the shell
# Get Guido's text: guido_text
# Print Guido's text to the shell
print(guido_text)