Transformando uma página da Web em dados usando o BeautifulSoup: obtendo o texto
Conforme prometido, nos exercícios a seguir, você aprenderá os conceitos básicos de extração de informações da sopa HTML. Neste exercício, você descobrirá como extrair o texto da página da Web do BDFL, além de imprimir o título da página da Web.
Este exercício faz parte do curso
Importação intermediária de dados em Python
Instruções do exercício
- No código de exemplo, o objeto de resposta HTML
html_docjá foi criado: sua primeira tarefa é fazer o Soupify usando a funçãoBeautifulSoup()e atribuir o soup resultante à variávelsoup. - Extraia o título da sopa HTML
soupusando o atributotitlee atribua o resultado aguido_title. - Imprima o título da página da Web de Guido no shell usando a função
print(). - Extraia o texto da sopa HTML
soupusando o métodoget_text()e atribua aguido_text. - Pressione submit para imprimir o texto da página da Web do Guido no shell.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import packages
import requests
from bs4 import BeautifulSoup
# Specify url: url
url = 'https://www.python.org/~guido/'
# Package the request, send the request and catch the response: r
r = requests.get(url)
# Extract the response as html: html_doc
html_doc = r.text
# Create a BeautifulSoup object from the HTML: soup
# Get the title of Guido's webpage: guido_title
# Print the title of Guido's webpage to the shell
# Get Guido's text: guido_text
# Print Guido's text to the shell
print(guido_text)