Transformando uma página da Web em dados usando o BeautifulSoup: obtendo o texto

Conforme prometido, nos exercícios a seguir, você aprenderá os conceitos básicos de extração de informações da sopa HTML. Neste exercício, você descobrirá como extrair o texto da página da Web do BDFL, além de imprimir o título da página da Web.

Este exercício faz parte do curso

Importação intermediária de dados em Python

Ver Curso

Instruções de exercício

  • No código de exemplo, o objeto de resposta HTML html_doc já foi criado: sua primeira tarefa é fazer o Soupify usando a função BeautifulSoup() e atribuir o soup resultante à variável soup.
  • Extraia o título da sopa HTML soup usando o atributo title e atribua o resultado a guido_title.
  • Imprima o título da página da Web de Guido no shell usando a função print().
  • Extraia o texto da sopa HTML soup usando o método get_text() e atribua a guido_text.
  • Pressione submit para imprimir o texto da página da Web do Guido no shell.

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Import packages
import requests
from bs4 import BeautifulSoup

# Specify url: url
url = 'https://www.python.org/~guido/'

# Package the request, send the request and catch the response: r
r = requests.get(url)

# Extract the response as html: html_doc
html_doc = r.text

# Create a BeautifulSoup object from the HTML: soup


# Get the title of Guido's webpage: guido_title


# Print the title of Guido's webpage to the shell


# Get Guido's text: guido_text


# Print Guido's text to the shell
print(guido_text)