MulaiMulai sekarang secara gratis

Mengubah halaman web menjadi data dengan BeautifulSoup: mengambil teks

Sesuai janji, pada latihan-latihan berikut, Anda akan mempelajari dasar-dasar mengekstrak informasi dari HTML soup. Pada latihan ini, Anda akan mencari cara untuk mengekstrak teks dari halaman web BDFL, sekaligus mencetak judul halamannya.

Latihan ini adalah bagian dari kursus

Mengimpor Data Tingkat Menengah di Python

Lihat Kursus

Petunjuk latihan

  • Pada kode contoh, objek respons HTML html_doc sudah dibuat: tugas pertama Anda adalah membuatnya menjadi Soup menggunakan fungsi BeautifulSoup() dan menetapkan soup yang dihasilkan ke variabel soup.
  • Ekstrak judul dari HTML soup soup menggunakan atribut title dan tetapkan hasilnya ke guido_title.
  • Cetak judul halaman web Guido ke shell menggunakan fungsi print().
  • Ekstrak teks dari HTML soup soup menggunakan metode get_text() dan tetapkan ke guido_text.
  • Tekan Kirim untuk mencetak teks dari halaman web Guido ke shell.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Import packages
import requests
from bs4 import BeautifulSoup

# Specify url: url
url = 'https://www.python.org/~guido/'

# Package the request, send the request and catch the response: r
r = requests.get(url)

# Extract the response as html: html_doc
html_doc = r.text

# Create a BeautifulSoup object from the HTML: soup


# Get the title of Guido's webpage: guido_title


# Print the title of Guido's webpage to the shell


# Get Guido's text: guido_text


# Print Guido's text to the shell
print(guido_text)
Edit dan Jalankan Kode