Memparsing HTML dengan BeautifulSoup
Dalam latihan interaktif ini, Anda akan belajar cara menggunakan paket BeautifulSoup untuk parse, prettify, dan extract informasi dari HTML. Anda akan melakukan scraping data dari halaman web milik Guido van Rossum, Benevolent Dictator for Life Python. Pada latihan berikutnya, Anda akan melakukan prettify pada HTML lalu mengekstrak teks dan hyperlink.
URL yang digunakan adalah url = 'https://www.python.org/~guido/'.
Latihan ini adalah bagian dari kursus
Mengimpor Data Tingkat Menengah di Python
Petunjuk latihan
- Impor fungsi
BeautifulSoupdari paketbs4. - Tetapkan URL yang digunakan ke variabel
url. - Kemas permintaan ke URL, kirim permintaan, dan tangkap responsnya dengan satu fungsi
requests.get(), lalu tetapkan respons tersebut ke variabelr. - Gunakan atribut
textdari objekruntuk mengembalikan HTML halaman web sebagai string; simpan hasilnya dalam variabelhtml_doc. - Buat objek BeautifulSoup
soupdari HTML tersebut menggunakan fungsiBeautifulSoup(). - Gunakan metode
prettify()padasoupdan tetapkan hasilnya kepretty_soup. - Tekan Kirim untuk mencetak HTML yang sudah dipretty ke shell Anda!
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import packages
import requests
from ____ import ____
# Specify url: url
# Package the request, send the request and catch the response: r
# Extracts the response as html: html_doc
# Create a BeautifulSoup object from the HTML: soup
# Prettify the BeautifulSoup object: pretty_soup
# Print the response
print(pretty_soup)