MulaiMulai sekarang secara gratis

Memparsing HTML dengan BeautifulSoup

Dalam latihan interaktif ini, Anda akan belajar cara menggunakan paket BeautifulSoup untuk parse, prettify, dan extract informasi dari HTML. Anda akan melakukan scraping data dari halaman web milik Guido van Rossum, Benevolent Dictator for Life Python. Pada latihan berikutnya, Anda akan melakukan prettify pada HTML lalu mengekstrak teks dan hyperlink.

URL yang digunakan adalah url = 'https://www.python.org/~guido/'.

Latihan ini adalah bagian dari kursus

Mengimpor Data Tingkat Menengah di Python

Lihat Kursus

Petunjuk latihan

  • Impor fungsi BeautifulSoup dari paket bs4.
  • Tetapkan URL yang digunakan ke variabel url.
  • Kemas permintaan ke URL, kirim permintaan, dan tangkap responsnya dengan satu fungsi requests.get(), lalu tetapkan respons tersebut ke variabel r.
  • Gunakan atribut text dari objek r untuk mengembalikan HTML halaman web sebagai string; simpan hasilnya dalam variabel html_doc.
  • Buat objek BeautifulSoup soup dari HTML tersebut menggunakan fungsi BeautifulSoup().
  • Gunakan metode prettify() pada soup dan tetapkan hasilnya ke pretty_soup.
  • Tekan Kirim untuk mencetak HTML yang sudah dipretty ke shell Anda!

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Import packages
import requests
from ____ import ____

# Specify url: url


# Package the request, send the request and catch the response: r


# Extracts the response as html: html_doc


# Create a BeautifulSoup object from the HTML: soup


# Prettify the BeautifulSoup object: pretty_soup


# Print the response
print(pretty_soup)
Edit dan Jalankan Kode