MulaiMulai sekarang secara gratis

Mengubah laman web menjadi data dengan BeautifulSoup: mengambil hyperlink

Dalam latihan ini, Anda akan mempelajari cara mengekstrak URL dari hyperlink pada laman web BDFL. Dalam prosesnya, Anda akan akrab dengan metode soup find_all().

Latihan ini adalah bagian dari kursus

Mengimpor Data Tingkat Menengah di Python

Lihat Kursus

Petunjuk latihan

  • Gunakan metode find_all() untuk menemukan semua hyperlink di soup, dengan mengingat bahwa hyperlink didefinisikan oleh tag HTML <a> tetapi diberikan ke find_all() tanpa tanda kurung sudut; simpan hasilnya dalam variabel a_tags.
  • Variabel a_tags adalah sebuah himpunan hasil: tugas Anda sekarang adalah melakukan enumerasi atasnya menggunakan for loop dan mencetak URL aktual dari hyperlink; untuk melakukannya, untuk setiap elemen link di a_tags, Anda perlu print() link.get('href').

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Import packages
import requests
from bs4 import BeautifulSoup

# Specify url
url = 'https://www.python.org/~guido/'

# Package the request, send the request and catch the response: r
r = requests.get(url)

# Extracts the response as html: html_doc
html_doc = r.text

# create a BeautifulSoup object from the HTML: soup
soup = BeautifulSoup(html_doc)

# Print the title of Guido's webpage
print(soup.title)

# Find all 'a' tags (which define hyperlinks): a_tags


# Print the URLs to the shell
for ____ in ____:
    ____
Edit dan Jalankan Kode