Mengubah laman web menjadi data dengan BeautifulSoup: mengambil hyperlink
Dalam latihan ini, Anda akan mempelajari cara mengekstrak URL dari hyperlink pada laman web BDFL. Dalam prosesnya, Anda akan akrab dengan metode soup find_all().
Latihan ini adalah bagian dari kursus
Mengimpor Data Tingkat Menengah di Python
Petunjuk latihan
- Gunakan metode
find_all()untuk menemukan semua hyperlink disoup, dengan mengingat bahwa hyperlink didefinisikan oleh tag HTML<a>tetapi diberikan kefind_all()tanpa tanda kurung sudut; simpan hasilnya dalam variabela_tags. - Variabel
a_tagsadalah sebuah himpunan hasil: tugas Anda sekarang adalah melakukan enumerasi atasnya menggunakanforloop dan mencetak URL aktual dari hyperlink; untuk melakukannya, untuk setiap elemenlinkdia_tags, Anda perluprint()link.get('href').
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import packages
import requests
from bs4 import BeautifulSoup
# Specify url
url = 'https://www.python.org/~guido/'
# Package the request, send the request and catch the response: r
r = requests.get(url)
# Extracts the response as html: html_doc
html_doc = r.text
# create a BeautifulSoup object from the HTML: soup
soup = BeautifulSoup(html_doc)
# Print the title of Guido's webpage
print(soup.title)
# Find all 'a' tags (which define hyperlinks): a_tags
# Print the URLs to the shell
for ____ in ____:
____