BeautifulSoup ile bir web sayfasını veriye dönüştürme: köprüleri alma
Bu egzersizde, BDFL'nin web sayfasındaki köprülerin URL'lerini nasıl çıkaracağını öğreneceksin. Bu süreçte, find_all() isimli soup metoduyla bayağı haşır neşir olacaksın.
Bu egzersiz
Python'da Orta Düzey Veri İçe Aktarma
kursunun bir parçasıdırEgzersiz talimatları
soupiçinde tüm köprüleri bulmak içinfind_all()metodunu kullan; köprülerin HTML etiketi<a>ile tanımlandığını amafind_all()metoduna köşeli parantezler olmadan geçirildiğini unutma; sonucua_tagsdeğişkeninde sakla.a_tagsbir sonuç kümesidir: şimdi görevin, birfordöngüsüyle üzerinden geçip köprülerin gerçek URL'lerini yazdırmak; bunu yapmak için,a_tagsiçindeki herlinkelemanı içinprint()ilelink.get('href')yazdırmalısın.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Import packages
import requests
from bs4 import BeautifulSoup
# Specify url
url = 'https://www.python.org/~guido/'
# Package the request, send the request and catch the response: r
r = requests.get(url)
# Extracts the response as html: html_doc
html_doc = r.text
# create a BeautifulSoup object from the HTML: soup
soup = BeautifulSoup(html_doc)
# Print the title of Guido's webpage
print(soup.title)
# Find all 'a' tags (which define hyperlinks): a_tags
# Print the URLs to the shell
for ____ in ____:
____