BaşlayınÜcretsiz Başlayın

BeautifulSoup ile bir web sayfasını veriye dönüştürme: köprüleri alma

Bu egzersizde, BDFL'nin web sayfasındaki köprülerin URL'lerini nasıl çıkaracağını öğreneceksin. Bu süreçte, find_all() isimli soup metoduyla bayağı haşır neşir olacaksın.

Bu egzersiz

Python'da Orta Düzey Veri İçe Aktarma

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • soup içinde tüm köprüleri bulmak için find_all() metodunu kullan; köprülerin HTML etiketi <a> ile tanımlandığını ama find_all() metoduna köşeli parantezler olmadan geçirildiğini unutma; sonucu a_tags değişkeninde sakla.
  • a_tags bir sonuç kümesidir: şimdi görevin, bir for döngüsüyle üzerinden geçip köprülerin gerçek URL'lerini yazdırmak; bunu yapmak için, a_tags içindeki her link elemanı için print() ile link.get('href') yazdırmalısın.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Import packages
import requests
from bs4 import BeautifulSoup

# Specify url
url = 'https://www.python.org/~guido/'

# Package the request, send the request and catch the response: r
r = requests.get(url)

# Extracts the response as html: html_doc
html_doc = r.text

# create a BeautifulSoup object from the HTML: soup
soup = BeautifulSoup(html_doc)

# Print the title of Guido's webpage
print(soup.title)

# Find all 'a' tags (which define hyperlinks): a_tags


# Print the URLs to the shell
for ____ in ____:
    ____
Kodu Düzenle ve Çalıştır