BeautifulSoup ile HTML ayrıştırma
Bu etkileşimli egzersizde, BeautifulSoup paketini kullanarak HTML'den bilgi ayrıştırmayı (parse), güzelleştirmeyi (prettify) ve çıkarmayı öğreneceksin. Python'un Benevolent Dictator for Life unvanlı yaratıcısı Guido van Rossum'un web sayfasından veri toplayacaksın. Sonraki adımlarda HTML'yi güzelleştirecek, ardından metni ve köprüleri (hyperlink) çıkaracaksın.
İlgilendiğimiz URL: url = 'https://www.python.org/~guido/'.
Bu egzersiz
Python'da Orta Düzey Veri İçe Aktarma
kursunun bir parçasıdırEgzersiz talimatları
bs4paketindenBeautifulSoupfonksiyonunu içe aktar.- İlgilendiğin URL'yi
urldeğişkenine ata. - İsteği hazırlamak, göndermek ve yanıtı yakalamak için tek adımda
requests.get()fonksiyonunu kullan ve yanıtırdeğişkenine ata. rnesnesinintextözniteliğini kullanarak web sayfasının HTML'sini string olarak elde et; sonucuhtml_docdeğişkeninde sakla.- Elde edilen HTML'den
BeautifulSoup()fonksiyonunu kullanaraksoupadlı bir BeautifulSoup nesnesi oluştur. soupüzerindeprettify()metodunu kullan ve sonucupretty_soupdeğişkenine ata.- Biçimlendirilmiş HTML'yi terminaline yazdırmak için Yanıtı Gönder!
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Import packages
import requests
from ____ import ____
# Specify url: url
# Package the request, send the request and catch the response: r
# Extracts the response as html: html_doc
# Create a BeautifulSoup object from the HTML: soup
# Prettify the BeautifulSoup object: pretty_soup
# Print the response
print(pretty_soup)