BeautifulSoup ile HTML ayrıştırma

Bu etkileşimli egzersizde, BeautifulSoup paketini kullanarak HTML'den bilgi ayrıştırmayı (parse), güzelleştirmeyi (prettify) ve çıkarmayı öğreneceksin. Python'un Benevolent Dictator for Life unvanlı yaratıcısı Guido van Rossum'un web sayfasından veri toplayacaksın. Sonraki adımlarda HTML'yi güzelleştirecek, ardından metni ve köprüleri (hyperlink) çıkaracaksın.

İlgilendiğimiz URL: url = 'https://www.python.org/~guido/'.

Bu egzersiz, kursun bir parçasıdır

Python'da Orta Düzey Veri İçe Aktarma

Kursa Göz Atın

Egzersiz talimatları

bs4 paketinden BeautifulSoup fonksiyonunu içe aktar.
İlgilendiğin URL'yi url değişkenine ata.
İsteği hazırlamak, göndermek ve yanıtı yakalamak için tek adımda requests.get() fonksiyonunu kullan ve yanıtı r değişkenine ata.
r nesnesinin text özniteliğini kullanarak web sayfasının HTML'sini string olarak elde et; sonucu html_doc değişkeninde sakla.
Elde edilen HTML'den BeautifulSoup() fonksiyonunu kullanarak soup adlı bir BeautifulSoup nesnesi oluştur.
soup üzerinde prettify() metodunu kullan ve sonucu pretty_soup değişkenine ata.
Biçimlendirilmiş HTML'yi terminaline yazdırmak için Yanıtı Gönder!

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Import packages
import requests
from ____ import ____

# Specify url: url


# Package the request, send the request and catch the response: r


# Extracts the response as html: html_doc


# Create a BeautifulSoup object from the HTML: soup


# Prettify the BeautifulSoup object: pretty_soup


# Print the response
print(pretty_soup)

Kodu Düzenle ve Çalıştır