BeautifulSoup ile bir web sayfasını veriye dönüştürmek: metni alma
Söz verdiğimiz gibi, bu ve sonraki egzersizlerde HTML çorbasından bilgi çıkarmanın temellerini öğreneceksin. Bu egzersizde, BDFL'nin web sayfasındaki metni nasıl çıkaracağını ve sayfanın başlığını nasıl yazdıracağını keşfedeceksin.
Bu egzersiz
Python'da Orta Düzey Veri İçe Aktarma
kursunun bir parçasıdırEgzersiz talimatları
- Örnek kodda, HTML yanıt nesnesi
html_doczaten oluşturuldu: ilk görevin, bunuBeautifulSoup()fonksiyonu ile çorbaya dönüştürmek ve ortaya çıkan çorbayısoupdeğişkenine atamak. - HTML çorbası
soupiçindentitleözniteliğini kullanarak başlığı çıkar ve sonucuguido_titledeğişkenine ata. - Guido'nun web sayfasının başlığını
print()fonksiyonu ile shell'e yazdır. - HTML çorbası
soupiçindenget_text()metodunu kullanarak metni çıkar veguido_textdeğişkenine ata. - Shell'de Guido'nun web sayfasının metnini yazdırmak için Yanıtı Gönder'e bas.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Import packages
import requests
from bs4 import BeautifulSoup
# Specify url: url
url = 'https://www.python.org/~guido/'
# Package the request, send the request and catch the response: r
r = requests.get(url)
# Extract the response as html: html_doc
html_doc = r.text
# Create a BeautifulSoup object from the HTML: soup
# Get the title of Guido's webpage: guido_title
# Print the title of Guido's webpage to the shell
# Get Guido's text: guido_text
# Print Guido's text to the shell
print(guido_text)