BeautifulSoup ile bir web sayfasını veriye dönüştürmek: metni alma
Söz verdiğimiz gibi, bu ve sonraki egzersizlerde HTML çorbasından bilgi çıkarmanın temellerini öğreneceksin. Bu egzersizde, BDFL'nin web sayfasındaki metni nasıl çıkaracağını ve sayfanın başlığını nasıl yazdıracağını keşfedeceksin.
Bu egzersiz, kursun bir parçasıdır
Python'da Orta Düzey Veri İçe Aktarma
Egzersiz talimatları
- Örnek kodda, HTML yanıt nesnesi
html_doczaten oluşturuldu: ilk görevin, bunuBeautifulSoup()fonksiyonu ile çorbaya dönüştürmek ve ortaya çıkan çorbayısoupdeğişkenine atamak. - HTML çorbası
soupiçindentitleözniteliğini kullanarak başlığı çıkar ve sonucuguido_titledeğişkenine ata. - Guido'nun web sayfasının başlığını
print()fonksiyonu ile shell'e yazdır. - HTML çorbası
soupiçindenget_text()metodunu kullanarak metni çıkar veguido_textdeğişkenine ata. - Shell'de Guido'nun web sayfasının metnini yazdırmak için Yanıtı Gönder'e bas.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Import packages
import requests
from bs4 import BeautifulSoup
# Specify url: url
url = 'https://www.python.org/~guido/'
# Package the request, send the request and catch the response: r
r = requests.get(url)
# Extract the response as html: html_doc
html_doc = r.text
# Create a BeautifulSoup object from the HTML: soup
# Get the title of Guido's webpage: guido_title
# Print the title of Guido's webpage to the shell
# Get Guido's text: guido_text
# Print Guido's text to the shell
print(guido_text)