BaşlayınÜcretsiz Başlayın

BeautifulSoup ile bir web sayfasını veriye dönüştürmek: metni alma

Söz verdiğimiz gibi, bu ve sonraki egzersizlerde HTML çorbasından bilgi çıkarmanın temellerini öğreneceksin. Bu egzersizde, BDFL'nin web sayfasındaki metni nasıl çıkaracağını ve sayfanın başlığını nasıl yazdıracağını keşfedeceksin.

Bu egzersiz

Python'da Orta Düzey Veri İçe Aktarma

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • Örnek kodda, HTML yanıt nesnesi html_doc zaten oluşturuldu: ilk görevin, bunu BeautifulSoup() fonksiyonu ile çorbaya dönüştürmek ve ortaya çıkan çorbayı soup değişkenine atamak.
  • HTML çorbası soup içinden title özniteliğini kullanarak başlığı çıkar ve sonucu guido_title değişkenine ata.
  • Guido'nun web sayfasının başlığını print() fonksiyonu ile shell'e yazdır.
  • HTML çorbası soup içinden get_text() metodunu kullanarak metni çıkar ve guido_text değişkenine ata.
  • Shell'de Guido'nun web sayfasının metnini yazdırmak için Yanıtı Gönder'e bas.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Import packages
import requests
from bs4 import BeautifulSoup

# Specify url: url
url = 'https://www.python.org/~guido/'

# Package the request, send the request and catch the response: r
r = requests.get(url)

# Extract the response as html: html_doc
html_doc = r.text

# Create a BeautifulSoup object from the HTML: soup


# Get the title of Guido's webpage: guido_title


# Print the title of Guido's webpage to the shell


# Get Guido's text: guido_text


# Print Guido's text to the shell
print(guido_text)
Kodu Düzenle ve Çalıştır