BaşlayınÜcretsiz Başlayın

Mahlaslar

Bu egzersizde, tamamlandığında DataCamp kurs dizininin kısaltılmış bir sürümünden yazar adlarını alacak bir spider sınıfı hazırladık. Kısaltılmış sürümün URL'si url_short değişkeninde saklanıyor. Senin görevin, spider'ın parse metodunda çıkarılmış yazar adlarının listesini oluşturmak.

Bilmen gereken iki şey:

  • Burada response nesnesini ve css metodunu kullanacaksın.
  • Kurs yazar adları, course-block__author-name sınıfına ait paragraf p öğelerinin içindeki metin ile tanımlanmıştır.

Senin için yazdığımız inspect_spider() fonksiyonunu kullanarak spider'ı inceleyebilirsin — bulduğun yazar adlarını yazdıracak!

Not: Bu bölümdeki bu ve sonraki egzersizlerin yüklenmesi biraz zaman alabilir.

Bu egzersiz

Python ile Web Scraping

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • start_requests metodunda çağrıldığında gerektiği gibi çalışması için parse metoduna gereken argümanları doldur.
  • parse metodunun içinde, course-block__author-name sınıfına ait paragraf öğelerinden metni çıkararak oluşturulan stringlerden oluşan bir liste olan author_names adlı bir değişken oluştur.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Import the scrapy library
import scrapy

# Create the Spider class
class DCspider( scrapy.Spider ):
  name = 'dcspider'
  # start_requests method
  def start_requests( self ):
    yield scrapy.Request( url = url_short, callback = self.parse )
  # parse method
  def parse( ____ ):
    # Create an extracted list of course author names
    ____
    # Here we will just return the list of Authors
    return author_names
  
# Inspect the spider
inspect_spider( DCspider )
Kodu Düzenle ve Çalıştır