Mahlaslar
Bu egzersizde, tamamlandığında DataCamp kurs dizininin kısaltılmış bir sürümünden yazar adlarını alacak bir spider sınıfı hazırladık. Kısaltılmış sürümün URL'si url_short değişkeninde saklanıyor. Senin görevin, spider'ın parse metodunda çıkarılmış yazar adlarının listesini oluşturmak.
Bilmen gereken iki şey:
- Burada
responsenesnesini vecssmetodunu kullanacaksın. - Kurs yazar adları,
course-block__author-namesınıfına ait paragrafpöğelerinin içindeki metin ile tanımlanmıştır.
Senin için yazdığımız inspect_spider() fonksiyonunu kullanarak spider'ı inceleyebilirsin — bulduğun yazar adlarını yazdıracak!
Not: Bu bölümdeki bu ve sonraki egzersizlerin yüklenmesi biraz zaman alabilir.
Bu egzersiz
Python ile Web Scraping
kursunun bir parçasıdırEgzersiz talimatları
start_requestsmetodunda çağrıldığında gerektiği gibi çalışması içinparsemetoduna gereken argümanları doldur.parsemetodunun içinde,course-block__author-namesınıfına ait paragraf öğelerinden metni çıkararak oluşturulan stringlerden oluşan bir liste olanauthor_namesadlı bir değişken oluştur.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Import the scrapy library
import scrapy
# Create the Spider class
class DCspider( scrapy.Spider ):
name = 'dcspider'
# start_requests method
def start_requests( self ):
yield scrapy.Request( url = url_short, callback = self.parse )
# parse method
def parse( ____ ):
# Create an extracted list of course author names
____
# Here we will just return the list of Authors
return author_names
# Inspect the spider
inspect_spider( DCspider )