URL’leri Savur
Bir sonraki derste örümcek (spider) sınıfının içindeki start_requests metodundan bahsedeceğiz. Bu kısa egzersizde, bir sonraki derste öğreneceklerimize göz kırpan şekilde start_requests metodunun içindeki bir değişkeni düzenlemeni istiyoruz. Temelde, bir örümcek sınıfının bazı dişlilerini çevirmeye alışmanı istiyoruz; bu örnekte start_requests metodunun içinde bir urls listesi oluşturacaksın.
inspect_class adlı bir fonksiyon yazdık; bu fonksiyon, start_requests metodundaki urls değişkeninde yer alan öğelerin listesini yazdıracak.
Not: Önümüzdeki birkaç egzersizde, örümcek sınıfını tamamlamak için kod yazacaksın; ancak kod şu anda örümceği gerçekten çalıştıracak parçaları içermiyor; o kısım sona doğru gelecek.
Bu egzersiz
Python ile Web Scraping
kursunun bir parçasıdırEgzersiz talimatları
start_requestsmetodundaki boşluğu doldur veurlsdeğişkenine şu iki dizgeyi içeren bir liste ata:"https://www.datacamp.com"ve"https://scrapy.org".
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Import scrapy library
import scrapy
# Create the spider class
class YourSpider( scrapy.Spider ):
name = "your_spider"
# start_requests method
def start_requests( self ):
urls = ____
for url in urls:
yield url
# parse method
def parse( self, response ):
pass
# Inspect Your Class
inspect_class( YourSpider )