Memulai dengan Start Requests
Pada pelajaran sebelumnya, kita mempelajari cara menyiapkan metode start_requests dalam sebuah spider scrapy. Di sini tersedia spider model mainan lain yang sebenarnya tidak melakukan scraping apa pun, tetapi memberi Anda kesempatan untuk berlatih dengan metode start_requests. Tujuan kita adalah membuat Anda mulai akrab dengan argumen yang Anda berikan ke pemanggilan scrapy.Request di dalam start_requests.
Seperti sebelumnya, kami telah membuat fungsi inspect_class untuk memeriksa apa yang Anda hasilkan (yield) di start_requests.
Latihan ini adalah bagian dari kursus
Web Scraping dengan Python
Petunjuk latihan
- Isi objek
scrapyyang diperlukan ke dalam kelasYourSpideragar dapat membuat spiderscrapy. - Lengkapi bagian yang kosong pada pemanggilan
scrapy.Requestyang di-yield di dalam metodestart_requestssehingga URL yang akan mulai di-scrape spider ini adalah"https://www.datacamp.com"dan menggunakan metodeparse(di dalam kelasYourSpider) sebagai metode untuk mengurai situs web tersebut.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import scrapy library
import scrapy
# Create the spider class
class YourSpider( ____ ):
name = "your_spider"
# start_requests method
def start_requests( self ):
yield scrapy.Request( ____ )
# parse method
def parse( self, response ):
pass
# Inspect Your Class
inspect_class( YourSpider )