Lempar URL
Pada pelajaran berikutnya, kita akan membahas metode start_requests di dalam kelas spider. Dalam latihan singkat ini, Anda diminta mengubah sebuah variabel di dalam metode start_requests yang menjadi pengantar untuk materi pada pelajaran berikutnya. Intinya, kami ingin Anda mulai terbiasa memutar beberapa "roda" di dalam kelas spider; dalam hal ini, membuat sebuah list urls di dalam metode start_requests.
Kami telah menuliskan fungsi inspect_class yang akan mencetak daftar elemen yang Anda miliki pada variabel urls di dalam metode start_requests.
Catatan: pada beberapa latihan berikutnya, Anda akan menulis kode untuk melengkapi kelas spider Anda, tetapi kode tersebut belum menyertakan bagian untuk benar-benar menjalankan spider; itu akan dibahas di bagian akhir.
Latihan ini adalah bagian dari kursus
Web Scraping dengan Python
Petunjuk latihan
- Isi bagian yang kosong di dalam metode
start_requestsuntuk menetapkan variabelurlssebagai sebuah list dengan dua string:"https://www.datacamp.com"dan"https://scrapy.org".
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import scrapy library
import scrapy
# Create the spider class
class YourSpider( scrapy.Spider ):
name = "your_spider"
# start_requests method
def start_requests( self ):
urls = ____
for url in urls:
yield url
# parse method
def parse( self, response ):
pass
# Inspect Your Class
inspect_class( YourSpider )