MulaiMulai sekarang secara gratis

Lempar URL

Pada pelajaran berikutnya, kita akan membahas metode start_requests di dalam kelas spider. Dalam latihan singkat ini, Anda diminta mengubah sebuah variabel di dalam metode start_requests yang menjadi pengantar untuk materi pada pelajaran berikutnya. Intinya, kami ingin Anda mulai terbiasa memutar beberapa "roda" di dalam kelas spider; dalam hal ini, membuat sebuah list urls di dalam metode start_requests.

Kami telah menuliskan fungsi inspect_class yang akan mencetak daftar elemen yang Anda miliki pada variabel urls di dalam metode start_requests.

Catatan: pada beberapa latihan berikutnya, Anda akan menulis kode untuk melengkapi kelas spider Anda, tetapi kode tersebut belum menyertakan bagian untuk benar-benar menjalankan spider; itu akan dibahas di bagian akhir.

Latihan ini adalah bagian dari kursus

Web Scraping dengan Python

Lihat Kursus

Petunjuk latihan

  • Isi bagian yang kosong di dalam metode start_requests untuk menetapkan variabel urls sebagai sebuah list dengan dua string: "https://www.datacamp.com" dan "https://scrapy.org".

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Import scrapy library
import scrapy

# Create the spider class
class YourSpider( scrapy.Spider ):
  name = "your_spider"
  # start_requests method
  def start_requests( self ):
    urls = ____
    for url in urls:
      yield url
  # parse method
  def parse( self, response ):
    pass
  
# Inspect Your Class
inspect_class( YourSpider )
Edit dan Jalankan Kode