MulaiMulai sekarang secara gratis

Nama Pena

Dalam latihan ini, kami telah menyiapkan sebuah kelas spider yang, setelah selesai, akan mengambil nama penulis dari versi ringkas direktori kursus DataCamp. URL untuk versi ringkas tersebut disimpan dalam variabel url_short. Tugas Anda adalah membuat daftar nama penulis yang telah diextract di metode parse pada spider.

Dua hal yang perlu Anda ketahui:

  • Di sini Anda akan menggunakan objek response dan metode css.
  • Nama penulis kursus ditentukan oleh teks di dalam elemen paragraf p yang termasuk dalam class course-block__author-name

Anda dapat memeriksa spider menggunakan fungsi inspect_spider() yang telah kami buat untuk Anda -- fungsi ini akan mencetak nama penulis yang Anda temukan!

Perhatikan bahwa latihan ini dan latihan-latihan berikutnya dalam bab ini mungkin memerlukan waktu untuk memuat.

Latihan ini adalah bagian dari kursus

Web Scraping dengan Python

Lihat Kursus

Petunjuk latihan

  • Lengkapi argumen yang diperlukan untuk metode parse sehingga dapat bekerja sebagaimana mestinya saat dipanggil di metode start_requests.
  • Di dalam metode parse, buat variabel author_names, yaitu daftar string yang dibuat dengan mengekstrak teks dari elemen paragraf yang termasuk dalam class course-block__author-name.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Import the scrapy library
import scrapy

# Create the Spider class
class DCspider( scrapy.Spider ):
  name = 'dcspider'
  # start_requests method
  def start_requests( self ):
    yield scrapy.Request( url = url_short, callback = self.parse )
  # parse method
  def parse( ____ ):
    # Create an extracted list of course author names
    ____
    # Here we will just return the list of Authors
    return author_names
  
# Inspect the spider
inspect_spider( DCspider )
Edit dan Jalankan Kode