Nama Pena
Dalam latihan ini, kami telah menyiapkan sebuah kelas spider yang, setelah selesai, akan mengambil nama penulis dari versi ringkas direktori kursus DataCamp. URL untuk versi ringkas tersebut disimpan dalam variabel url_short. Tugas Anda adalah membuat daftar nama penulis yang telah diextract di metode parse pada spider.
Dua hal yang perlu Anda ketahui:
- Di sini Anda akan menggunakan objek
responsedan metodecss. - Nama penulis kursus ditentukan oleh teks di dalam elemen paragraf
pyang termasuk dalam classcourse-block__author-name
Anda dapat memeriksa spider menggunakan fungsi inspect_spider() yang telah kami buat untuk Anda -- fungsi ini akan mencetak nama penulis yang Anda temukan!
Perhatikan bahwa latihan ini dan latihan-latihan berikutnya dalam bab ini mungkin memerlukan waktu untuk memuat.
Latihan ini adalah bagian dari kursus
Web Scraping dengan Python
Petunjuk latihan
- Lengkapi argumen yang diperlukan untuk metode parse sehingga dapat bekerja sebagaimana mestinya saat dipanggil di metode
start_requests. - Di dalam metode
parse, buat variabelauthor_names, yaitu daftar string yang dibuat dengan mengekstrak teks dari elemen paragraf yang termasuk dalam classcourse-block__author-name.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import the scrapy library
import scrapy
# Create the Spider class
class DCspider( scrapy.Spider ):
name = 'dcspider'
# start_requests method
def start_requests( self ):
yield scrapy.Request( url = url_short, callback = self.parse )
# parse method
def parse( ____ ):
# Create an extracted list of course author names
____
# Here we will just return the list of Authors
return author_names
# Inspect the spider
inspect_spider( DCspider )