Beginnen met Start Requests
In de vorige les hebben we geleerd hoe je de methode start_requests instelt binnen een scrapy-spider. Hier hebben we weer een toy-modelspider die niets echt scraped, maar je wel de kans geeft om te oefenen met de methode start_requests. Het doel is dat je vertrouwd raakt met de argumenten die je meegeeft aan de aanroep scrapy.Request binnen start_requests.
Zoals eerder hebben we de functie inspect_class gemaakt om te onderzoeken wat je teruggeeft in start_requests.
Deze oefening maakt deel uit van de cursus
Webscraping in Python
Oefeninstructies
- Vul het vereiste
scrapy-object in de klasseYourSpiderin dat nodig is om descrapy-spider te maken. - Vul de lege plek in bij de geretourneerde
scrapy.Request-aanroep binnen de methodestart_requestszodat de URL waarmee deze spider zou beginnen te scrapen"https://www.datacamp.com"is en de methodeparse(binnen de klasseYourSpider) wordt gebruikt om de website te parsen.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import scrapy library
import scrapy
# Create the spider class
class YourSpider( ____ ):
name = "your_spider"
# start_requests method
def start_requests( self ):
yield scrapy.Request( ____ )
# parse method
def parse( self, response ):
pass
# Inspect Your Class
inspect_class( YourSpider )