Aan de slagGa gratis aan de slag

Beginnen met Start Requests

In de vorige les hebben we geleerd hoe je de methode start_requests instelt binnen een scrapy-spider. Hier hebben we weer een toy-modelspider die niets echt scraped, maar je wel de kans geeft om te oefenen met de methode start_requests. Het doel is dat je vertrouwd raakt met de argumenten die je meegeeft aan de aanroep scrapy.Request binnen start_requests.

Zoals eerder hebben we de functie inspect_class gemaakt om te onderzoeken wat je teruggeeft in start_requests.

Deze oefening maakt deel uit van de cursus

Webscraping in Python

Cursus bekijken

Oefeninstructies

  • Vul het vereiste scrapy-object in de klasse YourSpider in dat nodig is om de scrapy-spider te maken.
  • Vul de lege plek in bij de geretourneerde scrapy.Request-aanroep binnen de methode start_requests zodat de URL waarmee deze spider zou beginnen te scrapen "https://www.datacamp.com" is en de methode parse (binnen de klasse YourSpider) wordt gebruikt om de website te parsen.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Import scrapy library
import scrapy

# Create the spider class
class YourSpider( ____ ):
  name = "your_spider"
  # start_requests method
  def start_requests( self ):
    yield scrapy.Request( ____ )
  # parse method
  def parse( self, response ):
    pass
  
# Inspect Your Class
inspect_class( YourSpider )
Code bewerken en uitvoeren