Aan de slagGa gratis aan de slag

Gooi de URLs erin

In de volgende les bespreken we de methode start_requests binnen de spiderklasse. In deze korte oefening vragen we je een variabele in de methode start_requests aan te passen, als voorproefje op wat we straks gaan leren. Het idee is dat je alvast gewend raakt aan het draaien aan enkele knoppen binnen een spiderklasse; in dit geval het maken van een lijst met urls in de methode start_requests.

We hebben een functie inspect_class geschreven die de lijst met elementen afdrukt die je in de variabele urls in de methode start_requests hebt staan.

Let op: in de komende paar oefeningen schrijf je code om je spiderklasse te voltooien, maar de code bevat nog niet de onderdelen om de spider daadwerkelijk te runnen; dat komt aan het einde.

Deze oefening maakt deel uit van de cursus

Webscraping in Python

Cursus bekijken

Oefeninstructies

  • Vul de lege plek in de methode start_requests in zodat de variabele urls wordt toegewezen aan een lijst met de twee strings: "https://www.datacamp.com" en "https://scrapy.org".

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Import scrapy library
import scrapy

# Create the spider class
class YourSpider( scrapy.Spider ):
  name = "your_spider"
  # start_requests method
  def start_requests( self ):
    urls = ____
    for url in urls:
      yield url
  # parse method
  def parse( self, response ):
    pass
  
# Inspect Your Class
inspect_class( YourSpider )
Code bewerken en uitvoeren