Gooi de URLs erin
In de volgende les bespreken we de methode start_requests binnen de spiderklasse. In deze korte oefening vragen we je een variabele in de methode start_requests aan te passen, als voorproefje op wat we straks gaan leren. Het idee is dat je alvast gewend raakt aan het draaien aan enkele knoppen binnen een spiderklasse; in dit geval het maken van een lijst met urls in de methode start_requests.
We hebben een functie inspect_class geschreven die de lijst met elementen afdrukt die je in de variabele urls in de methode start_requests hebt staan.
Let op: in de komende paar oefeningen schrijf je code om je spiderklasse te voltooien, maar de code bevat nog niet de onderdelen om de spider daadwerkelijk te runnen; dat komt aan het einde.
Deze oefening maakt deel uit van de cursus
Webscraping in Python
Oefeninstructies
- Vul de lege plek in de methode
start_requestsin zodat de variabeleurlswordt toegewezen aan een lijst met de twee strings:"https://www.datacamp.com"en"https://scrapy.org".
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import scrapy library
import scrapy
# Create the spider class
class YourSpider( scrapy.Spider ):
name = "your_spider"
# start_requests method
def start_requests( self ):
urls = ____
for url in urls:
yield url
# parse method
def parse( self, response ):
pass
# Inspect Your Class
inspect_class( YourSpider )