Diese Übung ist Teil des Kurses
Lerne die Struktur von HTML. Wir beginnen damit, zu erklären, warum Web Scraping eine wertvolle Ergänzung zu deiner Data Science-Toolbox sein kann, und gehen dann auf einige Grundlagen von HTML ein. Am Ende des Kapitels geben wir eine kurze Einführung in die XPath-Notation, die verwendet wird, um die Elemente im HTML Code zu navigieren.
Aktuelle Übung
Nutze die XPath-Syntax, um Scrapy-Selektoren zu erkunden. Mit diesen beiden Konzepten wirst du in der Lage sein, ein HTML-Dokument zu scrapen.
Lerne die CSS Locator-Syntax und spiele mit der Idee, CSS Locators mit XPath zu verketten. Außerdem erfährst du mehr über Response-Objekte, die sich wie Selektoren verhalten, uns aber zusätzliche Tools an die Hand geben, mit denen wir unsere Scraping-Bemühungen über mehrere Websites hinweg mobilisieren können.
Lerne, Webcrawler mit Scrapy zu erstellen. Diese Scrapy-Spider durchforsten das Web über mehrere Seiten hinweg und folgen den Links, um jede dieser Seiten automatisch nach den Verfahren zu scrapen, die wir in den vorherigen Kapiteln gelernt haben.