Lerne die Struktur von HTML. Wir beginnen damit, zu erklären, warum Web Scraping eine wertvolle Ergänzung zu deiner Data Science-Toolbox sein kann, und gehen dann auf einige Grundlagen von HTML ein. Am Ende des Kapitels geben wir eine kurze Einführung in die XPath-Notation, die verwendet wird, um die Elemente im HTML Code zu navigieren.

Übersicht: Web Scraping

Web Scraping ist kein Blödsinn!

Hypertext Markup Language

Navigation durch den HTML-Baum

Vom Baum zu HTML

Attribute

Eine klasse Aufgabe

Finde href

XPath-Crashkurs

Wo bin ich?

P ist an der Reihe

Eine span-nende Klasse

Einführung in HTML

Nutze die XPath-Syntax, um Scrapy-Selektoren zu erkunden. Mit diesen beiden Konzepten wirst du in der Lage sein, ein HTML-Dokument zu scrapen.

XPathologie

Elemente in der Wildnis zählen

Körperanhänge

Wähle DataCamp!

Abseits der ausgetretenen XPaths

Die Suche nach dem @

Überprüfe deine Klasse

Hyper(link)aktiv

Geheime Links

Selektor-Objekte

XPath-Verkettung

Noch mehr div-Elemente

Die Quelle der Quelle

Inspektion der Klasse

Anfrage an einen Selektor

XPaths und Selektoren

Lerne die CSS Locator-Syntax und spiele mit der Idee, CSS Locators mit XPath zu verketten. Außerdem erfährst du mehr über Response-Objekte, die sich wie Selektoren verhalten, uns aber zusätzliche Tools an die Hand geben, mit denen wir unsere Scraping-Bemühungen über mehrere Websites hinweg mobilisieren können. 

Von XPath bis CSS

Der (X)Path zu CSS Locators

Willkommen im „A“-Team

Der CSS-Platzhalter

CSS-Attribute und Textauswahl

`href` ist hier

Top-Level-Text

Text auf allen Levels

Bitte antworten!

Antworten decken auf

Antworten mit Selektoren

Auswählen aus einer Auswahl

Umfrage

Kurstitel scrapen

Scrapen mit Kindern

CSS Locators, Chaining und Responses

Lerne, Webcrawler mit Scrapy zu erstellen. Diese Scrapy-Spider durchforsten das Web über mehrere Seiten hinweg und folgen den Links, um jede dieser Seiten automatisch nach den Verfahren zu scrapen, die wir in den vorherigen Kapiteln gelernt haben.

Dein erster Spider

Das Erbe des Spiders

Wir werfen mit URLs um uns

Startanfragen

Selbstreferenzierung ist klasse

Mit Startanfragen starten

Parsen und Crawlen

Pen-Namen

Crawler-Zeit

Capstone

Zeit zu laufen

DataCamp-Beschreibungen

Capstone-Crawler

Das Finale

Spider

DataCamp webpage HTML

Die Fähigkeit, Tools zu entwickeln, die in der Lage sind, im Internet gespeicherte Informationen abzurufen und zu analysieren, war und ist in vielen Data Science-Bereichen wertvoll. In diesem Kurs lernst du, wie man HTML-Code durchsucht und analysiert und Tools zum automatischen Crawlen von Websites entwickelt. Obwohl wir unser Scraping mit der vielseitigen Python-Bibliothek Scrapy durchführen, können viele der Techniken, die du in diesem Kurs lernst, auch auf andere beliebte Python-Bibliotheken wie Beautiful Soup und Selenium angewendet werden. Nach Abschluss dieses Kurses verfügst du über ein solides Verständnis der HTML-Struktur, kannst Tools zum Parsen von HTML-Code und zum Abrufen der gewünschten Informationen erstellen und einen einfachen Scrapy-Spider zum Crawlen des Webs in großem Maßstab entwickeln.

Intermediate Python

Lerne, Informationen aus dem Internet mit der Python-Bibliothek Scrapy abzurufen und zu analysieren.

Web Scraping in Python

Lerne, wie du mit der Python-Bibliothek Scrapy Informationen aus dem Internet abrufst und auswertest.

XPath-Crashkurs

Create Your Free Account