Hyper(link)aktiv

Eines der wichtigsten Attribute, die für das „Web Crawling“ extrahiert werden müssen, ist die Hyperlink-URL (das href-Attribut) innerhalb eines a-Tags. Hier wirst du einen solchen Hyperlink extrahieren! Wir haben die Funktion print_attribute erstellt, um die aus deinem XPath extrahierten Daten auszudrucken, damit du deine XPath-Strings in der Konsole testen kannst, wenn du möchtest.

Die Aufgabe bezieht sich auf den folgenden HTML-Quellcode:

<html>

  <body>

    <div id="div1" class="class-1">

      <p class="class-1 class-2">Hello World!</p>

      <div id="div2">

        <p id="p2" class="class-2">Choose 

            <a href="http://datacamp.com">DataCamp!</a>!

        </p>

      </div>

    </div>

    <div id="div3" class="class-2">

      <p class="class-2">Thanks for Watching!</p>

    </div>

  </body>

</html>

Diese Übung ist Teil des Kurses

<Kurs>Web Scraping in Python</Kurs>

Übungsanweisungen

Fülle die Lücken aus, um die Variable xpath unten zu vervollständigen und den Wert des Attributs href aus dem DataCamp-Hyperlink auszuwählen.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Create an xpath to the href attribute
xpath = '//p[@id=____]/a/____'

# Print out the selection(s); there should be only one
print_attribute( xpath )

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

<Kurs>Web Scraping in Python</Kurs>

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

Lerne die Struktur von HTML. Wir beginnen damit, zu erklären, warum Web Scraping eine wertvolle Ergänzung zu deiner Data Science-Toolbox sein kann, und gehen dann auf einige Grundlagen von HTML ein. Am Ende des Kapitels geben wir eine kurze Einführung in die XPath-Notation, die verwendet wird, um die Elemente im HTML Code zu navigieren.

Exercise 1: Übersicht: Web Scraping Exercise 2: Web Scraping ist kein Blödsinn!Exercise 3: Hypertext Markup Language Exercise 4: Navigation durch den HTML-Baum Exercise 5: Vom Baum zu HTML Exercise 6: Attribute Exercise 7: Eine klasse Aufgabe Exercise 8: Finde href Exercise 9: XPath-Crashkurs Exercise 10: Wo bin ich?Exercise 11: P ist an der Reihe Exercise 12: Eine span-nende Klasse

Nutze die XPath-Syntax, um Scrapy-Selektoren zu erkunden. Mit diesen beiden Konzepten wirst du in der Lage sein, ein HTML-Dokument zu scrapen.

Exercise 1: XPathologie Exercise 2: Elemente in der Wildnis zählen Exercise 3: Körperanhänge Exercise 4: Wähle DataCamp!Exercise 5: Abseits der ausgetretenen XPaths Exercise 6: Die Suche nach dem @Exercise 7: Überprüfe deine Klasse Exercise 8: Hyper(link)aktiv

Aktuelle Übung

Exercise 9: Geheime Links Exercise 10: Selektor-Objekte Exercise 11: XPath-Verkettung Exercise 12: Noch mehr div-Elemente Exercise 13: Die Quelle der Quelle Exercise 14: Inspektion der Klasse Exercise 15: Anfrage an einen Selektor

Lerne die CSS Locator-Syntax und spiele mit der Idee, CSS Locators mit XPath zu verketten. Außerdem erfährst du mehr über Response-Objekte, die sich wie Selektoren verhalten, uns aber zusätzliche Tools an die Hand geben, mit denen wir unsere Scraping-Bemühungen über mehrere Websites hinweg mobilisieren können.

Exercise 1: Von XPath bis CSS Exercise 2: Der (X)Path zu CSS Locators Exercise 3: Willkommen im „A“-Team Exercise 4: Der CSS-Platzhalter Exercise 5: CSS-Attribute und Textauswahl Exercise 6: `href` ist hier Exercise 7: Top-Level-Text Exercise 8: Text auf allen Levels Exercise 9: Bitte antworten!Exercise 10: Antworten decken auf Exercise 11: Antworten mit Selektoren Exercise 12: Auswählen aus einer Auswahl Exercise 13: Umfrage Exercise 14: Kurstitel scrapen Exercise 15: Scrapen mit Kindern

Lerne, Webcrawler mit Scrapy zu erstellen. Diese Scrapy-Spider durchforsten das Web über mehrere Seiten hinweg und folgen den Links, um jede dieser Seiten automatisch nach den Verfahren zu scrapen, die wir in den vorherigen Kapiteln gelernt haben.

Exercise 1: Dein erster Spider Exercise 2: Das Erbe des Spiders Exercise 3: Wir werfen mit URLs um uns Exercise 4: Startanfragen Exercise 5: Selbstreferenzierung ist klasse Exercise 6: Mit Startanfragen starten Exercise 7: Parsen und Crawlen Exercise 8: Pen-Namen Exercise 9: Crawler-Zeit Exercise 10: Capstone Exercise 11: Zeit zu laufen Exercise 12: DataCamp-Beschreibungen Exercise 13: Capstone-Crawler Exercise 14: Das Finale