Apprenez la structure de HTML. Nous commencerons par expliquer pourquoi le web scraping peut être un complément précieux à votre boîte à outils de science des données, puis nous nous pencherons sur les bases de HTML. Nous terminons ce chapitre par une brève introduction à la notation XPath, qui est utilisée pour naviguer dans les éléments du code HTML.

Vue d'ensemble du Web Scraping

Le web-scraping n'est pas un non-sens !

Langage de balisage hypertexte

HTML Arbre de navigation verbeux

De l'arbre à la HTML

Attributs

Gardez la classe

Trouver le reflet

Cours accéléré sur XPath

Où suis-je ?

Il est temps d'agir

Une portée de classe

Débuter en HTML

Exploitez la syntaxe de XPath pour explorer les sélecteurs de scrapy. Ces deux concepts vous permettront d'être en mesure de récupérer un document HTML.

XPathologie

Compter les éléments dans la nature

Appendices du corps

Choisissez DataCamp !

Hors des sentiers battus XPath

Where it's @

Vérifiez votre classe

Hyper(lien) Actif

Liens secrets

Sélecteur d'objets

XPChaînage de l'athlète

Répartissez cet exercice

La source de la source

Classe de cours par inspection

Demande de sélecteur

XPaths et sélecteurs

Apprenez la syntaxe du localisateur CSS et commencez à jouer avec l'idée d'enchaîner des localisateurs CSS avec XPath. Nous présentons également les objets Response, qui se comportent comme des sélecteurs mais nous donnent des outils supplémentaires pour mobiliser nos efforts de scraping sur plusieurs sites web. 

De XPath à CSS

Le (X)chemin vers les localisateurs CSS

Obtenez un "a" dans ce cours

Le joker CSS

CSS Attributs et sélection de texte

Vous avez été `href`ed

Texte de niveau supérieur

Texte de tous les niveaux

Répondez s'il vous plaît !

Révéler par la réponse

Répondre avec des sélecteurs

Sélectionner à partir d'une sélection

Enquête

Titular

Grattage avec les enfants

CSS Localisateurs, chaînage et réponses

Apprenez à créer des robots d'indexation avec scrapy. Ces spiders scrapy parcourront le web à travers de multiples pages, en suivant les liens pour scraper chacune de ces pages automatiquement selon les procédures que nous avons apprises dans les chapitres précédents.

Votre première araignée

Hériter de l'araignée

Lancez les URLs

Demandes de démarrage

L'autoréférence, c'est la classe

Commencer par les demandes de démarrage

Analyse et exploration

Noms de plume

Temps d'utilisation du crawler

Capstone

Le temps de courir

Descriptions des DataCamp

Capstone Crawler

La finale

Araignées

DataCamp webpage HTML

La capacité à construire des outils capables de récupérer et d'analyser des informations stockées sur l'internet a été et continue d'être précieuse dans de nombreux domaines de la science des données. Dans ce cours, vous apprendrez à naviguer et à analyser le code html, et à construire des outils pour explorer automatiquement les sites web. Bien que notre scraping soit réalisé à l'aide de la bibliothèque polyvalente Python scrapy, de nombreuses techniques que vous apprenez dans ce cours peuvent également être appliquées à d'autres bibliothèques Python populaires, notamment BeautifulSoup et Selenium. A l'issue de ce cours, vous disposerez d'un modèle mental solide de la structure html, vous serez capable de construire des outils pour analyser le code html et accéder aux informations souhaitées, et de créer un spider scrapy simple pour explorer le web à grande échelle.

Intermediate Python

Apprenez à extraire et analyser des informations d'internet avec la bibliothèque Python Scrapy.

Web Scraping en Python

Apprenez à récupérer et à analyser des informations provenant d'internet à l'aide de la bibliothèque Python scrapy.

Enquête

Create Your Free Account