or
Cet exercice fait partie du cours
Apprenez la structure de HTML. Nous commencerons par expliquer pourquoi le web scraping peut être un complément précieux à votre boîte à outils de science des données, puis nous nous pencherons sur les bases de HTML. Nous terminons ce chapitre par une brève introduction à la notation XPath, qui est utilisée pour naviguer dans les éléments du code HTML.
Exploitez la syntaxe de XPath pour explorer les sélecteurs de scrapy. Ces deux concepts vous permettront d'être en mesure de récupérer un document HTML.
Apprenez la syntaxe du localisateur CSS et commencez à jouer avec l'idée d'enchaîner des localisateurs CSS avec XPath. Nous présentons également les objets Response, qui se comportent comme des sélecteurs mais nous donnent des outils supplémentaires pour mobiliser nos efforts de scraping sur plusieurs sites web.
Exercice en cours
Apprenez à créer des robots d'indexation avec scrapy. Ces spiders scrapy parcourront le web à travers de multiples pages, en suivant les liens pour scraper chacune de ces pages automatiquement selon les procédures que nous avons apprises dans les chapitres précédents.