Impara la struttura di HTML. Iniziamo spiegando perché il web scraping può essere un’aggiunta preziosa alla tua cassetta degli attrezzi per la data science e poi approfondiamo alcune basi di HTML. Concludiamo il capitolo con una breve introduzione alla notazione XPath, usata per navigare tra gli elementi all’interno del codice HTML.

Panoramica sul web scraping

Il web scraping non è una sciocchezza!

HyperText Markup Language

Navigazione verbosa nell'albero HTML

Dall'albero all'HTML

Attributi

Questione di classe

Trovare href

Mini corso su XPath

Dove sono?

È il momento di P

Uno span con classe

Introduzione a HTML

Sfrutta la sintassi XPath per esplorare i selettori di scrapy. Entrambi questi concetti ti porteranno verso la capacità di estrarre dati da un documento HTML.

XPathologia

Contare gli elementi allo stato brado

Appendici del body

Scegli DataCamp!

Fuori dal solito XPath

Dove c'è la @

Controlla la tua classe

Hyper(link) attivo

Link segreti

Oggetti Selector

Concatenazione di XPath

Scomponi questo esercizio

La fonte della fonte

Classe del corso per ispezione

Richiedere un Selector

XPath e Selettori

Impara la sintassi dei Locator CSS e inizia a sperimentare l’idea di concatenare Locator CSS con XPath. Introduciamo anche gli oggetti Response, che si comportano come i Selector ma offrono strumenti extra per ampliare le attività di scraping su più siti web.

Da XPath a CSS

Dal (X)Path ai CSS Locator

Ottieni una "a" in questo corso

Il carattere jolly in CSS

Attributi CSS e selezione del testo

Sei stato `href`-izzato

Testo di livello superiore

Testo a tutti i livelli

Rispondi, per favore!

Svela con Response

Rispondere con i Selector

Selezionare da una selezione

Sondaggio

Titolarità

Scraping con i figli

Locator CSS, concatenazione e Responses

Impara a creare crawler web con scrapy. Questi spider di scrapy esploreranno il web attraverso più pagine, seguendo i link per estrarre automaticamente ciascuna di esse secondo le procedure che abbiamo visto nei capitoli precedenti.

Il tuo primo spider

Ereditare lo Spider

Lancia gli URL

Avvia le richieste

L’auto-referenza è classe

Partire con Start Requests

Analizza e esplora

Pseudonimi

È ora di fare crawling

Progetto finale

È il momento di eseguire

Descrizioni di DataCamp

Crawler finale

Il gran finale

Spider

DataCamp webpage HTML

La capacità di creare strumenti in grado di recuperare e analizzare informazioni distribuite sul web è stata e continua a essere preziosa in molti ambiti della data science. In questo corso imparerai a navigare e interpretare il codice HTML e a creare strumenti per esplorare automaticamente i siti web. Anche se lo scraping verrà effettuato con la versatile libreria Python scrapy, molte delle tecniche che imparerai possono essere applicate anche ad altre librerie Python popolari, come BeautifulSoup e Selenium. Al termine del corso avrai un solido modello mentale della struttura HTML, saprai creare strumenti per analizzare il codice HTML e accedere alle informazioni desiderate, e potrai creare semplici spider di scrapy per esplorare il web su larga scala.

Intermediate Python

Impara a recuperare e analizzare dati dal web usando la libreria Python scrapy.

Web Scraping in Python

Impara a recuperare e analizzare le informazioni da Internet usando la libreria Python scrapy.

Attributi

Create Your Free Account