IniziaInizia gratis

Sfrutta l'unicità degli ID

Come sai, gli ID dovrebbero essere unici all'interno di una pagina web. Se puoi assicurarti che sia così, la complessità dei selettori di scraping si riduce drasticamente.

Ecco la struttura di una pagina HTML che potresti incontrare nel mondo reale:

<html>
  <body>
    <div id = 'first'>
      <h1 class = 'big'>Joe Biden</h1>
      <p class = 'first blue'>Democrat</p>
      <p class = 'second blue'>Male</p>
    </div>
    <div id = 'second'>...</div>
    <div id = 'third'>
      <h1 class = 'big'>Donald Trump</h1>
      <p class = 'first red'>Republican</p>
      <p class = 'second red'>Male</p>
    </div>
  </body>
</html>

È già stata letta per te con read_html() ed è disponibile come structured_html.

Questo esercizio fa parte del corso

Web scraping in R

Visualizza il corso

Istruzioni dell'esercizio

  • Usando html_elements(), trova il selettore più corto possibile per selezionare il primo div in structured_html.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Select the first div
structured_html %>%
  ___
Modifica ed esegui il codice