1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Web Scraping v R

Connected

cvičení

Výběr podle třídy a ID pomocí XPATH

Tady je HTML kód podobný tomu, se kterým ses setkal/a v předchozí kapitole (už načtený do HTML dokumentu weather_html):

<html>
  <body>
    <div id = 'first'>
      <h1 class = 'big'>Berlin Weather Station</h1>
      <p class = 'first'>Temperature: 20°C</p>
      <p class = 'second'>Humidity: 45%</p>
    </div>
    <div id = 'second'>...</div>
    <div id = 'third'>
      <p class = 'first'>Sunshine: 5hrs</p>
      <p class = 'second'>Precipitation: 0mm</p>
    </div>
  </body>
</html>

V této kapitole kód vypadá trochu víc jako v reálném světě. Tvým cílem je z tohoto meteorologického záznamu vytáhnout hodnotu srážek. Bohužel na ni nelze přímo odkazovat přes ID.

Postupujeme krok za krokem – nejprve si připravíme jednotlivé stavební bloky a pak je spojíme dohromady!

Instrukce 1/4

undefined XP
  • 1
    • Pro zahřátí začni výběrem všech tagů p ve výše uvedeném HTML pomocí XPATH.
  • 2
    • Teď vyber pouze elementy p s třídou second.
  • 3
    • Teď vyber všechny elementy p, které jsou přímými potomky elementu s ID third.
  • 4
    • Teď vyber pouze element p s třídou second, který je přímým potomkem #third, opět pomocí XPATH.