1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Web Scraping v R

Connected

cvičení

Omezení funkce html_table() při špatně strukturovaných tabulkách

Někdy chceš vybrat pouze text, který je přímým potomkem nadřazeného elementu. V následující ukázkové tabulce je však název role zabalený do tagu em. Její typ, například „Voice", je přitom obsažen ve stejném elementu td jako část s em, což dotazování na tato data příliš neusnadňuje.

Ukázka HTML kódu:

<table>
 <tr>
  <th>Actor</th>
  <th>Role</th>
 </tr>
 <tr>
  <td class = "actor">Jayden Carpenter</td>
  <td class = "role"><em>Mickey Mouse</em> (Voice)</td>
 </tr>
 ...
</table>

V tomto cvičení zkusíš tabulku scrapovat pomocí funkce z balíčku rvest, kterou už znáš. Přesvědčíš se tak na vlastní oči, jaká jsou její omezení.

Proměnná roles_html obsahuje dokument s touto tabulkou.

Pokyny

100 XP
  • Zkus z tabulky extrahovat datový rámec pomocí funkce, kterou ses naučil/a v první kapitole.
  • Prohlédni si výsledný datový rámec.