1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Web Scraping v R

Connected

cvičení

Převod tabulky na datový rámec pomocí html_table()

Pokud má tabulka řádek záhlaví (s elementy th) a neobsahuje mezery, její scrapování je přímočaré – jako v případě následující tabulky (s ID "clean"):

Mountain Height First ascent Country
Mount Everest 8848 1953 Nepal, China
...

Tady je stejná tabulka (s ID "dirty"), která nemá vyhrazený řádek záhlaví a v prvním řádku chybí jedna buňka:

Mountain Height First ascent Country
Mount Everest 8848 1953
...

Pro takové případy má funkce html_table() navíc argument, který umožní tabulku správně zpracovat – jak bylo ukázáno ve videu. Chybějící buňky se automaticky rozpoznají a nahradí hodnotami NA.

Obě tabulky jsou obsaženy v dokumentu mountains_html.

Instrukce 1/2

undefined XP
  • 1

    Převeď table s ID "clean" na datový rámec s názvem mountains.

  • 2
    • Udělej totéž s table s názvem "dirty", ale určete první řádek jako záhlaví.