1. Nauka
  2. /
  3. Kursy
  4. /
  5. Web Scraping w R

Connected

ćwiczenie

Zamień tabelę na ramkę danych za pomocą html_table()

Jeśli tabela ma wiersz nagłówkowy (z elementami th) i nie zawiera luk, jej scrapowanie jest proste – tak jak w przypadku poniższej tabeli (o ID "clean"):

Mountain Height First ascent Country
Mount Everest 8848 1953 Nepal, China
...

Oto ta sama tabela (o ID "dirty"), tym razem bez wyznaczonego wiersza nagłówkowego i z brakującą komórką w pierwszym wierszu:

Mountain Height First ascent Country
Mount Everest 8848 1953
...

W takich przypadkach html_table() oferuje dodatkowy argument, który umożliwia poprawne parsowanie tabeli – dokładnie tak, jak pokazano w materiale wideo. Brakujące komórki są automatycznie rozpoznawane i zastępowane wartościami NA.

Obie tabele znajdują się w dokumencie mountains_html.

Instrukcje 1/2

undefined XP
  • 1

    Zamień table o ID "clean" na ramkę danych o nazwie mountains.

  • 2
    • Zrób to samo z tabelą "dirty", ale wyznacz pierwszy wiersz jako nagłówek.