1. 学ぶ
  2. /
  3. コース
  4. /
  5. Rで学ぶWebスクレイピング

Connected

演習

ID の一意性を活用する

ご存じのとおり、ID はウェブページ内で一意であるべきです。これが確実であれば、スクレイピングに使うセレクタの複雑さを大きく減らせます。

次は、実際に遭遇しそうな HTML ページの構造です。

<html>
  <body>
    <div id = 'first'>
      <h1 class = 'big'>Joe Biden</h1>
      <p class = 'first blue'>Democrat</p>
      <p class = 'second blue'>Male</p>
    </div>
    <div id = 'second'>...</div>
    <div id = 'third'>
      <h1 class = 'big'>Donald Trump</h1>
      <p class = 'first red'>Republican</p>
      <p class = 'second red'>Male</p>
    </div>
  </body>
</html>

この HTML は read_html() で読み込み済みで、structured_html として利用できます。

指示

100 XP
  • html_elements() を使って、structured_html の最初の div を選択するための、できるだけ短いセレクタを見つけてください。