1. 学ぶ
  2. /
  3. コース
  4. /
  5. Rで学ぶWebスクレイピング

Connected

演習

疑似クラスで最後の子要素を選択する

以下のHTMLでは、最後の段落に本文の著者が記載されています。ここでは p ノードが2つのグループに分かれています。

<html>
  <body>
    <div>
      <p class = 'text'>A sophisticated text [...]</p>
      <p class = 'text'>Another paragraph following [...]</p>
      <p class = 'text'>Author: T.G.</p>
    </div>
    <p>Copyright: DC</p>
  </body>
</html>

この演習では、div 内の最後の p ノードを選択するのが目標です。

動画で学んだように、疑似クラスは、IDセレクタや一意のクラスのような他の手段がないときに、ページ上の特定のノードを選ぶのに役立ちます。

上のHTMLドキュメントは、read_html() で読み込まれた nested_html 変数として提供されています。

指示1 / 2

undefined XP
  • 1
    • まずは、最後の子要素を選択する疑似クラスを使って、各グループの最後の p をスクレイプしましょう。
  • 2
    • 先ほどは両方のグループの最後の p が選択されたので、text クラスを使って、著者情報だけを取得しましょう。