1. 学ぶ
  2. /
  3. コース
  4. /
  5. Rで学ぶWebスクレイピング

Connected

演習

XPATH の text() で親要素から直接選択する

この演習では、前と同じ表を扱います。今回は、かっこ内の機能情報を独立した列として取り出し、俳優名、役名、機能の3列を持つデータフレームを抽出します(2列ではありません)。

そのために、動画で紹介した特定の XPATH 関数を html_table() の代わりに使います。html_table() は、ここでのように HTML の table 要素の構造が整っていないと、実務ではうまく動かないことが多いからです。

参考として、表の HTML 抜粋を再掲します。

<table>
 <tr>
  <th>Actor</th>
  <th>Role</th>
 </tr>
 <tr>
  <td class = 'actor'>Jayden Carpenter</td>
  <td class = 'role'><em>Mickey Mouse</em> (Voice)</td>
 </tr>
 ...
</table>

この演習では、roles_html 変数に table 要素を含む HTML ドキュメントが入っています。

指示1 / 2

undefined XP
    1
    2
  • まず、XPATH を使って表から actors と roles を抽出します。