1. 学ぶ
  2. /
  3. コース
  4. /
  5. purrr で学ぶ中級関数型プログラミング

Connected

演習

コンテンツ抽出器

前の演習では、与えられた URLs ベクトルのすべての要素が 200 のステータスコードを返すことを確認しました。アクセス可能だと分かったので、ここからは Web スクレイピングを一歩進めて、実際にコンテンツを抽出していきます。

これには rvest パッケージの関数を使い、partial() で引数をあらかじめ設定します。この演習で作成する関数は、ページから H2 の HTML ノードをすべて抽出します。ウェブページでは、H2 ノードはレベル 2 の見出しに相当します。タイトルを抽出したら、html_text() 関数で生の HTML からテキストだけを取り出します。

purrr と rvest は読み込まれており、urls ベクトルはワークスペースで利用可能です。

指示

100 XP
  • まず、html_nodes() に css = "h2" をあらかじめ設定します。

  • この新しく作った関数を、read_html と html_text の間に組み合わせて、H2 見出し用のテキスト抽出器を作成します。

  • この関数を urls ベクトルに対して実行し、結果に名前を付けます。

  • 仕上がりを確認するために結果を表示します。