コンテンツ抽出器

前の演習では、与えられた URLs ベクトルのすべての要素が 200 のステータスコードを返すことを確認しました。アクセス可能だと分かったので、ここからは Web スクレイピングを一歩進めて、実際にコンテンツを抽出していきます。

これには rvest パッケージの関数を使い、partial() で引数をあらかじめ設定します。この演習で作成する関数は、ページから H2 の HTML ノードをすべて抽出します。ウェブページでは、H2 ノードはレベル 2 の見出しに相当します。タイトルを抽出したら、html_text() 関数で生の HTML からテキストだけを取り出します。

purrr と rvest は読み込まれており、urls ベクトルはワークスペースで利用可能です。