1. 学ぶ
  2. /
  3. コース
  4. /
  5. Intermediate Importing Data in Python

Connected

演習

BeautifulSoup で HTML をパースする

このインタラクティブ演習では、BeautifulSoup パッケージを使って HTML から情報を 解析(parse)、整形(prettify)、抽出(extract) する方法を学びます。Python の Benevolent Dictator for Life である Guido van Rossum のウェブページからデータをスクレイピングします。続く演習では、まず HTML を整形し、その後テキストとハイパーリンクを抽出します。

対象の URL は url = 'https://www.python.org/~guido/' です。

指示

100 XP
  • パッケージ bs4 から関数 BeautifulSoup をインポートしてください。
  • 対象の URL を変数 url に代入してください。
  • URL へのリクエストをまとめて送信し、レスポンスを受け取るために、単一の関数 requests.get() を使い、その返り値を変数 r に代入してください。
  • オブジェクト r の text 属性を使って、ウェブページの HTML を文字列として取得し、変数 html_doc に保存してください。
  • 取得した HTML を BeautifulSoup() 関数に渡して、BeautifulSoup オブジェクト soup を作成してください。
  • soup に対してメソッド prettify() を使い、結果を pretty_soup に代入してください。
  • Submit Answer を押して、整形済みの HTML をシェルに出力しましょう。