1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶWebスクレイピング

Connected

演習

総仕上げクローラー

この演習では、これまでに学んだことを存分に発揮していただきます。ここでは、あるスパイダーの parse 関数を書き、その後いくつかの空欄を埋めてスパイダーを完成させます。DataCamp のコースディレクトリページでは、各コースにタイトルと短いコース説明があります。このスパイダーは、コースディレクトリからコースのタイトルと短いコース説明をスクレイピングするために使います。今回はリンクをたどる必要はありません。必要な情報は次のとおりです。

  • コースタイトルは、クラスに文字列 block__title(アンダースコア 2 本)を含む h4 要素内のテキストで定義されています。
  • 短いコース説明は、クラスに文字列 block__description(アンダースコア 2 本)を含む段落 p 要素内のテキストで定義されています。

指示1 / 2

undefined XP
    1
    2
  • 変数 crs_titles に、DataCamp のコースディレクトリページ上のコースタイトルのリストを抽出して代入します。XPath 内で contains を使い、選択したオブジェクトのテキストを指す XPath 文字列にしてください。
  • 変数 crs_descrs に、短いコース説明のリストを抽出して代入します。XPath 内で contains を使い、選択したオブジェクトのテキストを指す XPath 文字列にしてください。

(抽出したデータのリストが欲しいため、extract_first() ではなく extract() を使います。)