1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶWebスクレイピング

Connected

演習

あらゆる階層のテキスト

この演習は前のものと似ていますが、指定した要素の複数の世代(子孫)からテキストを選択する点が異なります。

特定の段落要素 p のテキストを取得するために、XPath と CSS Locator の文字列を書きます。HTML 内の p 要素は id 属性が "p3" で一意に定義されています。この情報だけで目的の文字列を作成できるはずですが、参考として、このリンクが属する HTML を含む文字列を変数 html にあらかじめ読み込んであります。必要であれば参照してください。

この演習では、対象の要素内のテキスト、つまり将来世代(子孫)に含まれるすべてのテキストを含めて選択します。どの要素に文字列が向いているかを比較できるよう、print_results 関数を用意しています。

指示

100 XP
  • 変数 xpath には、id が p3 の段落要素 p 内のテキスト、すなわちこの p 要素の子孫に含まれるテキストも含めて指し示す XPath 文字列を代入してください。
  • 変数 css_locator には、同じテキストを指し示す CSS Locator 文字列を代入してください。