1. Learn
  2. /
  3. Courses
  4. /
  5. Pythonで学ぶ Spark SQL 入門

Connected

Exercise

コンテキストウィンドウ特徴量データの作成

移動ウィンドウ手法は、コンテキストウィンドウ特徴量データを使う Machine Learning のモデルに有用です。

作業スペースには、id、word、part、title の列をもつ text テーブルがあります。シャーロック・ホームズの書籍の第9〜12章が含まれています。語はすでに前処理され、1行に1語の形式で整理されています。各語には、列 id によって一意の整数インデックスが付与されています。id 列は、本文中で早く現れる語ほど小さく、後に現れる語ほど大きくなります。

第12章のデータセットの最初の10行は、コンソール上で Table1 として表示されています。目的とする結果の最初の10行(第12章のデータに限定)は、コンソール上で Table2 として表示されています。Table2 では、その行の「対象」となる語が列 w3 に示されています。列 w1 と w2 には対象語の直前2語、列 w4 と w5 には対象語の直後2語が入ります。

最初の行で w1 と w2 が null になっている点に注目してください。これは、対象語 w3(この場合は "xii")の前に、第12章(part 12)内に含まれる語が存在しないためです。

動画の内容を思い出す必要があるときは、コンソール右側のスライドを遠慮なく参照してください。

Instructions

100 XP
  • 各行について、その語と直前2語、および直後2語を取得します。