コンテキストウィンドウ特徴量データの作成

移動ウィンドウ手法は、コンテキストウィンドウ特徴量データを使う Machine Learning のモデルに有用です。

作業スペースには、id、word、part、title の列をもつ text テーブルがあります。シャーロック・ホームズの書籍の第9〜12章が含まれています。語はすでに前処理され、1行に1語の形式で整理されています。各語には、列 id によって一意の整数インデックスが付与されています。id 列は、本文中で早く現れる語ほど小さく、後に現れる語ほど大きくなります。

第12章のデータセットの最初の10行は、コンソール上で Table1 として表示されています。目的とする結果の最初の10行（第12章のデータに限定）は、コンソール上で Table2 として表示されています。Table2 では、その行の「対象」となる語が列 w3 に示されています。列 w1 と w2 には対象語の直前2語、列 w4 と w5 には対象語の直後2語が入ります。

最初の行で w1 と w2 が null になっている点に注目してください。これは、対象語 w3（この場合は "xii"）の前に、第12章（part 12）内に含まれる語が存在しないためです。

動画の内容を思い出す必要があるときは、コンソール右側のスライドを遠慮なく参照してください。

各行について、その語と直前2語、および直後2語を取得します。

演習

コンテキストウィンドウ特徴量データの作成

指示

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}演習

指示

演習