1. 学ぶ
  2. /
  3. コース
  4. /
  5. Python で学ぶマーケットバスケット分析

Connected

演習

取引データのワンホットエンコード

このコース全体を通して、マーケットバスケット分析に使う前処理の共通パイプラインを用います。最初のステップは、pandas の DataFrame を読み込み、取引(トランザクション)が入っている列を選ぶことです。その列の各取引は、カンマ区切りの複数アイテムを含む文字列です。次に、lambda 関数で各取引文字列を分割してリストにし、列全体を「リストのリスト」に変換します。

この演習では、食料品データセットから作成済みの「リストのリスト」transactions が用意されています。transactions をワンホットエンコードした DataFrame に変換し、各列を TRUE/FALSE で表して、取引にそのアイテムが含まれているかどうかを示します。

指示

100 XP
  • mlxtend.preprocessing から TransactionEncoder をインポートします。
  • トランザクションエンコーダをインスタンス化し、transactions に含まれる一意のアイテムを特定します。
  • transactions をワンホットエンコードして配列にし、その値を onehot に代入します。
  • その配列を、アイテム名を列名として用いて pandas の DataFrame に変換します。