よく出現する単語列を見つける

これまでに、長さ3の単語列（"3-tuple"）を見つけるクエリの作り方を確認しました。そのクエリを従来のSQLクエリのサブクエリとして使い、テキスト文書内で最も頻出する3-tupleを特定しました。ここでは同様の手順で、最も頻出する5-tupleを見つけます。

DataFrame text_df が用意されています。これはシャーロック・ホームズのテキストの最初の5章を含みます。列は word、id、part、title です。id 列は整数で、文書中で後に現れる単語ほど大きな id を持ちます。part 列は章ごとにデータを分けます。DataFrame text_df は一時テーブル text としても登録されています。目的は、各行が1つの5-tupleに対応し、そのタプルがデータセット内で出現した回数を示す count を持つデータセットを作成することです。