1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶ Spark SQL 入門

Connected

演習

よく出現する単語列を見つける

これまでに、長さ3の単語列("3-tuple")を見つけるクエリの作り方を確認しました。 そのクエリを従来のSQLクエリのサブクエリとして使い、テキスト文書内で最も頻出する3-tupleを特定しました。 ここでは同様の手順で、最も頻出する5-tupleを見つけます。

DataFrame text_df が用意されています。これはシャーロック・ホームズのテキストの最初の5章を含みます。列は word、id、part、title です。id 列は整数で、文書中で後に現れる単語ほど大きな id を持ちます。part 列は章ごとにデータを分けます。DataFrame text_df は一時テーブル text としても登録されています。目的は、各行が1つの5-tupleに対応し、そのタプルがデータセット内で出現した回数を示す count を持つデータセットを作成することです。

指示

100 XP
  • データセット内で最も頻出する5-tupleを 10 件見つけるクエリ query を作成してください。