1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySparkで学ぶBig Data入門

Connected

演習

フィルターとカウント

RDD 変換の filter() は、指定した関数を満たす要素だけを含む新しい RDD を返します。これはキーワードに基づいて大規模データセットを抽出するのに便利です。この演習では、README.md ファイルのテキスト行から成る fileRDD RDD から、キーワード Spark を含む行だけを抽出します。次に、Spark を含む行の合計件数を数え、最後にフィルタ後の RDD の先頭 4 行を表示します。

ワークスペースには、すでに SparkContext sc、file_path、fileRDD が用意されています。

指示

100 XP
  • キーワード Spark を含む行を選択するように、filter() 変換を作成してください。
  • fileRDD_filter には Spark を含む行が何行ありますか?
  • 結果の RDD の先頭 4 行を表示してください。