フィルターとカウント

RDD 変換の filter() は、指定した関数を満たす要素だけを含む新しい RDD を返します。これはキーワードに基づいて大規模データセットを抽出するのに便利です。この演習では、README.md ファイルのテキスト行から成る fileRDD RDD から、キーワード Spark を含む行だけを抽出します。次に、Spark を含む行の合計件数を数え、最後にフィルタ後の RDD の先頭 4 行を表示します。

ワークスペースには、すでに SparkContext sc、file_path、fileRDD が用意されています。