5000点データの読み込みとパース

クラスタリングは、類似度の高いオブジェクト同士をグループ化する、教師なし学習のタスクです。ラベル付きデータを扱う教師あり学習と異なり、クラスタリングはラベルのないデータの構造を理解するのに役立ちます。PySpark MLlib には、クラスタリングでよく使われる K-means アルゴリズムが含まれています。この3部構成の演習では、5000行・2列のデータセットにいくつのクラスタがあるかを見つけます。まずデータを RDD に読み込み、区切り文字に基づいて RDD をパースし、KMeans モデルを実行して評価し、最後にクラスタを可視化します。

第1部では、データを RDD に読み込み、区切り文字に基づいて RDD をパースし、文字列型のデータを整数に変換します。

作業スペースには SparkContext sc が用意されています。また、5000_points.txt へのパスである file_path 変数もすでに利用可能です。