1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySparkで学ぶBig Data入門

Connected

演習

5000点データの読み込みとパース

クラスタリングは、類似度の高いオブジェクト同士をグループ化する、教師なし学習のタスクです。ラベル付きデータを扱う教師あり学習と異なり、クラスタリングはラベルのないデータの構造を理解するのに役立ちます。PySpark MLlib には、クラスタリングでよく使われる K-means アルゴリズムが含まれています。この3部構成の演習では、5000行・2列のデータセットにいくつのクラスタがあるかを見つけます。まずデータを RDD に読み込み、区切り文字に基づいて RDD をパースし、KMeans モデルを実行して評価し、最後にクラスタを可視化します。

第1部では、データを RDD に読み込み、区切り文字に基づいて RDD をパースし、文字列型のデータを整数に変換します。

作業スペースには SparkContext sc が用意されています。また、5000_points.txt へのパスである file_path 変数もすでに利用可能です。

指示

100 XP
  • 5000_points データセットを clusterRDD という名前の RDD に読み込みます。
  • 行をタブ("\t")で分割して clusterRDD を変換します。
  • 分割後の RDD を変換して、2列の整数リストを作成します。
  • データセットに 5000 行あることを確認します。