K-means の学習

RDD の学習準備ができたので、この第2部では計算時間を節約するために k を 13 から 16 まで試し、elbow 法で適切な k を選びます。elbow 法の考え方は、異なる k の値で K-means クラスタリングを実行し、Within Set Sum of Squared Error（WSSSE）を計算して、WSSSE が急に減少する、つまり「肘」が現れる地点に基づいて最適な k を選ぶことです。次に、その最適な k でモデルを再学習し、最後にセントロイド（クラスタ中心）を取得します。

作業スペースには、SparkContext sc と rdd_split_int RDD がすでに用意されています。