1. Learn
  2. /
  3. คอร์ส
  4. /
  5. PySparkで学ぶBig Data入門

Connected

แบบฝึกหัด

K-means の学習

RDD の学習準備ができたので、この第2部では計算時間を節約するために k を 13 から 16 まで試し、elbow 法で適切な k を選びます。elbow 法の考え方は、異なる k の値で K-means クラスタリングを実行し、Within Set Sum of Squared Error(WSSSE)を計算して、WSSSE が急に減少する、つまり「肘」が現れる地点に基づいて最適な k を選ぶことです。次に、その最適な k でモデルを再学習し、最後にセントロイド(クラスタ中心)を取得します。

作業スペースには、SparkContext sc と rdd_split_int RDD がすでに用意されています。

คำแนะนำ

100 XP
  • k を 13 から 16 として KMeans モデルを学習し、各クラスタの WSSSE を出力します。
  • 最適な k で KMeans モデルを再学習します。
  • 最適な k で学習した KMeans モデルのクラスタ中心(セントロイド)を取得します。