1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶサンプリング

Connected

演習

サンプルの結果は一般化できますか?

先ほど、コンビニエンスサンプリング(最も簡単な方法でデータを集めること)が、母集団を代表しないサンプルを生む可能性があると学びました。言い換えると、サンプルからの結果は母集団に一般化できないということです。母集団とサンプルの分布を可視化すると、サンプルが母集団を代表しているかどうかを判断しやすくなります。

Spotify のデータセットには acousticness 列があり、トラックが電源に接続しない楽器で作られたかどうかを 0 から 1 の範囲で示す信頼度指標です。ここでは、全楽曲(母集団)の acousticness の分布と、そこから抽出したサンプルの分布を比較します。

spotify_population と spotify_mysterious_sample が利用可能です。pandas は pd、matplotlib.pyplot は plt、numpy は np として読み込まれています。

指示1 / 3

undefined XP
    1
    2
    3
  • spotify_population の acousticness を、0 から 1 まで幅 0.01 のビンで pandas の .hist() を使ってヒストグラム表示してください。