1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで統計面接問題を練習しよう

Connected

演習

平均か中央値か

データサイエンティストとして、私たちはデータをできるだけ簡潔に表現しようとします。そこで重要になるのが代表値のうち最も一般的な2つ、平均と中央値です。この演習では、いくつかの状況を見比べて、データを効果的に表すのに最適な指標はどちらかを判断します。

具体的には、気温や風速に関する特徴量を含むAustralian weather dataを扱います。このデータセットはすでにweatherとして読み込まれており、matplotlibとpandasもそれぞれpltとpdとしてインポート済みです。章の残りでもそのまま使用できます。

指示1 / 3

undefined XP
  • 1

    hist() 関数を使って Temp3pm 列の分布をプロットしましょう。データに歪み(スキュー)はありますか?

  • 2

    Temp3pm 列の平均と中央値を代入して表示してください。どちらがデータをよりよく表していると思いますか?

  • 3

    別の列を調べられるようにコードを調整し、Temp9am の結果がどうなるか確認しましょう。