1. 学ぶ
  2. /
  3. コース
  4. /
  5. pandas によるデータ操作

Connected

演習

効率的な要約

pandasとNumPyには非常に多くの関数がありますが、データを要約するために別の関数が必要になる場合もあります。

.agg() メソッドを使うと、独自の関数をDataFrameに適用できます。また、DataFrameの複数の列に関数を一度に適用できるため、集計処理を非常に効率化できます。たとえば、py df['column'].agg(function)

この演習のカスタム関数では、"IQR" はinter-quartile range(四分位範囲)の略で、75パーセンタイルから25パーセンタイルを引いた値です。これは標準偏差の代替となる指標で、データに外れ値が含まれている場合に役立ちます。

sales はすでに用意されており、pandas は pd として読み込まれています。

指示1 / 3

undefined XP
  • 1
    • あらかじめ定義されているカスタム関数 iqr を .agg() と組み合わせて使い、temperature_c の sales 列のIQRを出力しましょう。
  • 2
    • 列の選択を更新し、カスタム関数 iqr を .agg() と組み合わせて使って、temperature_c、fuel_price_usd_per_l、unemployment の IQR をその順序で出力しましょう。
  • 3
    • .agg() で呼び出す集計関数を更新しましょう。iqr と "median" をその順序で指定しましょう。