1. 学ぶ
  2. /
  3. コース
  4. /
  5. pandasで効率よくデータを取り込む

Connected

演習

ブール型の列を設定する

データセットには、本来はブール値として表現するのが最も適切な列が含まれることがあります。しかし、pandas は既定ではそれらを float として読み込むことが多いです。これは、既定をブール型にすると NA 値が True になってしまうなど、望ましくない影響が出る可能性があるためです。

fcc_survey_subset.xlsx には、文字列の ID 列と、経済的なストレス要因を示す複数の True/False 列が含まれています。ここでは、NA が一切ない非 ID 列を特定してブール型にできるかを評価し、その列を dtype 引数で指定して read_excel() にブール型として読み込ませます。

pandas は pd として読み込まれています。

指示1 / 2

undefined XP
    1
    2
  • isna() と sum() を使って、survey_data の各列に含まれる NA の数を数えます。ID.x 以外で NA が 0 の列があればメモしておきます。