pandas インポートのカスタマイズ

pandas パッケージは、データサイエンティストとしてデータをインポートする際に直面する多くの課題にうまく対処できます。たとえばフラットファイル内のコメント、空行、欠損値（NA や NaN）などです。この章の締めくくりとして、タイタニックデータセットの破損コピー titanic_corrupt.txt をインポートします。このファイルには文字 '#' 以降にコメントが含まれ、かつタブ区切りになっています。

pd.read_csv() の主要な引数は次のとおりです。

sep は想定する区切り文字を指定します。
- カンマ区切りには ',' を使います。
- タブ区切りには '\t' を使います。
comment は、ファイル内でコメントが始まる文字を受け取り、これらの文字で始まるテキストは無視されます。
na_values は NA/NaN と見なす文字列のリストを受け取ります。既定でも一部の値は NA/NaN と認識されますが、この引数を指定すると追加の値を登録できます。

pd.read_csv() の引数を完成させ、pandas を使って titanic_corrupt.txt を正しくインポートしてください。
- sep は使用する区切り文字を指定します。np.loadtxt() の delimiter 引数と同じ動作です。今回のファイルはタブ区切りです。
- comment はファイル内でコメントが始まる文字を指定します。ここでは '#' です。
- na_values は NA/NaN として扱う文字列のリストを指定します。ここでは文字列 'Nothing' です。
残りのコードを実行して、得られた DataFrame の先頭を表示し、タイタニック乗客の 'Age' のヒストグラムを描画してください。

演習

pandas インポートのカスタマイズ

指示

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}演習

指示

演習