1. 学ぶ
  2. /
  3. コース
  4. /
  5. pandasで効率よくデータを取り込む

Connected

演習

重複を除いた値を取得する

分析によっては、すべてのレコードではなく、1 列または複数列で重複のない値だけが必要なことがあります。重複はデータをデータフレームに読み込んだ後に削除できますが、SQL の DISTINCT キーワードを使えばインポート時に除外することもできます。

hpd311calls には住宅問題に関するデータが含まれているので、ほとんどのレコードで区(borough)が記載されているはずです。この仮定を、complaint_type と borough の一意な組み合わせをクエリして確かめましょう。

pandas は pd としてインポート済みで、データベースエンジンは engine として作成されています。

Note: SQL チェッカーは列の位置に非常に厳密で、指定した順序でフィールドが選択されることを期待します。

指示

100 XP
  • hpd311calls から borough と complaint_type(この順序)の DISTINCT 値を取得するクエリを作成します。
  • read_sql() を使って、クエリ結果をデータフレーム issues_and_boros に読み込みます。
  • 文学に関するリクエスト以外のすべての問題が区(borough)と一緒に掲載されているという仮定を確かめるため、データフレームを表示してください。