1. 学ぶ
  2. /
  3. コース
  4. /
  5. R による欠損データの補完処理

Connected

演習

モザイクプロット

前の演習で作成したスパインプロットでは、2つの変数間の欠損データのパターンを確認できました。この考え方をさらに複数の変数に拡張したものが、モザイクプロットです。

この演習では、まず各映画にアメリカが関与しているかどうかを示すダミー変数を作成します。そのために、第1引数に指定した文字列が第2引数のオブジェクトに含まれているかどうかを確認する grepl() 関数を使います。次に、モザイクプロットを描画して、アメリカ映画と非アメリカ映画の両方において、主人公の性別と収益の欠損データの量に相関があるかどうかを確認します。

biopics データと VIM パッケージはあらかじめ読み込まれています。さっそく探索的なプロットを作成しましょう!

注意: 最新の VIM パッケージバージョンの出力を返すために、専用のdisplay_image()関数が用意されています。HTML Viewerセクションを展開して確認してください。

指示

100 XP
  • biopics データを dplyr パイプラインに渡しましょう。
  • country に文字列 "US" が含まれている場合は TRUE、そうでない場合は FALSE となるダミー変数 is_US_movie を作成しましょう。
  • 変数名を文字列として渡すことに注意しながら、"earnings" の欠損データの量を "is_US_movie" と "sub_sex" で分割したモザイクプロットを描画しましょう。