MulaiMulai sekarang secara gratis

Integritas Data

Dalam proses menelusuri sebuah himpunan data, Anda kadang akan menemukan sesuatu yang membuat Anda mempertanyakan bagaimana data tersebut dikumpulkan. Misalnya, variabel num_char berisi jumlah karakter dalam email, dalam ribuan, sehingga dapat bernilai desimal, tetapi jelas tidak boleh bernilai negatif.

Anda dapat merumuskan sebuah uji untuk memastikan variabel ini berperilaku seperti yang kita harapkan:

email$num_char < 0

Jika Anda menjalankan kode ini di konsol, Anda akan mendapatkan sebuah vektor panjang berisi nilai logika yang menunjukkan, untuk setiap kasus dalam himpunan data, apakah kondisi tersebut bernilai TRUE. Di sini, 1000 nilai pertama semuanya tampak FALSE. Untuk memverifikasi bahwa semua kasus memang memiliki nilai non-negatif untuk num_char, kita dapat mengambil jumlah dari vektor ini:

sum(email$num_char < 0)

Ini adalah jalan pintas yang praktis. Saat Anda melakukan aritmetika pada nilai logika, R memperlakukan TRUE sebagai 1 dan FALSE sebagai 0. Karena jumlah seluruh vektor adalah nol, Anda mengetahui bahwa setiap kasus dalam himpunan data menghasilkan nilai FALSE pada uji tersebut. Artinya, kolom num_char berperilaku seperti yang kita harapkan dan hanya mengambil nilai non-negatif.

Latihan ini adalah bagian dari kursus

Analisis Data Eksploratori dengan R

Lihat Kursus

Petunjuk latihan

Pertimbangkan variabel image dan attach. Anda dapat membacanya dengan ?email, tetapi berkas bantuan tersebut ambigu: apakah gambar terlampir dihitung sebagai berkas lampiran dalam himpunan data ini?

Rancang sebuah uji sederhana untuk menentukan apakah gambar dihitung sebagai berkas lampiran. Ini melibatkan pembuatan kondisi logika untuk membandingkan nilai kedua variabel tersebut, lalu menggunakan sum() untuk menilai setiap kasus dalam himpunan data. Ingat bahwa operator logika adalah < untuk kurang dari, <= untuk kurang dari atau sama dengan, > untuk lebih dari, >= untuk lebih dari atau sama dengan, dan == untuk sama dengan.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Test if images count as attachments
Edit dan Jalankan Kode