Penghapusan pencilan secara statistik

Meskipun menghapus N% teratas dari data Anda berguna untuk memastikan titik yang sangat menyimpang dihapus, pendekatan ini memiliki kelemahan karena selalu menghapus proporsi titik yang sama, bahkan ketika datanya benar. Pendekatan alternatif yang umum digunakan adalah menghapus data yang berada lebih dari tiga simpangan baku dari mean. Anda dapat menerapkannya dengan terlebih dahulu menghitung mean dan simpangan baku dari kolom yang relevan untuk menemukan batas atas dan bawah, lalu menerapkan batas tersebut sebagai mask pada DataFrame. Metode ini memastikan hanya data yang benar-benar berbeda dari keseluruhan yang dihapus, dan akan menghapus lebih sedikit titik jika data saling berdekatan.

Latihan ini merupakan bagian dari kursus

Rekayasa Fitur untuk Machine Learning di Python

Instruksi latihan

Hitung simpangan baku dan mean dari kolom ConvertedSalary pada so_numeric_df.
Hitung batas atas dan batas bawah sebagai tiga simpangan baku dari mean ke kedua arah.
Pangkas DataFrame so_numeric_df untuk mempertahankan semua baris di mana ConvertedSalary berada dalam batas lower dan upper.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Find the mean and standard dev
std = so_numeric_df['ConvertedSalary'].____
mean = so_numeric_df['ConvertedSalary'].____

# Calculate the cutoff
cut_off = std * 3
lower, upper = mean - cut_off, ____

# Trim the outliers
trimmed_df = so_numeric_df[(so_numeric_df['ConvertedSalary'] < ____) \ 
                           & (so_numeric_df['ConvertedSalary'] > ____)]

# The trimmed box plot
trimmed_df[['ConvertedSalary']].boxplot()
plt.show()

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Rekayasa Fitur untuk Machine Learning di Python

SkillTag.level.intermediateSkillTag.label

4.8+

Mulai Kursus Gratis

Pada bab ini, Anda akan mengeksplorasi apa itu rekayasa fitur dan cara memulainya pada data dunia nyata. Anda akan memuat, mengeksplorasi, dan memvisualisasikan himpunan data respons survei, dan melalui itu Anda akan mempelajari tipe data dasarnya serta mengapa hal tersebut memengaruhi cara Anda merekayasa fitur. Dengan paket pandas, Anda akan membuat fitur baru dari kolom kategorikal dan kontinu.

Exercise 1: Mengapa membuat fitur?Exercise 2: Mengenal data Anda Exercise 3: Memilih tipe data tertentu Exercise 4: Menangani fitur kategorikal Exercise 5: One-hot encoding dan variabel dummy Exercise 6: Menangani kategori yang jarang muncul Exercise 7: Variabel numerik Exercise 8: Membinarisasi kolom Exercise 9: Membagi nilai ke dalam bin

Bab ini memperkenalkan Anda pada realitas data yang berantakan dan tidak lengkap. Anda akan mempelajari cara menemukan nilai hilang dalam data Anda dan mengeksplorasi berbagai pendekatan untuk menanganinya. Anda juga akan menggunakan teknik manipulasi string untuk menangani karakter yang tidak diinginkan dalam himpunan data Anda.

Exercise 1: Mengapa nilai yang hilang ada?Exercise 2: Seberapa jarang data saya?Exercise 3: Menemukan nilai yang hilang Exercise 4: Menangani nilai yang hilang (I)Exercise 5: Penghapusan secara keseluruhan (listwise deletion)Exercise 6: Mengganti nilai hilang dengan konstanta Exercise 7: Menangani nilai hilang (II)Exercise 8: Mengisi nilai hilang kontinu Exercise 9: Mengimputasi nilai dalam model prediktif Exercise 10: Menangani masalah data lainnya Exercise 11: Menangani karakter tak diinginkan (I)Exercise 12: Menangani karakter liar (II)Exercise 13: Method chaining

Pada bab ini, Anda akan berfokus pada analisis distribusi dasar data Anda dan apakah hal tersebut akan memengaruhi pipeline Machine Learning Anda. Anda akan mempelajari cara menangani data miring dan situasi ketika pencilan dapat berdampak negatif pada analisis Anda.

Exercise 1: Distribusi data Exercise 2: Seperti apa data Anda? (I)Exercise 3: Seperti apa data Anda? (II)Exercise 4: Kapan Anda tidak perlu mentransformasikan data Anda?Exercise 5: Penskalaan dan transformasi Exercise 6: Normalisasi Exercise 7: Standardization Exercise 8: Transformasi log Exercise 9: Kapan Anda dapat menggunakan normalisasi?Exercise 10: Menghapus pencilan Exercise 11: Penghapusan pencilan berbasis persentase Exercise 12: Penghapusan pencilan secara statistik

Latihan Saat Ini

Exercise 13: Menskalakan dan mentransformasikan data baru Exercise 14: Transformasi data train dan test (I)Exercise 15: Transformasi pelatihan dan pengujian (II)

Terakhir, pada bab ini, Anda akan bekerja dengan data teks tidak terstruktur, memahami cara merekayasa fitur kolumnar dari suatu korpus teks. Anda akan membandingkan bagaimana pendekatan berbeda dapat memengaruhi seberapa banyak konteks yang diekstraksi dari teks, serta bagaimana menyeimbangkan kebutuhan konteks tanpa menghasilkan terlalu banyak fitur.

Exercise 1: Pengodean teks Exercise 2: Membersihkan teks Anda Exercise 3: Fitur teks tingkat tinggi Exercise 4: Jumlah kata Exercise 5: Menghitung kata (I)Exercise 6: Menghitung kata (II)Exercise 7: Membatasi fitur Anda Exercise 8: Teks menjadi DataFrame Exercise 9: Frekuensi istilah–invers frekuensi dokumen Exercise 10: Tf-idf Exercise 11: Memeriksa nilai Tf-idf Exercise 12: Mentransformasi data yang belum pernah dilihat Exercise 13: N-gram Exercise 14: Menggunakan n-gram yang lebih panjang Exercise 15: Menemukan kata yang paling umum Exercise 16: Ringkasan