Rekayasa fitur pada data terkelompok

Sekarang Anda akan melanjutkan latihan sebelumnya dengan mempertimbangkan satu fitur tambahan: jumlah protokol unik yang digunakan oleh setiap komputer sumber. Perhatikan bahwa pada data terkelompok, selalu mungkin untuk membangun fitur dengan cara ini: Anda dapat mengambil jumlah elemen unik dari semua kolom kategorikal, dan rata-rata dari semua kolom numerik sebagai titik awal. Seperti sebelumnya, flows telah dimuat, cross_val_score() untuk mengukur akurasi, AdaBoostClassifier(), pandas sebagai pd, dan numpy sebagai np.

Latihan ini merupakan bagian dari kursus

Merancang Alur Kerja Machine Learning di Python

Lihat Kursus

Instruksi latihan

Terapkan fungsi lambda pada iterator grup yang disediakan untuk menghitung jumlah protokol unik yang digunakan oleh setiap komputer sumber. Anda dapat menggunakan set() untuk mereduksi kolom protocol menjadi himpunan nilai unik.
Konversikan hasilnya menjadi data frame dengan bentuk yang benar dengan memberikan indeks dan menamai kolomnya protocol.
Konkatenasikan data frame baru dengan yang lama, yang tersedia sebagai X.
Nilai akurasi AdaBoostClassifier() pada himpunan data baru ini menggunakan cross_val_score().

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Create a feature counting unique protocols per source
protocols = flows.groupby('source_computer').apply(
  lambda df: ____)

# Convert this feature into a dataframe, naming the column
protocols_DF = pd.DataFrame(
  protocols, index=____, columns=____)

# Now concatenate this feature with the previous dataset, X
X_more = pd.concat([X, ____], axis=____)

# Refit the classifier and report its accuracy
print(____(____(
  AdaBoostClassifier(), ____, y)))

Edit dan Jalankan Kode

Merancang Alur Kerja Machine Learning di Python

SkillTag.level.advancedSkillTag.label

4.8+

94 reviews

Pada bab-bab sebelumnya Anda membangun fondasi yang kuat dalam supervised learning, lengkap dengan pengetahuan menerapkan model di produksi tetapi selalu berasumsi tersedia himpunan data berlabel untuk analisis. Pada bab ini, Anda menghadapi tantangan memodelkan data tanpa label sama sekali, atau dengan sangat sedikit label. Ini membawa Anda ke penelusuran deteksi anomali, sebuah bentuk pemodelan unsupervised, serta pembelajaran berbasis jarak, di mana keyakinan tentang apa yang dianggap kemiripan antara dua contoh dapat digunakan menggantikan label untuk membantu Anda mencapai tingkat akurasi yang sebanding dengan alur kerja supervised. Setelah menyelesaikan bab ini, Anda akan jelas menonjol dari kerumunan data scientist karena tahu dengan yakin alat apa yang digunakan untuk menyesuaikan alur kerja guna mengatasi tantangan dunia nyata yang umum.

Exercise 1: Deteksi anomali Exercise 2: Sebuah outlier sederhana Exercise 3: Kontaminasi LoF Exercise 4: Deteksi kebaruan Exercise 5: Sebuah novelty sederhana Exercise 6: Tiga pendeteksi novelty Exercise 7: Meninjau kembali contamination Exercise 8: Pembelajaran berbasis jarak Exercise 9: Temukan tetangga Exercise 10: Tidak semua metrik sepakat Exercise 11: Data tidak terstruktur Exercise 12: Levenshtein Terbatas Exercise 13: Menggabungkan semuanya Exercise 14: Catatan penutup