Partisi

Untuk mengevaluasi model dengan tepat, data dapat dipartisi menjadi himpunan train dan test. Himpunan train berisi data tempat model dibangun, dan data test digunakan untuk mengevaluasi model. Pembagian ini dilakukan secara acak, tetapi ketika insidensi target rendah, mungkin perlu dilakukan stratifikasi, yaitu memastikan bahwa data train dan test berisi persentase target yang sama.

Dalam latihan ini Anda akan mempartisi data dengan stratifikasi dan memverifikasi bahwa data train dan test memiliki insidensi target yang sama. Metode train_test_split sudah diimpor, dan DataFrame X serta y tersedia di ruang kerja Anda.

Latihan ini merupakan bagian dari kursus

Pengantar Predictive Analytics dengan Python

Lihat Kursus

Instruksi latihan

Lakukan stratifikasi pada DataFrame ini menggunakan metode train_test_split. Pastikan himpunan train dan test berukuran sama, dan memiliki insidensi target yang sama.
Hitung insidensi target pada himpunan train. Ini adalah jumlah target dalam himpunan train dibagi jumlah observasi dalam himpunan train.
Hitung insidensi target pada himpunan test.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Load the partitioning module
from sklearn.model_selection import train_test_split

# Create DataFrames with variables and target
X = basetable.drop("target", 1)
y = basetable["target"]

# Carry out 50-50 partititioning with stratification
X_train, X_test, y_train, y_test = ____(X, y, test_size = ____, stratify = ____)

# Create the final train and test basetables
train = pd.concat([X_train, y_train], axis=1)
test = pd.concat([X_test, y_test], axis=1)

# Check whether train and test have same percentage targets
print(round(sum(train[____])/len(____), 2))
print(round(sum(test[____])/len(____), 2))

Edit dan Jalankan Kode