colsample_bytree ayarlama

Şimdi sıra "colsample_bytree" parametresini ayarlamada. Bunu daha önce scikit-learn'in RandomForestClassifier veya RandomForestRegressor sınıflarıyla çalıştıysan görmüşsündür; orada max_features olarak geçiyordu. Hem xgboost hem de sklearn içinde bu parametre (isimleri farklı olsa da) basitçe, bir ağaçta her bölünmede seçilecek özelliklerin oranını belirtir. xgboost içinde colsample_bytree, 0 ile 1 arasında bir float olarak verilmelidir.

Bu egzersiz

XGBoost ile Aşırı Gradyan Artırma

kursunun bir parçasıdır

Kursu Görüntüle

Egzersiz talimatları

0.1, 0.5, 0.8 ve 1 değerlerini saklamak için colsample_bytree_vals adlı bir liste oluştur.
"colsample_bytree" değerini sistematik olarak değiştir ve daha önce max_depth ve eta için yaptığın gibi çapraz doğrulama uygula.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Create your housing DMatrix
housing_dmatrix = xgb.DMatrix(data=X,label=y)

# Create the parameter dictionary
params={"objective":"reg:squarederror","max_depth":3}

# Create list of hyperparameter values: colsample_bytree_vals
____ = ____
best_rmse = []

# Systematically vary the hyperparameter value 
for curr_val in ____:

    ____ = ____
    
    # Perform cross-validation
    cv_results = xgb.cv(dtrain=housing_dmatrix, params=params, nfold=2,
                 num_boost_round=10, early_stopping_rounds=5,
                 metrics="rmse", as_pandas=True, seed=123)
    
    # Append the final round rmse to best_rmse
    best_rmse.append(cv_results["test-rmse-mean"].tail().values[-1])

# Print the resultant DataFrame
print(pd.DataFrame(list(zip(colsample_bytree_vals, best_rmse)), columns=["colsample_bytree","best_rmse"]))

Kodu Düzenle ve Çalıştır