Inżynieria cech na danych pogrupowanych

Teraz rozwiniesz poprzednie ćwiczenie, uwzględniając jedną dodatkową cechę: liczbę unikalnych protokołów używanych przez każdy komputer źródłowy. Pamiętaj, że w przypadku danych pogrupowanych zawsze można konstruować cechy w ten sposób: możesz wziąć liczbę unikalnych elementów wszystkich kolumn kategorycznych oraz średnią wszystkich kolumn numerycznych jako punkt wyjścia. Podobnie jak wcześniej, masz dostęp do wczytanego flows, funkcji cross_val_score() do mierzenia dokładności, AdaBoostClassifier(), biblioteki pandas jako pd i numpy jako np.

Zastosuj funkcję lambda na dostarczonym iteratorze grupowym, aby obliczyć liczbę unikalnych protokołów używanych przez każdy komputer źródłowy. Możesz użyć set(), aby zredukować kolumnę protocol do zbioru unikalnych wartości.
Przekształć wynik do ramki danych o odpowiednim kształcie, podając indeks i nazywając kolumnę protocol.
Połącz nową ramkę danych ze starą, dostępną jako X.
Oceń dokładność AdaBoostClassifier() na tym nowym zbiorze danych, używając cross_val_score().

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie