1. Nauka
  2. /
  3. Kursy
  4. /
  5. Projektowanie przepływów pracy uczenia maszynowego w Pythonie

Connected

ćwiczenie

Inżynieria cech na danych pogrupowanych

Teraz rozwiniesz poprzednie ćwiczenie, uwzględniając jedną dodatkową cechę: liczbę unikalnych protokołów używanych przez każdy komputer źródłowy. Pamiętaj, że w przypadku danych pogrupowanych zawsze można konstruować cechy w ten sposób: możesz wziąć liczbę unikalnych elementów wszystkich kolumn kategorycznych oraz średnią wszystkich kolumn numerycznych jako punkt wyjścia. Podobnie jak wcześniej, masz dostęp do wczytanego flows, funkcji cross_val_score() do mierzenia dokładności, AdaBoostClassifier(), biblioteki pandas jako pd i numpy jako np.

Instrukcje

100 XP
  • Zastosuj funkcję lambda na dostarczonym iteratorze grupowym, aby obliczyć liczbę unikalnych protokołów używanych przez każdy komputer źródłowy. Możesz użyć set(), aby zredukować kolumnę protocol do zbioru unikalnych wartości.
  • Przekształć wynik do ramki danych o odpowiednim kształcie, podając indeks i nazywając kolumnę protocol.
  • Połącz nową ramkę danych ze starą, dostępną jako X.
  • Oceń dokładność AdaBoostClassifier() na tym nowym zbiorze danych, używając cross_val_score().