Ingeniería de características en datos agrupados

Ahora vas a ampliar el ejercicio anterior añadiendo una característica más: el número de protocolos únicos utilizados por cada equipo de origen. Ten en cuenta que, con datos agrupados, siempre es posible construir características de esta manera: puedes tomar el número de elementos únicos de todas las columnas categóricas y la media de todas las columnas numéricas como punto de partida. Como antes, tienes flows precargado, cross_val_score() para medir la exactitud, AdaBoostClassifier(), pandas como pd y numpy como np.

Este ejercicio forma parte del curso

Diseño de flujos de trabajo de Machine Learning en Python

Ver curso

Instrucciones del ejercicio

Aplica una función lambda sobre el iterador de grupos para calcular el número de protocolos únicos utilizados por cada equipo de origen. Puedes usar set() para reducir la columna protocol a un conjunto de valores únicos.
Convierte el resultado en un data frame con la forma correcta proporcionando un índice y nombrando la columna protocol.
Concatena el nuevo data frame con el anterior, disponible como X.
Evalúa la exactitud de AdaBoostClassifier() en este nuevo conjunto de datos usando cross_val_score().

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Create a feature counting unique protocols per source
protocols = flows.groupby('source_computer').apply(
  lambda df: ____)

# Convert this feature into a dataframe, naming the column
protocols_DF = pd.DataFrame(
  protocols, index=____, columns=____)

# Now concatenate this feature with the previous dataset, X
X_more = pd.concat([X, ____], axis=____)

# Refit the classifier and report its accuracy
print(____(____(
  AdaBoostClassifier(), ____, y)))

Editar y ejecutar código

Diseño de flujos de trabajo de Machine Learning en Python

AvanzadoNivel de habilidad

4.8+

94 reviews

In the previous chapters you established a solid foundation in supervised learning, complete with knowledge of deploying models in production but always assumed you a labeled dataset would be available for your analysis. In this chapter, you take on the challenge of modeling data without any, or with very few, labels. This takes you into a journey into anomaly detection, a kind of unsupervised modeling, as well as distance-based learning, where beliefs about what constitutes similarity between two examples can be used in place of labels to help you achieve levels of accuracy comparable to a supervised workflow. Upon completing this chapter, you will clearly stand out from the crowd of data scientists in confidently knowing what tools to use to modify your workflow in order to overcome common real-world challenges.

Exercise 1: Anomaly detection Exercise 2: A simple outlier Exercise 3: LoF contamination Exercise 4: Novelty detection Exercise 5: A simple novelty Exercise 6: Three novelty detectors Exercise 7: Contamination revisited Exercise 8: Distance-based learning Exercise 9: Find the neighbor Exercise 10: Not all metrics agree Exercise 11: Unstructured data Exercise 12: Restricted Levenshtein Exercise 13: Bringing it all together Exercise 14: Concluding remarks