Transformadores de funciones personalizadas en pipelines

En algún momento te dijeron que los sensores podrían funcionar peor con personas obesas. Antes lo habías abordado usando pesos, pero ahora piensas que esta información también puede ser útil para la ingeniería de características, así que decides sustituir el peso registrado de una persona por un indicador de si es obesa. Quieres hacerlo usando pipelines. Tienes numpy disponible como np, RandomForestClassifier(), FunctionTransformer(), y GridSearchCV().

Este ejercicio forma parte del curso

Diseño de flujos de trabajo de Machine Learning en Python

Ver curso

Instrucciones del ejercicio

Define un extractor de características personalizado. Debe ser una función que devuelva una copia modificada de su entrada.
Sustituye cada valor de la primera columna por un indicador de si ese valor supera un umbral dado por un múltiplo de la media de la columna.
Convierte el extractor de características anterior en un transformador y colócalo en una pipeline junto con un clasificador de bosque aleatorio.
Usa una búsqueda en cuadrícula con validación cruzada para probar los valores 1, 2 y 3 para la constante de multiplicación multiplier en tu extractor de características.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Define a feature extractor to flag very large values
def more_than_average(X, multiplier=1.0):
  Z = ____
  Z[:,1] = ____ > multiplier*np.mean(Z[:,1])
  return Z

# Convert your function so that it can be used in a pipeline
pipe = Pipeline([
  ('ft', ____(____)),
  ('clf', RandomForestClassifier(random_state=2))])

# Optimize the parameter multiplier using GridSearchCV
params = ____
grid_search = GridSearchCV(pipe, param_grid=params)

Editar y ejecutar código

Diseño de flujos de trabajo de Machine Learning en Python

AvanzadoNivel de habilidad

4.8+

94 reviews

En los capítulos anteriores asentaste una base sólida en aprendizaje supervisado, con conocimientos sobre poner modelos en producción, pero siempre asumiste que habría un conjunto de datos etiquetado disponible para tu análisis. En este capítulo, afrontas el reto de modelar datos sin etiquetas o con muy pocas. Esto te lleva a explorar la detección de anomalías, un tipo de modelado no supervisado, así como el aprendizaje basado en distancias, donde las creencias sobre qué constituye la similitud entre dos ejemplos pueden usarse en lugar de etiquetas para ayudarte a lograr niveles de precisión comparables a un flujo de trabajo supervisado. Al completar este capítulo, destacarás claramente entre las personas que hacen ciencia de datos al saber con confianza qué herramientas usar para adaptar tu flujo de trabajo y superar desafíos habituales del mundo real.

Exercise 1: Detección de anomalías Exercise 2: Un outlier sencillo Exercise 3: Contaminación en LoF Exercise 4: Detección de novedades Exercise 5: Una novedad sencilla Exercise 6: Tres detectores de novedad Exercise 7: Revisiting contamination Exercise 8: Aprendizaje basado en distancias Exercise 9: Encuentra el vecino Exercise 10: No todas las métricas coinciden Exercise 11: Datos no estructurados Exercise 12: Levenshtein restringida Exercise 13: Juntándolo todo Exercise 14: Comentarios finales