Transformers com funções personalizadas em pipelines

Em determinado momento, informaram que os sensores podem ter um desempenho ruim para pessoas obesas. Antes, você lidou com isso usando pesos, mas agora acha que essa informação também pode ser útil para engenharia de atributos. Por isso, você decide substituir o peso registrado de uma pessoa por um indicador de obesidade. Você quer fazer isso usando pipelines. Você tem numpy disponível como np, RandomForestClassifier(), FunctionTransformer() e GridSearchCV().

Este exercicio faz parte do curso

Projetando Workflows de Machine Learning em Python

Ver curso

Instruções do exercicio

Defina um extrator de atributos personalizado. Ele deve retornar uma cópia modificada da sua entrada.
Substitua cada valor da primeira coluna por um indicador de se esse valor está acima de um limiar dado por um múltiplo da média da coluna.
Converta o extrator de atributos acima em um transformer e coloque-o em um pipeline junto com um classificador random forest.
Use grid search com validação cruzada para testar os valores 1, 2 e 3 para a constante de multiplicação multiplier no seu extrator de atributos.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Define a feature extractor to flag very large values
def more_than_average(X, multiplier=1.0):
  Z = ____
  Z[:,1] = ____ > multiplier*np.mean(Z[:,1])
  return Z

# Convert your function so that it can be used in a pipeline
pipe = Pipeline([
  ('ft', ____(____)),
  ('clf', RandomForestClassifier(random_state=2))])

# Optimize the parameter multiplier using GridSearchCV
params = ____
grid_search = GridSearchCV(pipe, param_grid=params)

Editar e Executar Código

Projetando Workflows de Machine Learning em Python

AvançadoNível de habilidade

4.8+

94 reviews

In the previous chapters you established a solid foundation in supervised learning, complete with knowledge of deploying models in production but always assumed you a labeled dataset would be available for your analysis. In this chapter, you take on the challenge of modeling data without any, or with very few, labels. This takes you into a journey into anomaly detection, a kind of unsupervised modeling, as well as distance-based learning, where beliefs about what constitutes similarity between two examples can be used in place of labels to help you achieve levels of accuracy comparable to a supervised workflow. Upon completing this chapter, you will clearly stand out from the crowd of data scientists in confidently knowing what tools to use to modify your workflow in order to overcome common real-world challenges.

Exercise 1: Anomaly detection Exercise 2: A simple outlier Exercise 3: LoF contamination Exercise 4: Novelty detection Exercise 5: A simple novelty Exercise 6: Three novelty detectors Exercise 7: Contamination revisited Exercise 8: Distance-based learning Exercise 9: Find the neighbor Exercise 10: Not all metrics agree Exercise 11: Unstructured data Exercise 12: Restricted Levenshtein Exercise 13: Bringing it all together Exercise 14: Concluding remarks