ComeçarComece de graça

Spam por SMS otimizado

O pipeline que você criou antes para o modelo de spam por SMS usou os parâmetros padrão para todos os elementos do pipeline. Mas é bem improvável que esses parâmetros deem um modelo muito bom. Neste exercício, você vai rodar o pipeline para uma seleção de valores de parâmetros. Vamos fazer isso de um jeito sistemático: os valores de cada um dos hiperparâmetros vão ser colocados numa grade e, depois, o pipeline vai passar por cada ponto da grade de forma sistemática.

Neste exercício, você vai configurar uma grade de parâmetros que pode ser usada com validação cruzada para escolher um bom conjunto de parâmetros para o classificador de spam de SMS.

Já estão definidos:

  • hasher — um objeto HashingTF\ e
  • logistic — um objeto LogisticRegression.

Este exercício faz parte do curso

Machine Learning com PySpark

Ver curso

Instruções do exercício

  • Crie um objeto criador de grade de parâmetros.
  • Adicione pontos de grade para os parâmetros numFeatures e binary ao objeto HashingTF, dando os valores 1024, 4096 e 16384, e True e False, respectivamente.
  • Adicione pontos de grade para os parâmetros regParam e elasticNetParam ao objeto LogisticRegression, dando valores de 0,01, 0,1, 1,0 e 10,0, e 0,0, 0,5 e 1,0, respectivamente.
  • Crie a grade de parâmetros.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Create parameter grid
params = ____()

# Add grid for hashing trick parameters
params = params.____(____, ____) \
               .____(____, ____)

# Add grid for logistic regression parameters
params = params.____(____, ____) \
               .____(____, ____)

# Build parameter grid
params = ____.____()
Editar e executar o código