ComeçarComece gratuitamente

SMS otimizado para spam

O pipeline que você criou anteriormente para o modelo de spam SMS usou os parâmetros padrão para todos os elementos do pipeline. No entanto, é muito improvável que esses parâmetros forneçam um modelo particularmente bom. Neste exercício, você executará o pipeline para uma seleção de valores de parâmetros. Vamos fazer isso de forma sistemática: os valores de cada um dos hiperparâmetros serão dispostos em uma grade e, em seguida, o pipeline será executado sistematicamente em cada ponto da grade.

Neste exercício, você configurará uma grade de parâmetros que pode ser usada com validação cruzada para escolher um bom conjunto de parâmetros para o classificador de spam SMS.

Os seguintes já estão definidos:

  • hasher - um objeto HashingTF e
  • logistic - um objeto LogisticRegression.

Este exercício faz parte do curso

Aprendizado de máquina com PySpark

Ver Curso

Instruções de exercício

  • Crie um objeto construtor de grade de parâmetros.
  • Adicione pontos de grade para os parâmetros numFeatures e binary ao objeto HashingTF, fornecendo os valores 1024, 4096 e 16384, e True e False, respectivamente.
  • Adicione pontos de grade para os parâmetros regParam e elasticNetParam ao objeto LogisticRegression, fornecendo valores de 0,01, 0,1, 1,0 e 10,0, e 0,0, 0,5 e 1,0, respectivamente.
  • Crie a grade de parâmetros.

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Create parameter grid
params = ____()

# Add grid for hashing trick parameters
params = params.____(____, ____) \
               .____(____, ____)

# Add grid for logistic regression parameters
params = params.____(____, ____) \
               .____(____, ____)

# Build parameter grid
params = ____.____()
Editar e executar código