Pipelines de aprendizado de máquina
Nos próximos dois capítulos, você percorrerá cada etapa do pipeline de aprendizado de máquina, desde a entrada de dados até a avaliação do modelo. Vamos lá!
No centro do módulo pyspark.ml
estão as classes Transformer
e Estimator
. Quase todas as outras classes do módulo se comportam de forma semelhante a essas duas classes básicas.
Transformer
têm um método .transform()
que recebe um DataFrame e retorna um novo DataFrame, geralmente o original com uma nova coluna acrescentada. Por exemplo: você pode usar a classe Bucketizer
para criar compartimentos discretos a partir de uma variável independente (ou feature) contínua ou a classe PCA
para reduzir a dimensionalidade do conjunto de dados usando a análise de componentes principais.
Todas as classes Estimator
implementam um método .fit()
. Esses métodos também recebem um DataFrame, mas, em vez de retornar outro DataFrame, retornam um objeto de modelo. Pode ser algo como um StringIndexerModel
para incluir dados categóricos salvos como strings em seus modelos, ou um RandomForestModel
, que usa o algoritmo de florestas aleatórias para classificação ou regressão.
Qual das seguintes afirmações não é verdadeira sobre o aprendizado de máquina no Spark?
Este exercício faz parte do curso
Introdução ao PySpark
Exercício interativo prático
Transforme a teoria em ação com um de nossos exercícios interativos
