Este exercício faz parte do curso
O Spark é uma estrutura para trabalhar com Big Data. Neste capítulo, você abordará algumas informações básicas sobre o Spark e a aprendizagem automática. Em seguida, você descobrirá como se conectar ao Spark usando Python e carregar os dados do CSV.
Agora que você está familiarizado com a obtenção de dados no Spark, você passará a criar dois tipos de modelo de classificação: Árvores de decisão e regressão logística. Você também conhecerá algumas abordagens para a preparação de dados.
Em seguida, você aprenderá a criar modelos de regressão linear. Você também descobrirá como aumentar seus dados com a engenharia de novos preditores, bem como uma abordagem robusta para selecionar apenas os preditores mais relevantes.
Exercício atual
Por fim, você aprenderá a tornar seus modelos mais eficientes. Você descobrirá como usar pipelines para tornar seu código mais claro e fácil de manter. Em seguida, você usará a validação cruzada para testar melhor seus modelos e selecionar bons parâmetros de modelo. Por fim, você se dedicará a dois tipos de modelo de conjunto.