Spark é uma estrutura pra trabalhar com Big Data. Neste capítulo, você vai ver um pouco sobre o Spark e o Machine Learning. Você vai descobrir como se conectar ao Spark usando Python e carregar dados CSV.

Machine Learning e Spark

Características do Spark

Componentes em um cluster Spark

Conectando-se ao Spark

Localização do Spark master

Como criar uma SparkSession

Carregando dados

Carregando dados dos voos

Carregando dados de spam de SMS

Introdução

Agora que você já sabe como colocar dados no Spark, vamos criar dois tipos de modelo de classificação: Árvores de decisão e regressão logística. Você também vai descobrir algumas abordagens para a preparação de dados.

Preparação dos dados

Removendo colunas e linhas

Manipulação de colunas

Colunas categóricas

Montagem das colunas

Árvore de decisão

Divisão entre treinamento e teste

Crie uma árvore de decisão

Avaliar a árvore de decisão

Regressão logística

Crie um modelo de regressão logística

Avalie o modelo de regressão logística

Transformando texto em tabelas

Pontuação, números e tokens

Palavras irrelevantes e hash

Treinar um classificador de spam

Classificação

Depois, você vai aprender a criar modelos de regressão linear. Você também vai descobrir como aumentar seus dados criando novos indicadores e uma maneira legal de escolher só os indicadores mais relevantes.

Codificação One-Hot

Codificação da origem do voo

Codificação dos tamanhos das camisetas

Regressão

Modelo de duração do voo: Apenas distância

Interpretando os coeficientes

Modelo de duração do voo: Adicionar aeroporto de origem

Classificação e engenharia

Hora de partida por faixa horária

Modelo de duração do voo: Adicionar hora de partida

Regularização

Modelo de duração do voo: Mais recursos!

Modelo de duração do voo: Regularização!

Por fim, você vai aprender como deixar seus modelos mais eficientes. Você vai descobrir como usar pipelines para deixar seu código mais claro e fácil de manter. Depois, você vai usar a validação cruzada pra testar melhor seus modelos e escolher bons parâmetros de modelo. Por fim, você vai experimentar dois tipos de modelo de conjunto.

Pipeline

Modelo de duração do voo: Etapas do pipeline

Modelo de duração do voo: Modelo de pipeline

Canal de spam por SMS

Validação cruzada

Validação cruzada do modelo simples de duração de voos

Validação cruzada do pipeline do modelo de duração de voos

Pesquisa em grade

Otimizando voos com regressão linear

Analisando o melhor modelo de duração de voo

Spam por SMS otimizado

Quantos modelos para a pesquisa em grade?

Conjunto

Voos atrasados com árvores impulsionadas por gradiente

Voos atrasados com uma Random Forest

Avaliando a Floresta Aleatória

Considerações finais

Conjuntos e pipelines

Flights

Spark é uma ferramenta poderosa e versátil pra trabalhar com Big Data. O Spark cuida de distribuir as tarefas de computação pelo cluster de um jeito transparente. Isso significa que as operações são rápidas, mas também permite que você se concentre na análise, em vez de se preocupar com detalhes técnicos. Neste curso, você vai aprender como colocar dados no Spark e, em seguida, mergulhar nos três algoritmos fundamentais do Spark Machine Learning: Regressão linear, regressão logística/classificadores e criação de pipelines. Ao longo do caminho, você vai analisar um monte de dados sobre atrasos de voos e mensagens de spam. Com isso, você vai estar pronto pra aproveitar o poder do Spark e usar nos seus próprios projetos de Machine Learning!

<h2>Aprenda a usar o Apache Spark para aprendizado de máquina</h2> 
O Spark é uma ferramenta avançada e de uso geral para trabalhar com Big Data. O Spark lida de forma transparente com a distribuição de tarefas de computação em um cluster. Isso significa que as operações são rápidas, mas também permite que você se concentre na análise em vez de se preocupar com detalhes técnicos. Neste curso, você aprenderá como colocar os dados no Spark e, em seguida, se aprofundará nos três algoritmos fundamentais do Spark Machine Learning: Regressão linear, regressão logística/classificadores e criação de pipelines.
<br><br> 
<h2>Criar e testar árvores de decisão</h2> 
Criar suas próprias árvores de decisão é uma ótima maneira de começar a explorar os modelos de aprendizado de máquina. Você usará um algoritmo chamado "Recursive Partitioning" para dividir os dados em duas classes e encontrar um preditor dentro dos dados que resulte na divisão mais informativa das duas classes, e repetirá essa ação com outros nós. Em seguida, você pode usar a árvore de decisão para fazer previsões com novos dados.
<br><br> 
<h2>Domine a regressão logística e linear no PySpark</h2> 
A regressão logística e linear são técnicas essenciais de aprendizado de máquina que são suportadas pelo PySpark. Você aprenderá a criar e avaliar modelos de regressão logística, antes de passar para a criação de modelos de regressão linear para ajudá-lo a refinar seus preditores para apenas as opções mais relevantes.
<br><br> 
Ao final do curso, você se sentirá confiante para aplicar seus novos conhecimentos de aprendizado de máquina, graças às tarefas práticas e aos conjuntos de dados práticos encontrados ao longo do curso.

Supervised Learning with scikit-learn

Introduction to PySpark

Aprenda a fazer previsões com Apache Spark usando árvores de decisão, regressões e pipelines.

Machine Learning com PySpark

Faça previsões a partir de dados com o Apache Spark, usando árvores de decisão, regressão logística, regressão linear, conjuntos e pipelines.

Regressão

Create Your Free Account