or
Este exercício faz parte do curso
Neste capítulo, você vai aprender a criar e consultar uma tabela SQL no Spark. O Spark SQL traz a expressividade do SQL para o Spark. Você também vai aprender a usar funções de janela em SQL no Spark. Funções de janela fazem cálculos entre linhas relacionadas à linha atual. Elas simplificam muito a obtenção de resultados que seriam difíceis de expressar usando apenas joins e agregações tradicionais. Usaremos funções de janela para realizar somas acumuladas, diferenças acumuladas e outras operações que são desafiadoras de fazer em SQL básico.
Neste capítulo, você vai carregar texto em linguagem natural. Em seguida, aplicará uma análise com janela deslizante para encontrar sequências frequentes de palavras.
Nos capítulos anteriores, você aprendeu a usar a expressividade do SQL com funções de janela. Porém, essa expressividade agora torna importante entender como fazer cache corretamente de dataframes e tabelas SQL. Também é importante saber como avaliar sua aplicação. Você aprenderá a fazer isso usando a Spark UI. Você também vai conhecer uma prática recomendada para logging no Spark. O Spark SQL traz outra ferramenta útil para ajustar problemas de desempenho de consultas: o plano de execução. Você aprenderá a usar o plano de execução para avaliar a proveniência de um dataframe.
Exercício atual
Os capítulos anteriores forneceram as ferramentas para carregar texto bruto, tokenizá-lo e extrair sequências de palavras. Isso já é muito útil para análise, mas também é útil para Machine Learning. Agora, tudo o que você aprendeu se integra usando regressão logística para classificar texto. Ao concluir este capítulo, você terá carregado dados brutos de linguagem natural e os usado para treinar um classificador de texto.