Agregação, passo a passo

Escolher entre notação por ponto ou SQL é uma preferência pessoal. No entanto, como mostrado no vídeo, há casos em que SQL é mais simples. Também como demonstrado na aula em vídeo, há situações em que a notação por ponto gera um resultado contraintuitivo, como quando uma segunda agregação em uma coluna sobrescreve uma agregação anterior nessa mesma coluna. Como mencionado no vídeo, a sintaxe básica de agg no PySpark só consegue fazer uma única agregação por coluna de cada vez.

Os exercícios a seguir calculam o horário da primeira partida de cada linha de trem.

As duas primeiras consultas coincidem. Já as duas últimas, não. Você consegue descobrir por quê?

Este exercicio faz parte do curso

Introdução ao Spark SQL em Python

Instruções do exercicio

Preencha as lacunas para que o primeiro par de comandos exiba resultados idênticos.
O quarto resultado, chamado result, é uma tentativa ingênua de replicar a linha anterior. No entanto, ele é diferente de forma contraintuitiva. Como? Preencha a lacuna para imprimir o nome da segunda coluna de result.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Give the identical result in each command
spark.sql('SELECT train_id, MIN(time) AS start FROM schedule GROUP BY train_id').show()
df.groupBy('____').agg({'time':'____'}).withColumnRenamed('____', 'start').show()

# Print the second column of the result
spark.sql('SELECT train_id, MIN(time), MAX(time) FROM schedule GROUP BY train_id').show()
result = df.groupBy('train_id').agg({'time':'min', 'time':'max'})
result.show()
print(result.columns[____])

Editar e Executar Código

Este exercicio faz parte do curso

Introdução ao Spark SQL em Python

AvançadoNível de habilidade

4.8+

Comece o curso gratuitamente

Neste capítulo, você vai aprender a criar e consultar uma tabela SQL no Spark. O Spark SQL traz a expressividade do SQL para o Spark. Você também vai aprender a usar funções de janela em SQL no Spark. Funções de janela fazem cálculos entre linhas relacionadas à linha atual. Elas simplificam muito a obtenção de resultados que seriam difíceis de expressar usando apenas joins e agregações tradicionais. Usaremos funções de janela para realizar somas acumuladas, diferenças acumuladas e outras operações que são desafiadoras de fazer em SQL básico.

Exercise 1: Criando e consultando uma tabela SQL no Spark Exercise 2: Crie uma tabela SQL a partir de um dataframe Exercise 3: Descobrir os nomes das colunas de uma tabela Exercise 4: SQL com funções de janela Exercise 5: Somas acumuladas usando funções de janela em SQL Exercise 6: Corrigir a consulta com erro Exercise 7: Notação de ponto e SQL Exercise 8: Agregação, passo a passo

Exercicio Atual

Exercise 9: Agregando a mesma coluna duas vezes Exercise 10: Agregação com notação de ponto em SQL Exercise 11: Converter função window da notação de ponto para SQL

Neste capítulo, você vai carregar texto em linguagem natural. Em seguida, aplicará uma análise com janela deslizante para encontrar sequências frequentes de palavras.

Exercise 1: Carregando texto em linguagem natural Exercise 2: Carregando um dataframe de um arquivo parquet Exercise 3: Dividir e explodir uma coluna de texto Exercise 4: Usando monotonically_increasing_id()Exercise 5: Análise com janela móvel Exercise 6: Criando dados de atributos com janela de contexto Exercise 7: Reparticionando os dados Exercise 8: Sequências comuns de palavras Exercise 9: Que tipo de dado é este Exercise 10: Encontrando sequências de palavras comuns Exercise 11: 5-tuplos exclusivos em ordem ordenada Exercise 12: 3-tuple mais frequente por capítulo

Nos capítulos anteriores, você aprendeu a usar a expressividade do SQL com funções de janela. Porém, essa expressividade agora torna importante entender como fazer cache corretamente de dataframes e tabelas SQL. Também é importante saber como avaliar sua aplicação. Você aprenderá a fazer isso usando a Spark UI. Você também vai conhecer uma prática recomendada para logging no Spark. O Spark SQL traz outra ferramenta útil para ajustar problemas de desempenho de consultas: o plano de execução. Você aprenderá a usar o plano de execução para avaliar a proveniência de um dataframe.

Exercise 1: Cache Exercise 2: Praticando cache: parte 1 Exercise 3: Praticando cache: o SQL Exercise 4: Praticando cache: juntando tudo Exercise 5: Colocando e removendo tabelas do cache Exercise 6: A Spark UI Exercise 7: Aba Storage do Spark UI Exercise 8: Inspecionando o cache na Spark UI Exercise 9: Registro em log Exercise 10: Pratique logging Exercise 11: Pratique logging 2 Exercise 12: Planos de consulta Exercise 13: Praticando planos de consulta Exercise 14: Pratique a leitura de planos de consulta 2

Os capítulos anteriores forneceram as ferramentas para carregar texto bruto, tokenizá-lo e extrair sequências de palavras. Isso já é muito útil para análise, mas também é útil para Machine Learning. Agora, tudo o que você aprendeu se integra usando regressão logística para classificar texto. Ao concluir este capítulo, você terá carregado dados brutos de linguagem natural e os usado para treinar um classificador de texto.

Exercise 1: Extract Transform Select Exercise 2: Praticando a criação de uma UDF Exercise 3: Praticando coluna de array Exercise 4: Criando dados de atributos para classificação Exercise 5: Criando uma UDF para dados vetoriais Exercise 6: Aplicando uma UDF a dados vetoriais Exercise 7: Transformando texto em formato vetorial Exercise 8: Classificação de Texto Exercise 9: Rotular os dados Exercise 10: Dividir os dados Exercise 11: Treinar o classificador Exercise 12: Prever e avaliar Exercise 13: Avaliar o classificador Exercise 14: Prever dados de teste Exercise 15: Recapitulação