Uso de DataFrames
A estrutura de dados principal do Spark é o Conjunto de Dados Distribuído Resiliente (RDD). Trata-se de um objeto de baixo nível que permite que o Spark faça a magia acontecer, dividindo os dados em vários nós do cluster. No entanto, é difícil trabalhar diretamente com RDDs; por isso, neste curso, você vai usar a abstração do Spark DataFrame, que se baseia nos RDDs.
O Spark DataFrame foi projetado para funcionar de maneira muito semelhante a uma tabela SQL (uma tabela com variáveis nas colunas e observações nas linhas). Além de serem mais fáceis de entender, os DataFrames também são mais otimizados para operações complexas do que os RDDs.
Quando você começa a modificar e combinar colunas e linhas de dados, há muitas maneiras de chegar ao mesmo resultado, mas algumas costumam demorar muito mais do que outras. Ao usar RDDs, cabe ao cientista de dados descobrir a melhor maneira de otimizar a consulta, mas a implementação do DataFrame já vem com grande parte dessa otimização integrada!
Para começar a trabalhar com DataFrames do Spark, primeiro você precisa criar um objeto SparkSession com base no seu SparkContext. Você pode pensar no SparkContext como sua conexão com o cluster e na SparkSession como sua interface com essa conexão.
Lembre-se de que, durante o restante deste curso, você terá uma SparkSession chamada spark disponível no seu espaço de trabalho!
Qual das opções a seguir é uma vantagem dos DataFrames do Spark em relação aos RDDs?
Este exercicio faz parte do curso
Fundamentos do PySpark
exercicio interativo prático
Transforme teoria em prática com um dos nossos exercicio interativos
Iniciar exercicio