Uso de DataFrames
A estrutura de dados principal do Spark é o Resilient Distributed Dataset (RDD). Trata-se de um objeto de baixo nível que permite que o Spark faça a magia acontecer, dividindo os dados em vários nós do cluster. No entanto, é difícil trabalhar diretamente com RDDs. Por isso, neste curso, você usará a abstração DataFrame do Spark criada com base em RDDs.
O DataFrame do Spark foi concebido para se comportar como uma tabela SQL (uma tabela com variáveis nas colunas e observações nas linhas). Além de serem mais fáceis de entender, os DataFrames também são mais otimizados para operações complicadas do que os RDDs.
Quando você começa a modificar e combinar colunas e linhas de dados, há muitas maneiras de chegar ao mesmo resultado, mas algumas costumam demorar muito mais do que outras. Ao usar RDDs, cabe ao cientista de dados descobrir a maneira correta de otimizar a consulta, mas a implementação do DataFrame inclui boa parte dessa otimização!
Para começar a trabalhar com DataFrames do Spark, primeiro você precisa criar um objeto SparkSession
com base no seu SparkContext
. Você pode pensar no SparkContext
como sua conexão com o cluster e na SparkSession
como sua interface com essa conexão.
Lembre-se de que, durante o restante deste curso, você terá uma SparkSession
chamada spark
disponível no seu espaço de trabalho!
Qual das seguintes opções é uma vantagem dos DataFrames do Spark em relação aos RDDs?
Este exercício faz parte do curso
Introdução ao PySpark
Exercício interativo prático
Transforme a teoria em ação com um de nossos exercícios interativos
