Uso de DataFrames

A estrutura de dados principal do Spark é o Resilient Distributed Dataset (RDD). Trata-se de um objeto de baixo nível que permite que o Spark faça a magia acontecer, dividindo os dados em vários nós do cluster. No entanto, é difícil trabalhar diretamente com RDDs. Por isso, neste curso, você usará a abstração DataFrame do Spark criada com base em RDDs.

O DataFrame do Spark foi concebido para se comportar como uma tabela SQL (uma tabela com variáveis nas colunas e observações nas linhas). Além de serem mais fáceis de entender, os DataFrames também são mais otimizados para operações complicadas do que os RDDs.

Quando você começa a modificar e combinar colunas e linhas de dados, há muitas maneiras de chegar ao mesmo resultado, mas algumas costumam demorar muito mais do que outras. Ao usar RDDs, cabe ao cientista de dados descobrir a maneira correta de otimizar a consulta, mas a implementação do DataFrame inclui boa parte dessa otimização!

Para começar a trabalhar com DataFrames do Spark, primeiro você precisa criar um objeto SparkSession com base no seu SparkContext. Você pode pensar no SparkContext como sua conexão com o cluster e na SparkSession como sua interface com essa conexão.

Lembre-se de que, durante o restante deste curso, você terá uma SparkSession chamada spark disponível no seu espaço de trabalho!

Qual das seguintes opções é uma vantagem dos DataFrames do Spark em relação aos RDDs?

Este exercício faz parte do curso

Introdução ao PySpark

Ver curso

Exercício interativo prático

Transforme a teoria em ação com um de nossos exercícios interativos

Começar o exercício