ComeçarComece de graça

Uso de DataFrames

A estrutura de dados principal do Spark é o Conjunto de Dados Distribuído Resiliente (RDD). Trata-se de um objeto de baixo nível que permite que o Spark faça a magia acontecer, dividindo os dados em vários nós do cluster. No entanto, é difícil trabalhar diretamente com RDDs; por isso, neste curso, você vai usar a abstração do Spark DataFrame, que se baseia nos RDDs.

O Spark DataFrame foi projetado para funcionar de maneira muito semelhante a uma tabela SQL (uma tabela com variáveis nas colunas e observações nas linhas). Além de serem mais fáceis de entender, os DataFrames também são mais otimizados para operações complexas do que os RDDs.

Quando você começa a modificar e combinar colunas e linhas de dados, há muitas maneiras de chegar ao mesmo resultado, mas algumas costumam demorar muito mais do que outras. Ao usar RDDs, cabe ao cientista de dados descobrir a melhor maneira de otimizar a consulta, mas a implementação do DataFrame já vem com grande parte dessa otimização integrada!

Para começar a trabalhar com DataFrames do Spark, primeiro você precisa criar um objeto SparkSession com base no seu SparkContext. Você pode pensar no SparkContext como sua conexão com o cluster e na SparkSession como sua interface com essa conexão.

Lembre-se de que, durante o restante deste curso, você terá uma SparkSession chamada spark disponível no seu espaço de trabalho!

Qual das opções a seguir é uma vantagem dos DataFrames do Spark em relação aos RDDs?

Este exercício faz parte do curso

Fundamentos do PySpark

Ver curso

Exercício interativo prático

Transforme a teoria em ação com um de nossos exercícios interativos

Começar o exercício