ComeçarComece de graça

Otimização do tamanho do arquivo

Considere se você recebe 2 arquivos de dados grandes em um cluster com 10 nós. Cada arquivo contém 10 milhões de linhas com aproximadamente o mesmo tamanho. Ao trabalhar com seus dados, a capacidade de resposta é aceitável, mas a leitura inicial dos arquivos leva um tempo considerável. Observe que você é a única pessoa que usará os dados e que eles mudam a cada execução.

Qual das opções a seguir é a melhor para melhorar o desempenho?

Este exercício faz parte do curso

Limpeza de dados com o PySpark

Ver curso

Exercício interativo prático

Transforme a teoria em ação com um de nossos exercícios interativos

Começar o exercício