Comece agoraComece grátis

Otimização do tamanho do arquivo

Considere se você recebe 2 arquivos de dados grandes em um cluster com 10 nós. Cada arquivo contém 10 milhões de linhas com aproximadamente o mesmo tamanho. Ao trabalhar com seus dados, a capacidade de resposta é aceitável, mas a leitura inicial dos arquivos leva um tempo considerável. Observe que você é a única pessoa que usará os dados e que eles mudam a cada execução.

Qual das opções a seguir é a melhor para melhorar o desempenho?

Este exercicio faz parte do curso

Limpeza de dados com o PySpark

Ver curso

exercicio interativo prático

Transforme teoria em prática com um dos nossos exercicio interativos

Iniciar exercicio