Spark, Hadoop e Hive

Você encontrou vários projetos de código aberto no vídeo anterior. Há o Hadoop, o Hive e o PySpark. É fácil você se confundir entre esses projetos.

Eles têm algumas coisas em comum: todos são mantidos atualmente pela Apache Software Foundation e todos foram usados para processamento paralelo em massa. Você consegue identificar as diferenças?

Este exercício faz parte do curso

Introdução à engenharia de dados

Exercício interativo prático

Transforme a teoria em ação com um de nossos exercícios interativos

Começar o exercício

Este exercício faz parte do curso

Introdução à engenharia de dados

IntermediárioNível de habilidade

4.8+

Iniciar curso de graça

Neste primeiro capítulo, você conhecerá o mundo da engenharia de dados! Explore as diferenças entre um engenheiro de dados e um cientista de dados, obtenha uma visão geral das várias ferramentas que os engenheiros de dados usam e amplie sua compreensão de como a tecnologia de nuvem desempenha um papel na engenharia de dados.

Exercise 1: O que é engenharia de dados?Exercise 2: Tarefas do engenheiro de dados Exercise 3: Você é engenheiro de dados ou cientista de dados?Exercise 4: Problemas de engenharia de dados Exercise 5: Ferramentas do engenheiro de dados Exercise 6: Tipos de bancos de dados Exercise 7: Tarefas de processamento Exercise 8: Ferramentas de agendamento Exercise 9: Provedores de nuvem Exercise 10: Por que a computação em nuvem?Exercise 11: Grandes participantes da computação em nuvem Exercise 12: Serviços em nuvem

Agora que você conhece as principais diferenças entre um engenheiro de dados e um cientista de dados, prepare-se para explorar a caixa de ferramentas do engenheiro de dados! Aprenda em detalhes sobre os diferentes tipos de bancos de dados que os engenheiros de dados usam, como a computação paralela é uma pedra angular do kit de ferramentas do engenheiro de dados e como agendar trabalhos de processamento de dados usando estruturas de agendamento.

Exercise 1: Bancos de dados Exercise 2: SQL vs NãoSQL Exercise 3: O esquema do banco de dados Exercise 4: Unir-se em relações Exercise 5: Diagrama de esquema em estrela Exercise 6: O que é computação paralela Exercise 7: Por que a computação paralela?Exercise 8: De tarefa para subtarefas Exercise 9: Usando um DataFrame Exercise 10: Estruturas de computação paralela Exercise 11: Spark, Hadoop e Hive

Exercício atual

Exercise 12: Um grupo do PySpark Exercise 13: Executando arquivos do PySpark Exercise 14: Estruturas de agendamento de fluxo de trabalho Exercise 15: Fluxo de ar, Luigi e cron Exercise 16: Fluxo de ar DAGs

Depois de conhecer a caixa de ferramentas dos engenheiros de dados, chegou a hora de você começar a trabalhar no fluxo de trabalho de um engenheiro de dados! Com o ETL, você aprenderá a extrair dados brutos de várias fontes, transformá-los em insights acionáveis e carregá-los em bancos de dados relevantes, prontos para consumo!

Exercise 1: Extrair Exercise 2: Fontes de dados Exercise 3: Obter de um API Exercise 4: Ler de um banco de dados Exercise 5: Transformar Exercise 6: Divisão da taxa de aluguel Exercise 7: Prepare-se para as transformações Exercise 8: Juntar-se a classificações Exercise 9: Carregamento Exercise 10: OLAP ou OLTP Exercise 11: Gravação em um arquivo Exercise 12: Carregar no Postgres Exercise 13: Juntando tudo Exercise 14: Definição de um DAG Exercise 15: Configuração do fluxo de ar Exercise 16: Interpretando o DAG

Termine tudo o que você aprendeu nos três capítulos anteriores concluindo um caso de uso de engenharia de dados do mundo real do DataCamp! Você executará e programará um processo ETL que transforma dados brutos de classificação de cursos em recomendações de cursos acionáveis para os alunos do DataCamp!

Exercise 1: Classificações do curso Exercise 2: Explorando o esquema Exercise 3: Consultando a tabela Exercise 4: Classificação média por curso Exercise 5: De classificações a recomendações Exercise 6: Filtrar dados corrompidos Exercise 7: Usando a transformação de recomendação Exercise 8: Agendamento de trabalhos diários Exercise 9: A tabela de destino Exercise 10: Definindo o DAG Exercise 11: Ativar o DAG Exercise 12: Consultando as recomendações Exercise 13: Parabéns a você