Curso semipresencial: Data Lake - Ingestão e transformação de dados com base no Projeto Piloto Gestão de Pessoas
Formador(es)
Thiago de Souza Rodrigues
Evandrino Gomes Barros
Bruno André Santos
Hebert Henrique de Assis
Leonardo Bruno Lopes.
Período de Realização
- 06/04/2026: Aula online de 14 às 17h (CH 3h) - 07/04/2026: Aula online de 14 às 18h (CH 4h) - 08/04/2026: Aula presencial de 09 às 12h e de 14h às 17h (CH 6h).
Público-alvo
Servidores lotados na SESIS.
Critérios de Seleção
Ordem de Inscrição.
Vagas
30 Vagas.
Carga Horária
13 horas.
Critérios de Aprovação
Frequência mínima de 100% e aprovação nas atividades propostas durante o curso
Local
Ambiente virtual Moodle/Zoom na etapa remota e Laboratório de Informática ( rua Guaicurus, 203) na etapa presencial.
Conteúdo Programático
Dia 1 (aula online)
1. Abertura
2. Introdução ao ambiente de datalake
2.1. Conceitos
2.2. Ferramentas
2.2.1. Hadoop
2.2.2. HDFS
2.2.3. Hive
2.2.4. Spark
2.2.5. Ranger
2.3. Tecnisys Data Plataform (TDP)
2.4. O cenário atual e desafios do processo de ETL do Painel Gestão de Pessoas
3. Visão geral da infraestrutura do ambiente
3.1. Configuração do PDI 9.4 para operação com datalake
3.1.1. Instalação do addon para Hadoop
3.1.2. Configuração do acesso ao cluster Hadoop pelo PDI 9.4
3.1.3. Como criar uma conexão JDBC com o Hive no PDI 9.4
3.2. Ambiente para execução de aplicações Spark
3.2.1. Configuração do cluster
3.2.2. Criação do ambiente local de execução
3.2.3. Execução da aplicação
4. Extração e carga de dados do Oracle para o Hive utilizando o Spark
4.1. Introdução
4.2. Implementação
4.2.1. Extração do schema
4.2.2. Extração dos dados
4.2.3. Tratamento de erros na aplicação Spark
4.3. Sobre as abordagens possíveis para a etapa de extração
4.4. Extração de dados de outros SGBDs (PostgreSQL)
Dia 2 (aula online)
1. A proposta do CEFET-MG para o processo de ETL: adaptação do processo de ETL do Projeto Gestão de
Pessoas utilizando o PDI e armazenamento de dados no datalake
1.1. Introdução
1.2. Análise do modelo de conciliação de dados atual
1.2.1. Definições e identificação das etapas
1.2.2. Etapa de carga dos dados e a transformação COMP-TR-FILTRAGEM-REGISTROS-IGUAIS
1.3. Proposta de um modelo de conciliação de dados no datalake
1.3.1. Apresentação: SQL MERGE
1.3.2. Geração de parâmetros para o MERGE
1.3.2.1. hashes MD5
1.3.2.2. IDs auto incrementais
1.3.3. As transformações de conciliação
1.3.4. Demonstração
1.3.4.1. TR-D-TEMPO
1.3.4.2. TR-D-SERVIDOR
1.3.4.3. TR-D-ORGAO-EXTERNO
1.3.4.4. TR-D-TIPO-SERVIDOR
1.4. Geração das tabelas de fatos
1.4.1. Demonstração: JB-GERA-F-SITUACAO-FUNCIONAL
1.5. Comentários e tira dúvidas
Dia 3 (aula presencial)
1. Atividade prática em laboratório: aplicação da proposta do CEFET-MG a um conjunto de
transformações do projeto Gestão de Pessoas
1.1. geração de uma tabela de dimensão do tipo 2
1.2. geração de uma tabela de dimensão do tipo 1
1.3. geração de uma tabela de stage
1.4. geração de uma tabela de fatos.
Inscrições
Período de inscrições: 16/03/2026 08h00 até 27/03/2026 23h55
Divulgação da lista de selecionados:
Dia 31/03/2026, na página da Escola Judicial e por e-mail encaminhado aos inscritos.
Certificação
Sim, via SISEJUD, pelo aluno aprovado. A lista para fins de AQ será remetida para SUBAQ pela Escola Judicial.