case serasa Implantação do Ambiente DEVHUB com AWS EKS
Implantação do Ambiente DEVHUB com AWS EKS
julho 16, 2024
case serasa Implantação do Ambiente DEVHUB com AWS EKS
Implantação do Ambiente DEVHUB com AWS EKS
julho 16, 2024

Desafio: Criar um ambiente de experimentação de dados para a área de consentimento, permitindo a ingestão, processamento e análise de grandes volumes de dados em tempo real, garantindo alta disponibilidade e flexibilidade na criação de insights gerenciais.

Objetivos do Projeto

  1. Criar um pipeline de dados utilizando AWS Kinesis Data Streams e Kinesis Firehose.
  2. Converter e armazenar dados em um bucket S3 no formato Parquet.
  3. Gerenciar metadados utilizando AWS Glue.
  4. Realizar consultas e associações de dados com AWS Athena e Amazon EMR.
  5. Criar dashboards gerenciais com informações processadas.

Soluções Implementadas

1. Pipeline de Dados com Kinesis Data Streams e Kinesis Firehose:

  • Descrição: Utilizamos AWS Kinesis Data Streams para coletar e processar dados em tempo real. Os dados foram ingeridos de diversas fontes e enviados para Kinesis Firehose, que realiza a conversão e entrega dos dados em um bucket S3 no formato Parquet.
  • Benefícios: Processamento em tempo real, escalabilidade automática e simplificação na ingestão e transformação de dados.

2. Armazenamento de Dados em S3:

  • Descrição: Os dados processados pelo Kinesis Firehose foram armazenados em um bucket S3 no formato Parquet, que é eficiente em termos de armazenamento e otimizado para consultas analíticas.
  • Benefícios: Redução de custos de armazenamento, melhor desempenho de consultas e suporte a grandes volumes de dados.

3. Gerenciamento de Metadados com AWS Glue:

  • Descrição: Criamos um catálogo de dados utilizando AWS Glue para armazenar os metadados das conversões realizadas. O Glue facilita a descoberta e organização dos dados, permitindo a criação de tabelas e esquemas que podem ser consultados com facilidade.
  • Benefícios: Simplificação do gerenciamento de metadados, integração automática com outros serviços AWS e suporte a ETL (extração, transformação e carga) de dados.

4. Consultas e Análises com AWS Athena e Amazon EMR:

  • Descrição: Utilizamos AWS Athena para realizar consultas SQL diretamente nos dados armazenados no S3, e Amazon EMR para processar e associar esses dados com outras bases. O EMR permitiu o uso de frameworks como Apache Spark e Hadoop para análises complexas e processamento em larga escala.
  • Benefícios: Consulta ad-hoc rápida e eficiente com Athena, processamento de big data com EMR e integração fluida entre os serviços.

5. Criação de Dashboards Gerenciais:

  • Descrição: Com os dados processados e analisados, criamos dashboards gerenciais utilizando ferramentas de visualização como Amazon QuickSight. Esses dashboards proporcionam insights valiosos e facilitam a tomada de decisões informadas pela equipe.
  • Benefícios: Visualização clara e interativa dos dados, geração de insights em tempo real e suporte a decisões estratégicas.

Resultados Obtidos

  • Pipeline de Dados Robusto: Implementação de um pipeline de dados eficiente e escalável, capaz de processar grandes volumes de dados em tempo real.
  • Armazenamento Otimizado: Uso do formato Parquet para armazenamento econômico e performático dos dados.
  • Metadados Organizados: Gerenciamento eficaz de metadados com AWS Glue, facilitando a organização e descoberta dos dados.
  • Consultas e Análises Eficientes: Realização de consultas rápidas e análises complexas utilizando Athena e EMR.
  • Dashboards Gerenciais: Criação de dashboards que proporcionam insights valiosos e suporte à tomada de decisões.

Conclusão

Este projeto demonstra a capacidade da SOLUTIS TECNOLOGIAS em criar soluções avançadas de processamento e análise de dados utilizando serviços AWS. A equipe NIKE – SERASA agora possui um ambiente de experimentação de dados robusto e escalável, preparado para enfrentar desafios complexos e fornecer insights valiosos para a organização.