Skip to content

"Quem nunca ouviu uma área de negócio reclamar que precisa analisar alguma informação importante, mas que a devs/areas de desenvolvimento estão demorando muito pra entregar. Hoje, em uma conversa, disseram TCU."

  • Falta dos responsáveis pelos dados: Quem são os responsáveis pelos dados?
  • Problemas de Qualidade dos dados: O time de infraestrutura é responsável pela qualidade, mas não conhece os dados tão bem, pois não estão intimamente ligados com o time de negócio.
  • Escalabilidade Organizacional: O time centralizado de ETL se torna o gargalo na democratização dos dados na empresa.
Característica Data Warehouse Data Lake Data Mesh
Tipo de Dados Dados estruturados Dados estruturados e não estruturados Dados distribuídos, por domínio
Processamento ETL (Extração, Transformação e Carga antes do armazenamento) ELT (Extração, Carga e Transformação após o armazenamento) Processamento descentralizado por cada domínio
Objetivo Principal Análises de Business Intelligence (BI) e relatórios Armazenamento de grandes volumes de dados brutos para análise posterior Escalabilidade e autonomia na gestão de dados por domínio
Exemplo de Uso Relatórios financeiros, dashboards e KPIs Análises de dados não estruturados, machine learning, logs Grandes organizações com múltiplos departamentos e sistemas distribuídos
Escalabilidade Limitada, pois depende de uma estrutura centralizada Alta, permite armazenamento de dados em grande escala Muito alta, cada domínio pode escalar independentemente
Governança Centralizada, controlada por uma equipe de TI Menos rigorosa, exige boas práticas de governança Descentralizada, cada domínio gerencia seus próprios dados
Vantagens Consultas rápidas, alta performance para BI Flexibilidade no armazenamento de dados e baixo custo Autonomia, escalabilidade e alinhamento com as necessidades de negócios
Desvantagens Rigidez na estrutura de dados, dificuldades com dados não estruturados Governança e consultas podem ser mais difíceis de gerenciar Complexidade de gestão e padronização entre os domínios
Tecnologias Comuns Google BigQuery, Amazon Redshift, Snowflake, Microsoft SQL Server Hadoop, Apache Spark, AWS S3, Azure Data Lake, Google Cloud Storage Arquitetura distribuída, com ferramentas como Kubernetes, Kafka, etc.

Data Lake

  • Transient/Staging: Camada onde os dados são recebidos e armazenados em seu formato original.
  • Bronze/Raw: Camada onde os dados são transformados para um formato padronizado e carregados no data lake.
  • Silver/Trusted: Camada onde os dados são limpos, corrigidos e enriquecidos com metadados.
  • Gold/Refined: Camada onde os dados são preparados para análise e visualização.
  • Sandbox: Camada onde os dados são usados para desenvolvimento, testes e experimentação.

Existem três grupos principais em um ecossistema de dados moderno:

  • Produtores de dados: Os especialistas de domínio que possuem os sistemas ou fontes de dados recebidos (pedidos, faturas, inventário e assim por diante).
  • Construtores de Plataforma de Dados: Um segmento da equipe de TI com diversas habilidades de dados, dependendo da maturidade da empresa.
  • Consumidores de Dados: Analistas e operadores que usam dados para otimizar os negócios, tomar decisões e definir estratégias.

Data Mesh (Zhamak Dehghani)

O gerenciamento é conduzido no nível da unidade, onde os indivíduos mais familiarizados com os dados em suas respectivas áreas determinam os métodos de processamento ideais. Sua proximidade com os dados e familiaridade com os requisitos permitem que eles garantam sua qualidade.

Responsabilidade das unidades individuais que produzem os dados.

Capacitar equipes de domínio para assumir a responsabilidade por seus próprios produtos de dados e garantir que os princípios de governança, como qualidade e segurança de dados, sejam respeitados.

A organização precisa dar suporte a uma mudança cultural em que as equipes de domínio sejam capacitadas para assumir a propriedade de seus pipelines de dados e entregar dados como um produto.

Uma infraestrutura robusta de ferramentas de dados de autoatendimento é essencial, permitindo que as unidades de negócios consumam, analisem e obtenham insights de dados de forma independente.

O Data Mesh oferece um novo paradigma para cumprir o valor prometido dos dados. Ela rejeita padrões de longa data arquiteturas de dados centralizadas, como o `data lake` e o `data warehouse` e seus associados equipes centralizadas. Em vez disso, ele descentraliza tanto a propriedade dos dados quanto os dados em si, transferindo-os para os domínios funcionais que criam e usam dados para administrar seus negócios.

Seus quatro pilares:

  • Propriedade de domínio: Uma equipe de domínio está próxima dos principais processos de negócios, conhece os dados que o domínio produz e as análises que seus stakeholders precisam para resolver problemas e capitalizar oportunidades.
  • Dados como um produto: Os produtos de dados consistem em mais do que apenas dados. Eles incluem código para coletar e transformar dados e habilitar acesso gerenciado por meio de APIs. Eles incluem metadados que descrevem o produto, como esquema, semântica e métricas de qualidade.
  • Plataforma de dados self-service: As equipes de domínio precisam de uma plataforma de autoatendimento para entregar e gerenciar dados produtos. Eles precisam provisionar infraestrutura de armazenamento e computação, construir, implantar e gerenciar versões de produtos de dados, limpar e transformar dados, fornecer acesso seguro a dados e cumprir políticas e regulamentações.
  • Governança computacional Federada: Órgão federado composto por representantes de equipes de domínio e aqueles com responsabilidades globais de dados, como conformidade regulatória e gerenciamento de qualidade. Preocupações comuns, como o que constitui qualidade,classificações de dados e como lidar com diferentes níveis de sensibilidade, modelagem de dados que abrangem domínios e padrões para metadados de produtos de dados.

A malha de dados (Data Mesh) aborda essas dimensões, fundadas em quatro princípios:

  • Arquitetura de dados descentralizada orientada ao domínio:
    • Os diferentes domínios de negócios (produtores de dados) são responsáveis ​​por curar, validar, publicar, manter e gerenciar o ciclo de vida dos dados que possuem.
    • Data lakes que são gerenciados centralmente pela TI;
  • Dados disponibilizados como produto:
    • Em um data lake típico, o data lake e os pipelines de dados são o produto. Em uma malha de dados, os dados e o domínio e a expertise do produtor que reúne e publica os dados são o produto.
    • Cada domínio deve ter um proprietário do produto de dados, responsável por garantir que os dados sejam entregues como um produto.
    • Qualidade de dados, menor tempo de espera de consumo de dados e, em geral, satisfação do usuário de dados.
    • Quem são os usuários dos dados;
  • Infraestrutura para disponibilizar os dados como self-service: (Plataforma de dados self-service)
  • armazenamento de dados escalável;
  • esquema de produtos de dados;
  • construção e orquestração de pipeline de dados;
  • linhagem de dados;
  • Controle de acesso granular e escalável
    • Os produtores especificam políticas de acesso, governança e retenção e quaisquer políticas de acesso personalizadas com base na granularidade dos dados.
    • Interoperabilidade por meio de padronização global,
    • Topologia dinâmica;

Quais ferramentas:

Por onde começar?

  • Mapeie os domínios da sua organização;
  • Avalie os impulsionadores do negócio e comece pequeno (Agencias do Banco do Brasil e Terceiros);
  • Defina padrões de produtos de dados;
  • Atribuir proprietários de produtos de dados;
  • Crie a plataforma de dados de autoatendimento;

Definida onde queremos

  • Defina uma estratégia de dados;
    • Qual é a natureza dos dados? - [x] Diferenciar informações sensíveis (como dados de clientes ou funcionários) de informações não sensíveis (como informações de produtos).
    • Quando os dados foram criados ou alterados?
    • Quem realizou operações nos dados?
    • Por que esses dados estão sendo armazenados? (Dados pessoais devem ser armazenados apenas para um propósito comercial legítimo.)
    • Quanto tempo esses dados estão sendo armazenados?
    • Como esses dados estão sendo usados? - [x] Descrever todos os aplicativos que têm dependência desses dados.
  • Desenvolver um modelo de governança;
  • Avalie a maturidade do Agile e do DevOps;
  • Plataformas de design e padrões técnicos.

Gerenciamento de Dados

É uma estratégia usada por organizações para tornar os dados seguros, eficientes e disponíveis para quaisquer propósitos comerciais relevantes.

Gerenciamento de dados se refere tanto a processos quanto a tecnologia. Processos são geralmente definidos pela estrutura de governança de dados da organização, e cada um desses processos é implementado com as ferramentas de software relevantes.

Estratégia de Gerenciamento de Dados

Definição

  • Resumo da estratégia corporativa e de negócios;
  • Níveis de maturidade atuais e desejados da análise de dados;
  • Visão, missão e valores da análise de dados;
  • Objetivos estratégicos e KPIs para atingir nossa visão;
  • Equipe e orçamento;
  • Princípios orientadores.

Maturidade

  • Gerenciamento e infraestrutura de dados;
    • Qual/is as fontes e aquisição de dados?
    • Como avalio a qualidade e limpeza de dados?
    • Como são as soluções de armazenamento e processamento de dados?
    • Como faço a Integração, Transformação e Disponibilização?
    • Como faço a escalabilidade e desempenho da infraestrutura de dados?
    • Quais são as Tecnologias em gestão e infraestrutura de dados?
    • Como posso avaliar se a implementações foi/esta bem-sucedida?
  • Governança e conformidade de dados
    • Como a governança de dados permite que uma organização se torne orientada por dados?
    • Como DIVIDIR, os dados e dividir a responsabilidade da governação de dados?
    • Como tratar a questão da privacidade e segurança de dados?
    • Como gerir a conformidade de dados?
    • Como estabelecer a definição de ética de dados e seu uso responsável?
    • Como implementar a governança e conformidade de dados?
  • Ferramentas e técnicas de análise;
    • Como padronizar e estabelecer o uso de ferramentas e técnicas de visualização de dados?
    • Como padronizar e estabelecer o uso de modelos e técnicas de análise estatística?
    • Como padronizar e estabelecer o uso de Ferramentas e técnicas de Machine learning?
    • Como padronizar e estabelecer o uso de Ferramentas e técnicas de big data?
    • Como padronizar e estabelecer o uso de Ferramentas e técnicas de preparação de dados?
    • Como padronizar e estabelecer o uso de Matriz de seleção de ferramentas analíticas?
  • Organização orientada a dados
    • Como posso afirmar, que a organização ESTÁ orientada À dados?
    • Como posso construindo uma cultura baseada em dados na organização?
    • Como podemos criar uma infraestrutura de dados fácil de usar, consumir e distribuir?
    • Como podemos fomentar a experimentação e a inovação, com os Dados?
Dimensão Emergente - Nível 1 Pré-Adoção Nível 2 Areas - Nível 3 Corporativa- (Nível 4) Maduro - (Nível 5)
Governança e conformidade de dados
Gerenciamento e infraestrutura de dados
Ferramentas e técnicas de análise
Organização orientada a dados

Estratégia de Dados

Estratégia Entenda
Ingestão Os dados devem ser adquiridos de fontes confiáveis, como bancos de dados de produção ou terceiros confiáveis.
Data Lineage Linhagem de dados é o nome de um tipo específico de metadados que contém o histórico completo de seu assunto. Metadados de linhagem descrevem a origem dos dados aos quais se referem e fornecem detalhes de quaisquer operações desde o início. A linhagem de dados funciona como um tipo de changelog para esses dados, registrando cada operação que ocorreu.
Acesso Supervisionar a criação de funções de usuário e garantir que cada usuário receba acesso de leitura e gravação apropriados.
Integração Processo de pegar dados de várias fontes diferentes e agrupá-los em um único local. Processos: ETL, ELT, ETLT.
Validação : verificar a precisão dos dados comparando-os a um esquema.
Consolidação : centralizar o armazenamento de dados para melhorar a eficiência ou armazenar big data de forma mais econômica.
Habilitação de processo: novo processo que só é possível com uma fonte de dados integrada.
Gerenciamento de dados mestres (MDM) : técnicas de integração para produzir dados mestres.
Análise e inteligência empresarial (BI) : fonte de dados unificada para fins de análise, bem como outras aplicações de BI.
Metadados Reunir e indexar metadados relevantes, e que esses metadados estejam disponíveis quando necessário.
Conformidade Gerenciamento de dados deve refletir todos os requisitos regulatórios e garantir que a organização permaneça no lado certo da lei. (LGPD (Regulamento Geral de Proteção de Dados), PCI DSS (Padrão de Segurança de Dados do Setor de Cartões de Pagamento), HIPAA (Portabilidade e Responsabilidade de Seguro Saúde)) e SOX (Sarbanes-Oxley)
Análise análises para impulsionar suas tomadas de decisão. uporte aos esforços do tempo de análise e garantir que os dados disponíveis sejam oportunos, relevantes e completos.
Segurança Gerente de dados é responsável por trazer problemas de segurança à tona e também por organizar auditorias e testes regulares.
Arquivamento Recomendará soluções preferenciais para que a organização tenha uma abordagem unificada para armazenamento de dados de longo prazo.
Eficiência Revisar regularmente sua estratégia de gerenciamento de dados para perguntar se a abordagem atual é econômica e sustentável.
Escala gerenciamento de dados deve planejar escalar facilmente quando necessário.(ex."IoT,Logs)

BuzzWord - Organizacional e Estratégia de IA

  • Resumo da estratégia corporativa e de negócios
  • Fundamentos da IA
  • Níveis de maturidade atuais e DESEJADOS da IA
  • Visão, missão e valores da IA
  • Objetivos estratégicos e KPIs para atingir nossa visão
  • Princípios orientadores
  • Centro de dados de IA
  • Machine Learning/Deep Learning
  • NLP(Natural Language Processing) & Prompt Engineering
  • Equipe e Orçamento

Delivery e Responsibility

  • Estratégia de gerenciamento de mudanças
  • Planos de gerenciamento de mudanças
  • Avaliação pós-programa/projetos mudanças e como reuno(PDCA) lições aprendidas
  • Análise dos stakeholders
  • Estratégia de engajamento dos stakeholders
  • Plano detalhado de engajamento dos stakeholders
flowchart LR
    A(Meus Dados</br>são...) -->|Dados| B{Regulamentados}
    B --> |Sim| C(PCI DSS) & D(LGPD) & E(HIPAA) & F(SOX)
    B --> |Não| G{Retível?}
    G --> H{Necessita</br>Criptografia?}
    H --> |Sim| H0(Criptografa) 
    H --> H1(Tag de</br>Retenção)
    H0 --> H1 --> RETER[(Retenção)]
    C --> H0 --> ARQUIVA[(Arquiva)]
    D --> H0 
    E --> H0
    F --> H0

Data Mesh vs. Data Fabric

  • Data Fabric é uma solução centralizada e orientada por tecnologia, que visa criar uma plataforma unificada para gerenciar e acessar dados onde quer que eles residam.
  • Data Mesh, por outro lado, descentraliza os dados e sua propriedade. Em um data mesh, equipes individuais ou unidades de negócios são responsáveis ​​por seus próprios dados e são encarregadas de criar "produtos de dados", para seu próprio consumo e presumivelmente o consumo de outros na organização.

Linhagem de Dados

Dados Abertos

Conceitos

Fundamentais

  • Modularidade: Deve ser construída com componentes independentes que se integram facilmente, promovendo flexibilidade e escalabilidade.
  • Data as a Product: Cada conjunto de dados é tratado como um produto, com “donos” responsáveis, SLAs definidos e interfaces claras para consumo.
  • Interoperabilidade: Capaz de suportar diferentes tecnologias e padrão para facilitar integração.
  • Replicabilidade: Processos como ingestão de dados, transformação e monitoramento devem ser automatizados para reduzir erros e aumentar a eficiência.
  • Segurança e Governança: Proteção de dados, rastreabilidade e conformidade regulatória são fundamentais e não podem ficar de fora.

Componentes Importantes

  • Sources: Pontos de origem dos dados, como bancos de dados transacionais, APIs, logs.
  • Ingestion: Ferramentas para capturar e transferir dados de fontes para ambiente de armazenamento.
  • Storage: Foco em armazenamento de dados em formatos brutos e também estruturado e otimizado para análises.
  • Processing: Processamento em lote (batch) e em tempo real (streaming).
  • Transformation (ETL/ELT): Preparação e transformação e limpeza dos dados usando pipelines.
  • Governance & Metadata Management: Controle de qualidade, catálogo de dados e gerenciamento de metadados.
  • Orchestration: Coordenação de workflows de dados.
  • Consumption: Interfaces e ferramentas para acessar dados em dashboards.
  • Monitoring & Observability: Rastreamento de desempenho, latência e falhas.
  • Security & Compliance: Criptografia, autenticação (IAM) e controle de acessos.