"Quem nunca ouviu uma área de negócio reclamar que precisa analisar alguma informação importante, mas que a devs/areas de desenvolvimento estão demorando muito pra entregar. Hoje, em uma conversa, disseram TCU."
- Falta dos responsáveis pelos dados: Quem são os responsáveis pelos dados?
- Problemas de Qualidade dos dados: O time de infraestrutura é responsável pela qualidade, mas não conhece os dados tão bem, pois não estão intimamente ligados com o time de negócio.
- Escalabilidade Organizacional: O time centralizado de ETL se torna o gargalo na democratização dos dados na empresa.
Característica | Data Warehouse | Data Lake | Data Mesh |
---|---|---|---|
Tipo de Dados | Dados estruturados | Dados estruturados e não estruturados | Dados distribuídos, por domínio |
Processamento | ETL (Extração, Transformação e Carga antes do armazenamento) | ELT (Extração, Carga e Transformação após o armazenamento) | Processamento descentralizado por cada domínio |
Objetivo Principal | Análises de Business Intelligence (BI) e relatórios | Armazenamento de grandes volumes de dados brutos para análise posterior | Escalabilidade e autonomia na gestão de dados por domínio |
Exemplo de Uso | Relatórios financeiros, dashboards e KPIs | Análises de dados não estruturados, machine learning, logs | Grandes organizações com múltiplos departamentos e sistemas distribuídos |
Escalabilidade | Limitada, pois depende de uma estrutura centralizada | Alta, permite armazenamento de dados em grande escala | Muito alta, cada domínio pode escalar independentemente |
Governança | Centralizada, controlada por uma equipe de TI | Menos rigorosa, exige boas práticas de governança | Descentralizada, cada domínio gerencia seus próprios dados |
Vantagens | Consultas rápidas, alta performance para BI | Flexibilidade no armazenamento de dados e baixo custo | Autonomia, escalabilidade e alinhamento com as necessidades de negócios |
Desvantagens | Rigidez na estrutura de dados, dificuldades com dados não estruturados | Governança e consultas podem ser mais difíceis de gerenciar | Complexidade de gestão e padronização entre os domínios |
Tecnologias Comuns | Google BigQuery, Amazon Redshift, Snowflake, Microsoft SQL Server | Hadoop, Apache Spark, AWS S3, Azure Data Lake, Google Cloud Storage | Arquitetura distribuída, com ferramentas como Kubernetes, Kafka, etc. |
Data Lake¶
- Transient/Staging: Camada onde os dados são recebidos e armazenados em seu formato original.
- Bronze/Raw: Camada onde os dados são transformados para um formato padronizado e carregados no data lake.
- Silver/Trusted: Camada onde os dados são limpos, corrigidos e enriquecidos com metadados.
- Gold/Refined: Camada onde os dados são preparados para análise e visualização.
- Sandbox: Camada onde os dados são usados para desenvolvimento, testes e experimentação.
Existem três grupos principais em um ecossistema de dados moderno:¶
- Produtores de dados: Os especialistas de domínio que possuem os sistemas ou fontes de dados recebidos (pedidos, faturas, inventário e assim por diante).
- Construtores de Plataforma de Dados: Um segmento da equipe de TI com diversas habilidades de dados, dependendo da maturidade da empresa.
- Consumidores de Dados: Analistas e operadores que usam dados para otimizar os negócios, tomar decisões e definir estratégias.
Data Mesh (Zhamak Dehghani)¶
O gerenciamento é conduzido no nível da unidade, onde os indivíduos mais familiarizados com os dados em suas respectivas áreas determinam os métodos de processamento ideais. Sua proximidade com os dados e familiaridade com os requisitos permitem que eles garantam sua qualidade.
Responsabilidade das unidades individuais que produzem os dados.
Capacitar equipes de domínio para assumir a responsabilidade por seus próprios produtos de dados e garantir que os princípios de governança, como qualidade e segurança de dados, sejam respeitados.
A organização precisa dar suporte a uma mudança cultural em que as equipes de domínio sejam capacitadas para assumir a propriedade de seus pipelines de dados e entregar dados como um produto.
Uma infraestrutura robusta de ferramentas de dados de autoatendimento é essencial, permitindo que as unidades de negócios consumam, analisem e obtenham insights de dados de forma independente.
O Data Mesh oferece um novo paradigma para cumprir o valor prometido dos dados. Ela rejeita padrões de longa data arquiteturas de dados centralizadas, como o `data lake` e o `data warehouse` e seus associados equipes centralizadas. Em vez disso, ele descentraliza tanto a propriedade dos dados quanto os dados em si, transferindo-os para os domínios funcionais que criam e usam dados para administrar seus negócios.
Seus quatro pilares:
- Propriedade de domínio: Uma equipe de domínio está próxima dos principais processos de negócios, conhece os dados que o domínio produz e as análises que seus stakeholders precisam para resolver problemas e capitalizar oportunidades.
- Dados como um produto: Os produtos de dados consistem em mais do que apenas dados. Eles incluem código para coletar e transformar dados e habilitar acesso gerenciado por meio de APIs. Eles incluem metadados que descrevem o produto, como esquema, semântica e métricas de qualidade.
- Plataforma de dados self-service: As equipes de domínio precisam de uma plataforma de autoatendimento para entregar e gerenciar dados produtos. Eles precisam provisionar infraestrutura de armazenamento e computação, construir, implantar e gerenciar versões de produtos de dados, limpar e transformar dados, fornecer acesso seguro a dados e cumprir políticas e regulamentações.
- Governança computacional Federada: Órgão federado composto por representantes de equipes de domínio e aqueles com responsabilidades globais de dados, como conformidade regulatória e gerenciamento de qualidade. Preocupações comuns, como o que constitui qualidade,classificações de dados e como lidar com diferentes níveis de sensibilidade, modelagem de dados que abrangem domínios e padrões para metadados de produtos de dados.
A malha de dados (Data Mesh) aborda essas dimensões, fundadas em quatro princípios:
- Arquitetura de dados descentralizada orientada ao domínio:
- Os diferentes domínios de negócios (produtores de dados) são responsáveis por curar, validar, publicar, manter e gerenciar o ciclo de vida dos dados que possuem.
- Data lakes que são gerenciados centralmente pela TI;
- Dados disponibilizados como produto:
- Em um data lake típico, o data lake e os pipelines de dados são o produto. Em uma malha de dados, os dados e o domínio e a expertise do produtor que reúne e publica os dados são o produto.
- Cada domínio deve ter um proprietário do produto de dados, responsável por garantir que os dados sejam entregues como um produto.
- Qualidade de dados, menor tempo de espera de consumo de dados e, em geral, satisfação do usuário de dados.
- Quem são os usuários dos dados;
- Infraestrutura para disponibilizar os dados como self-service: (Plataforma de dados self-service)
- armazenamento de dados escalável;
- esquema de produtos de dados;
- construção e orquestração de pipeline de dados;
- linhagem de dados;
- Controle de acesso granular e escalável
- Os produtores especificam políticas de acesso, governança e retenção e quaisquer políticas de acesso personalizadas com base na granularidade dos dados.
- Interoperabilidade por meio de padronização global,
- Topologia dinâmica;
Quais ferramentas:¶
- Dataflow:
- Google Cloud Dataflow
- AWS Data Pipeline/AWS Glue/Amazon Kinesis Data Streams
- Azure Data Factory/Azure Stream Analytics
- Oracle Cloud Data Flow
- Snowflake Data Cloud
- Apache Kafka
- Apache Nifi
- Apache Airflow e porque não Rundeck.
- Data Catalog:
Por onde começar?¶
- Mapeie os domínios da sua organização;
- Avalie os impulsionadores do negócio e comece pequeno (Agencias do Banco do Brasil e Terceiros);
- Defina padrões de produtos de dados;
- Atribuir proprietários de produtos de dados;
- Crie a plataforma de dados de autoatendimento;
Definida onde queremos¶
- Defina uma estratégia de dados;
- Qual é a natureza dos dados? - [x] Diferenciar informações sensíveis (como dados de clientes ou funcionários) de informações não sensíveis (como informações de produtos).
- Quando os dados foram criados ou alterados?
- Quem realizou operações nos dados?
- Por que esses dados estão sendo armazenados? (Dados pessoais devem ser armazenados apenas para um propósito comercial legítimo.)
- Quanto tempo esses dados estão sendo armazenados?
- Como esses dados estão sendo usados? - [x] Descrever todos os aplicativos que têm dependência desses dados.
- Desenvolver um modelo de governança;
- Avalie a maturidade do Agile e do DevOps;
- Plataformas de design e padrões técnicos.
Gerenciamento de Dados¶
É uma estratégia usada por organizações para tornar os dados seguros, eficientes e disponíveis para quaisquer propósitos comerciais relevantes.
Gerenciamento de dados se refere tanto a processos quanto a tecnologia. Processos são geralmente definidos pela estrutura de governança de dados da organização, e cada um desses processos é implementado com as ferramentas de software relevantes.
Estratégia de Gerenciamento de Dados¶
Definição¶
- Resumo da estratégia corporativa e de negócios;
- Níveis de maturidade atuais e desejados da análise de dados;
- Visão, missão e valores da análise de dados;
- Objetivos estratégicos e KPIs para atingir nossa visão;
- Equipe e orçamento;
- Princípios orientadores.
Maturidade¶
- Gerenciamento e infraestrutura de dados;
- Qual/is as fontes e aquisição de dados?
- Como avalio a qualidade e limpeza de dados?
- Como são as soluções de armazenamento e processamento de dados?
- Como faço a Integração, Transformação e Disponibilização?
- Como faço a escalabilidade e desempenho da infraestrutura de dados?
- Quais são as Tecnologias em gestão e infraestrutura de dados?
- Como posso avaliar se a implementações foi/esta bem-sucedida?
- Governança e conformidade de dados
- Como a governança de dados permite que uma organização se torne orientada por dados?
- Como DIVIDIR, os dados e dividir a responsabilidade da governação de dados?
- Como tratar a questão da privacidade e segurança de dados?
- Como gerir a conformidade de dados?
- Como estabelecer a definição de ética de dados e seu uso responsável?
- Como implementar a governança e conformidade de dados?
- Ferramentas e técnicas de análise;
- Como padronizar e estabelecer o uso de ferramentas e técnicas de visualização de dados?
- Como padronizar e estabelecer o uso de modelos e técnicas de análise estatística?
- Como padronizar e estabelecer o uso de Ferramentas e técnicas de Machine learning?
- Como padronizar e estabelecer o uso de Ferramentas e técnicas de big data?
- Como padronizar e estabelecer o uso de Ferramentas e técnicas de preparação de dados?
- Como padronizar e estabelecer o uso de Matriz de seleção de ferramentas analíticas?
- Organização orientada a dados
- Como posso afirmar, que a organização ESTÁ orientada À dados?
- Como posso construindo uma cultura baseada em dados na organização?
- Como podemos criar uma infraestrutura de dados fácil de usar, consumir e distribuir?
- Como podemos fomentar a experimentação e a inovação, com os Dados?
Dimensão | Emergente - Nível 1 | Pré-Adoção Nível 2 | Areas - Nível 3 | Corporativa- (Nível 4) | Maduro - (Nível 5) |
---|---|---|---|---|---|
Governança e conformidade de dados | |||||
Gerenciamento e infraestrutura de dados | |||||
Ferramentas e técnicas de análise | |||||
Organização orientada a dados |
Estratégia de Dados¶
Estratégia | Entenda |
---|---|
Ingestão | Os dados devem ser adquiridos de fontes confiáveis, como bancos de dados de produção ou terceiros confiáveis. |
Data Lineage | Linhagem de dados é o nome de um tipo específico de metadados que contém o histórico completo de seu assunto. Metadados de linhagem descrevem a origem dos dados aos quais se referem e fornecem detalhes de quaisquer operações desde o início. A linhagem de dados funciona como um tipo de changelog para esses dados, registrando cada operação que ocorreu. |
Acesso | Supervisionar a criação de funções de usuário e garantir que cada usuário receba acesso de leitura e gravação apropriados. |
Integração | Processo de pegar dados de várias fontes diferentes e agrupá-los em um único local. Processos: ETL, ELT, ETLT. |
Validação : verificar a precisão dos dados comparando-os a um esquema. | |
Consolidação : centralizar o armazenamento de dados para melhorar a eficiência ou armazenar big data de forma mais econômica. | |
Habilitação de processo: novo processo que só é possível com uma fonte de dados integrada. | |
Gerenciamento de dados mestres (MDM) : técnicas de integração para produzir dados mestres. | |
Análise e inteligência empresarial (BI) : fonte de dados unificada para fins de análise, bem como outras aplicações de BI. | |
Metadados | Reunir e indexar metadados relevantes, e que esses metadados estejam disponíveis quando necessário. |
Conformidade | Gerenciamento de dados deve refletir todos os requisitos regulatórios e garantir que a organização permaneça no lado certo da lei. (LGPD (Regulamento Geral de Proteção de Dados), PCI DSS (Padrão de Segurança de Dados do Setor de Cartões de Pagamento), HIPAA (Portabilidade e Responsabilidade de Seguro Saúde)) e SOX (Sarbanes-Oxley) |
Análise | análises para impulsionar suas tomadas de decisão. uporte aos esforços do tempo de análise e garantir que os dados disponíveis sejam oportunos, relevantes e completos. |
Segurança | Gerente de dados é responsável por trazer problemas de segurança à tona e também por organizar auditorias e testes regulares. |
Arquivamento | Recomendará soluções preferenciais para que a organização tenha uma abordagem unificada para armazenamento de dados de longo prazo. |
Eficiência | Revisar regularmente sua estratégia de gerenciamento de dados para perguntar se a abordagem atual é econômica e sustentável. |
Escala | gerenciamento de dados deve planejar escalar facilmente quando necessário.(ex."IoT,Logs) |
BuzzWord - Organizacional e Estratégia de IA¶
- Resumo da estratégia corporativa e de negócios
- Fundamentos da IA
- Níveis de maturidade atuais e DESEJADOS da IA
- Visão, missão e valores da IA
- Objetivos estratégicos e KPIs para atingir nossa visão
- Princípios orientadores
- Centro de dados de IA
- Machine Learning/Deep Learning
- NLP(Natural Language Processing) & Prompt Engineering
- Equipe e Orçamento
Delivery e Responsibility¶
- Estratégia de gerenciamento de mudanças
- Planos de gerenciamento de mudanças
- Avaliação pós-programa/projetos mudanças e como reuno(PDCA) lições aprendidas
- Análise dos stakeholders
- Estratégia de engajamento dos stakeholders
- Plano detalhado de engajamento dos stakeholders
flowchart LR
A(Meus Dados</br>são...) -->|Dados| B{Regulamentados}
B --> |Sim| C(PCI DSS) & D(LGPD) & E(HIPAA) & F(SOX)
B --> |Não| G{Retível?}
G --> H{Necessita</br>Criptografia?}
H --> |Sim| H0(Criptografa)
H --> H1(Tag de</br>Retenção)
H0 --> H1 --> RETER[(Retenção)]
C --> H0 --> ARQUIVA[(Arquiva)]
D --> H0
E --> H0
F --> H0
Data Mesh vs. Data Fabric¶
- Data Fabric é uma solução centralizada e orientada por tecnologia, que visa criar uma plataforma unificada para gerenciar e acessar dados onde quer que eles residam.
- Data Mesh, por outro lado, descentraliza os dados e sua propriedade. Em um data mesh, equipes individuais ou unidades de negócios são responsáveis por seus próprios dados e são encarregadas de criar "produtos de dados", para seu próprio consumo e presumivelmente o consumo de outros na organização.
Dados Links¶
Linhagem de Dados¶
- SAS
- Informática
- Octopai Adquirida recentemente pela Cloudera
- Datahub
Dados Abertos¶
Conceitos¶
Fundamentais¶
- Modularidade: Deve ser construída com componentes independentes que se integram facilmente, promovendo flexibilidade e escalabilidade.
- Data as a Product: Cada conjunto de dados é tratado como um produto, com “donos” responsáveis, SLAs definidos e interfaces claras para consumo.
- Interoperabilidade: Capaz de suportar diferentes tecnologias e padrão para facilitar integração.
- Replicabilidade: Processos como ingestão de dados, transformação e monitoramento devem ser automatizados para reduzir erros e aumentar a eficiência.
- Segurança e Governança: Proteção de dados, rastreabilidade e conformidade regulatória são fundamentais e não podem ficar de fora.
Componentes Importantes¶
- Sources: Pontos de origem dos dados, como bancos de dados transacionais, APIs, logs.
- Ingestion: Ferramentas para capturar e transferir dados de fontes para ambiente de armazenamento.
- Storage: Foco em armazenamento de dados em formatos brutos e também estruturado e otimizado para análises.
- Processing: Processamento em lote (batch) e em tempo real (streaming).
- Transformation (ETL/ELT): Preparação e transformação e limpeza dos dados usando pipelines.
- Governance & Metadata Management: Controle de qualidade, catálogo de dados e gerenciamento de metadados.
- Orchestration: Coordenação de workflows de dados.
- Consumption: Interfaces e ferramentas para acessar dados em dashboards.
- Monitoring & Observability: Rastreamento de desempenho, latência e falhas.
- Security & Compliance: Criptografia, autenticação (IAM) e controle de acessos.