Neste post vamos tratar de um assunto muitas vezes negligenciado. Porém, durante a implementação de projetos de dados, podemos ter grandes dores de cabeça se não tivermos um Catálogo de Dados, dificultando muito o processo de discovery (descoberta/procura) dos dados.
Vamos entender a importância, os benefícios e formas de mantermos um Catálogo de Dados adequado, com seus importantes metadados.
Mas, o que são Metadados?
São dados estruturados que descrevem, identificam, explicam e localizam a origem de nossos dados. São basicamente, “dados sobre os dados”.
Para ficar mais claro o que traremos neste post, vamos utilizar como exemplo um banco de dados.
Imagine que onde você trabalha há diversos bancos de dados. Precisamos construir um modelo preditivo e análises sobre alguns estudantes. Mas como saber em qual tabela buscar? Que tipo de informação tem na tabela info_estudante
, por exemplo? Ou o que significa cada coluna presente dentro dessa tabela?
E isso se aplica a qualquer tipo de dado armazenado. Supondo que temos dados não estruturados no nosso Data Lake. Trabalhamos com Visão Computacional e precisamos treinar uma rede neural sobre nossos vídeos. Do que se trata exatamente cada vídeo no nosso Data Lake? Qual o conteúdo, sua categoria, a qual departamento pertence? Quem é o autor deste vídeo?
Fonte: What is metadata
Todas as informações sobre os dados armazenados são o que chamamos de metadados. São descrições detalhadas e estruturadas sobre tudo o que temos armazenado.
E um Catálogo de Dados?
O Catálogo de Dados, vem para organizar nossos metadados. Teremos assim um sistema, com uma interface amigável, que vai nos permitir gerenciar os metadados. Poderemos consultar, atualizar e inserir novas informações sobre os dados que possuímos.
Com a definição abaixo que retiramos do site da Oracle podemos entender um pouco melhor.
O que é um catálogo de dados e por que você precisa de um?
Simplificando, um catálogo de dados é um inventário organizado de ativos de dados na organização. Ele usa metadados para ajudar as organizações a gerenciarem seus dados. Também ajuda os profissionais de dados a coletar, organizar, acessar e enriquecer metadados para oferecer suporte à descoberta e governança de dados.
Fonte: https://www.oracle.com/big-data/data-catalog/what-is-a-data-catalog/
Ótimo! Mas que tipo de ativos seriam esses?
Os ativos serão todos os dados que geram valor para a sua empresa, como dados estruturados e não estruturados, relatórios, resultados de consultas, bancos de dados e outros. Os exemplos de ativos são ilimitados e vão depender do seu modelo de negócio.
Quais benefícios de se ter um Catálogo de Dados?
Fonte: what-is-a-data-catalog-importance-features-benefits
A democratização dos dados começa quando qualquer pessoa autorizada na organização tem acesso aos dados sem depender de terceiros. Quando profissionais conseguem acesso ao que precisam de forma rápida e assertiva para gerar valor, toda a organização se beneficia.
Podemos, com um bom catálogo, encontrar descrições detalhadas dos dados, incluir comentários e entender melhor como os dados são relevantes para os negócios.
Outra vantagem é a facilidade de se aplicar regras de governança. Sabendo previamente do que se trata cada ativo, podemos aplicar diferentes regras para diferentes grupos de dados. Por exemplo, o RH deve precisar de acesso a todas as informações pessoais da sua empresa, incluindo salários dos funcionários. Em contrapartida, o operacional pode precisar de apenas algumas dessas informações, sobre funções no processo, mas sem as informações sensíveis.
Um catálogo que classifique o que é e o que não é informação sensível ajuda a resolver esse tipo de problema. Podemos ter grupos de dados que são acessíveis livremente a um grupo de pessoas, porém que são fornecidos de forma mascarada para outro grupo de pessoas. Ou até mesmo, muitos dados devem ser inacessíveis para certas pessoas. Saber do que se trata cada tabela e cada objeto é de suma importância para isso.
Mitigamos e prevenimos inclusive problemas com a LGPD. Ninguém quer ter problemas judiciais por conta de má gestão dos dados.
Ter um Catálogo de Dados ajuda a reduzir o risco de acabar consumindo alguma fonte errada e melhora a confiança de quem está trabalhando com dados. Unido à Governança de Dados, você vai acessar apenas ao que está autorizado a usar para uma determinada finalidade. Estaremos sempre conforme os regulamentos do setor e tendo cuidado com as leis de privacidade de dados.
Casos de uso
Abaixo trouxemos alguns casos de uso e definições para lembrar novamente o quão importante é ter um Catálogo de Dados na sua empresa.
Fonte: https://www.dataversity.net/what-is-a-data-catalog/#
- “Solução projetada para usuários de negócios para resolver problemas centrados em dados que mantêm decisões, processos de negócios e resultados como reféns.” ( TechRepublic )
- “Uma plataforma para compartilhar e descobrir conjuntos de dados difíceis de encontrar, mantendo o controle final sobre os dados nas mãos dos pesquisadores.” (Health Sciences Library System, ( Universidade de Pittsburgh )
- “Uma coleção online pesquisável e navegável de conjuntos de dados.” ( NYU Health Sciences Library )
Opções disponíveis no mercado
Apesar de o tema ser relativamente novo, temos opções disponíveis no mercado. Na sua grande maioria, temos as funções de uso bem similares.
Abaixo estão dois provedores de nuvem que oferecem o serviço de Catálogo de Dados e suas funções e definições, de acordo com os fornecedores.
O IBM Watson Knowledge Catalog é um catálogo de dados aberto e inteligente para dados corporativos e governança, qualidade e colaboração de modelos de IA. Ele ajuda os cidadãos de dados a descobrir, selecionar, categorizar e compartilhar ativos de dados, conjuntos de dados, modelos analíticos e seus relacionamentos com outros membros de sua organização.
Fonte: https://www.ibm.com/cloud/watson-knowledge-catalog
O Catálogo de Dados do Azure é um catálogo de metadados para toda a empresa que simplifica a descoberta de ativos de dados. É um serviço totalmente gerenciado que permite — de analista a cientista de dados a desenvolvedor de dados — registrar, enriquecer, descobrir, entender e consumir fontes de dados.
Fonte: https://azure.microsoft.com/en-us/products/data-catalog
Conclusão
Bem, fazendo um breve resumo do que conseguimos entender até aqui, vemos que o Catálogo de Dados tem a função de coletar, pesquisar, explorar, gerenciar, enriquecer, obter uma visão macro dos dados, auxiliar em questões de quem pode acessar o que.
Com isto, entendemos que ter um Catálogo de Dados faz muito sentido dentro da sua empresa e que não tê-lo acaba se tornando uma desvantagem muito grande. Trabalhos de descoberta, migrações de sistema e outros processos que envolvem a identificação de dados, acabam se tornando bastante trabalhosos.
Afinal, um bom catálogo permite que os engenheiros de dados, analistas e cientistas invistam mais tempo fazendo suas atividades de fato, ao invés de serem menos produtivos tentando identificar de onde devem consumir suas fontes para somente depois iniciarem os trabalhos de verdade.
Até a próxima
Esperamos que tenham gostado bastante deste artigo e com toda certeza queremos que volte para ler mais sobre esta série de postagens, que achamos que está ficando muito legal.
Caso tenha ficado alguma dúvida ou queiram rever algum tema anterior, abaixo deixo nossas últimas postagens:
Engenharia de Dados: uma abordagem menos técnica
Pipelines e o Processo de Engenharia de Dados
Data Warehouse x Data Lake x Data Lakehouse
Espero ter despertado a sua curiosidade e conto com seu comentário para saber a sua opinião e que dúvidas ou sugestões que teria sobre os temas que vimos aqui. E se estiver gostando da nossa comunidade, conheça um pouco mais sobre nós e nossos objetivos de fortalecer a comunidade brasileira de dados no post BRAINS – Brazilian AI Networks.
#NoBrains #NoGains