Data Lake, Metadados, Semântica e o Futuro dos Dados | PPT Não Compila Podcast
Convidados
Luís Rúdi
Gerente de Governança de Dados @ SulAmérica
Fábio Martinelli
Fundador @ ZüPY
Explore o episódio
🚀 Bem-vindos a mais um episódio do podcast PPT Não Compila! Neste episódio especial, mergulhamos profundamente no mundo dos dados com Luís Rúdi, gerente de governança de dados na SulAmérica, e nosso co-host Fábio Martinelli, fundador da ZüPY. Junte-se a nós enquanto desvendamos a evolução e as complexidades dos sistemas de armazenamento de dados modernos. 🌐💾 🔍 Exploramos desde os fundamentos dos Data Warehouses até as nuances de Data Lake e Data Lakehouses. Luís oferece insights valiosos sobre como as empresas podem aproveitar essas tecnologias para melhorar a tomada de decisão e gerenciar dados de forma mais eficiente. Discutimos também sobre ETL, dados estruturados, semi-estruturados e não estruturados, e a importância crítica dos metadados no mundo dos dados grandes. 📊📈 👨💻 Não perca este diálogo técnico, porém acessível, cheio de exemplos práticos e discussões sobre a aplicação real dessas tecnologias no dia a dia das empresas. Se você é um profissional de TI, analista de dados, ou simplesmente alguém fascinado pelo poder dos dados, este episódio é para você. Sintonize em nosso podcast e descubra como os dados estão moldando o futuro dos negócios! #DataScience #BigData #DataWarehouse #DataLake Convidados: Luís Rúdi: https://www.linkedin.com/in/luisrudi/ Fábio Martinelli: https://br.linkedin.com/in/fmartinelli 00:50 Abertura e apresentação 04:10 Data Warehouse 10:15 Popularização do ETL 14:00 Dados relacionais, estruturados, semi-estruturados e não estruturados 25:51 Metadados 27:55 Dado analítico e transicional 35:24 Semântica 43:26 Data Lakehouse 43:57 Transacional e Camadas Semânticas 59:24 Algoritmo e metadados 1:03:02 Big Data Virtual 1:08:30 Diferenças práticas do modelo físico e transacional 1:19:29 Agradecimentos e considerações finais Live Solidária (Podcast Elementar Show & Estúdios Voz): https://www.youtube.com/live/qXuUjOWkCbg?si=y2V6YKoIMvQopQOm Spotify: https://spoti.fi/3QGMIZh Youtube: https://youtu.be/VxUbqq3qbPU Outras plataformas: https://linktr.ee/pptnaocompila Acompanhe nas redes Instagram e Twitter: @pptnaocompila LinkedIn: https://www.linkedin.com/company/pptnaocompila Produção: Voz e conteúdo | https://www.vozeconteudo.com.br - @estudiosvoz
- Contexto Inicial de Sistemas de Dados
- Boas-vindas e Tema do Episódio
- Apresentação do Convidado
- Reforço do Tema e Interlúdio Musical
- Introdução aos Conceitos Fundamentais
- História e Definição do Data Warehouse
- Limitações do Data Warehouse Tradicional
- Introdução ao Data Lake
- Tipos de Dados: Estruturado, Semi-estruturado e Não-estruturado
- Classificação e Exemplos de Tipos de Dados
- Metadados: Conceito, Tipos e Importância
- Transição para Data Lake e ELT
- Desafios do Data Lake: Data Swamp
- Anúncio do Patrocinador Clever
- Data Lake House: Unindo Semântica e Flexibilidade
- Camadas do Data Lake House e Analogias
- Governança de Dados e Desafios de Legado
- Otimização e Gerenciamento de Dados
- Semântica, Metadados e Lógica de Negócio
- Anúncio do Patrocinador VMBS
- Data Fabric e Virtualização de Dados
- Redundância, Desperdício e Modelagem
- Mensagem de Apoio ao Rio Grande do Sul
- Filosofia Lean e Valor do Produto de Dados
- Encerramento e Agradecimentos
ter um um data Warehouse Central em cima disso eu vou e separo os cubos e o outro fala assim eu preciso criar cubos e depois eu tenho o meu data Warehouse eles tinha uma abordagem diferente dependendo da tecnologia você pode aplicar e a gente nem falou ainda do banco de dados orientado a objeto que se você for pensar ele acaba sendo também ali um meio de campo entre estruturado e semiestruturado eu tenho um um DW que eu tinha uma semântica bem definida e eu tinha indicadores bem definidos mas que eu não tinha capacidade de evoluir isso e eu tenho um outro ambiente que é o dat Lake extremamente flexível capaz de evoluir mas só que sem semântica nenhuma uma camada de integração uma camada de integridade e uma camada de inteligência eu tenho uma camada de captura uma camada de curadoria e uma camada de consumo muito bem muito bem meus amigos do PPT não compira estamos aqui para mais um episódio e hoje Fabinho vamos saber toda a difer dat Lake tare House Tata Lake House dat Lake wareh Plus é uma banda de rock é é agora vários discos na minha época quando você começa assim sabe que galera já é 40 mais n quando fala ó bemvindo T chegando lá é você quase lá a gente fala sobre dados sobre tabelas flat o mundo mudou né rud mudou mas nem tanto os conceitos são os mesmos né princípio Talvez seja o mesmo Sim conceito tá lá mas só que a tecnologia ela me ela muda ela permite que a gente consiga fazer coisas diferentes isso e trazer o mesmo conceito pro negócio trazer o mesmo entregável cada vez melhor pro negócio né cara exatamente então para falar disso hoje já queimei aqui a a que meha largada meu grande amigo aqui um parceiraço do PPT não compila que sétima oitava participação não sei por aí por aí por aí e sempre um prazer e hoje aqui junto com o Fabinho primeira vez que eu gravo com ele olha só só fica se conhecendo pelos episódios nunca se cruza inclusive quando eu cortei o cabelo ele me zoou ainda Olha só cara cara lembra caramba lógico lembro olha ele com o cabeleiro cortado favoritei ali ó vas ele vem cada dia com uma skin diferente esse rapaz Faces quiser consultar aqui os episódios do PPT o rud ele já tem passou por várias skins já de Jack Sparrow a Edward Monte tesoura é sempre alguma versão do Johnny dep tá bom is É isso aí é isso aí cara obrigado por você ter vindo aqui Eu que agradeço o convite já falei sempre um prazer estar aqui e é isso O rud que é um cara que que para mim é uma referência de cara de dados gerente de dados hoje na SulAmérica ag gente de governança de dados e que tem um curso de datam né rud sim eh além de uma parceria que eu tenho com um uma instituição de de ensino que todo ano a gente faz ali um pouquinho de divulgação para poder fazer uma atualização ali no material em breve aí também um lançamento ali numa hotmart da vida que para deixar o consumo mais fácil aí pra galera que não tem tempo de participar da Live ou de participar de uma coisa mais presencial né Então aí fica um conteúdo disponível para todo mundo que precisar consumir e quando você colocar você vai vir aqui fazer o lançamento no PPT pode deixar show de bola Então vamos lá vamos entender o conceito de data Lake data Delta Lake data Warehouse isso elt tudo isso a gente vai conversar aqui e vai ser uma aula porque esse cara é um monstro Então bora bora [Música] [Aplausos] [Música] [Aplausos] [Música] começar pelo direto ao ponto rud Tá bom o que que o que que é Hype o que que não é nesse mundo de tecnologia e dados porque até pouco tempo atrás a gente fala de data Lake e data Warehouse agora a gente tem muitos termos entre isso né faz data Lake Delta Lake data Lake Warehouse data Lake House data Lake House isso então tá tudo um termo meio Tá tudo meio nebuloso aqui a galera tá fazendo uns Ornitorrinco aqui não tá não tá E E é isso que eu quero entender nesse Episódio contigo velho beleza vamos vamos entrar nos detalhes aqui do que que é isso vou tentar explicar Então vamos começar do básico vamos começar do básico que que é um dat Lake então Mas se a gente vai começar do básico vamos entender então o que que é um data Warehouse tá é que é é o é o ancestral né ancestral Isso quer aprender e Então vamos pensar assim 1980 1990 a gente estava lá com os famosos bancos relacionais mas o banco relacional ele foi feito para quê banco relacional foi feito para armazenar dado de uma maneira eficiente e te D capacidade de fazer um update um delite um insert e fazer isso da maneira mais fácil possível mas só que aí quando você queria tomar uma decisão o seu ambiente não estava preparado para o select porque aí você tinha que fazer um join enorme você tinha que fazer um monte de estrutura lá para você conseguir ter as informações que você precisava E aí você fazia com que a sua aplicação ficasse sendo toda hora ali sobrecarregada e aí não dava para coexistir com isso E aí tiveram dois carinhas lá muito famosos né que é o billon e Half Kimball acho que é isso que criar ali o conceito de fato dimensão de DW de data Warehouse então eles criaram ali uma perspectiva que é você tira os dados do da camada de sistemas e você modela ele de uma maneira que seriam ali os DW ou cubos e para que você consiga fazer ali a sua análise de uma maneira mais eficiente porque aí você já não não modela mais de uma maneira terceira forma normal relacional para poder atender o você modela para conseguir te ter ali os seus os seus reports seus dashboards e tudo mais nesse momento criou-se ali a a a o conceito do ambiente analítico e o ambiente transacional Porque até então os reports Eram todos feitos no ambiente transacional né sim não porque tinha um carinha chamado ods antes né que acho que é Operation D Store Acho que alguma coisa assim mas era um ods que e você criava ali uma visão um pouco deformada do ambiente normalizado eh para que você conseguisse ali ter um report um pouco mais próximo do sistema ainda eraa mas ainda era transacional ali né é era um transacional é o meio um meio campo Exatamente é basicamente era uma maneira sem tanta tecnologia que você disponibilizava o dado para você ter ali os reports de uma maneira mais rápida Eu lembro que nessa época que a gente falava de de banco de dados eh meramente transacional falava de tabela flat que era basicamente dentro de um sistema transacional eh modelado de maneira mais humilde digamos assim simplória você tinha até gatilhos dentro do próprio sgbd para que quando você tivesse o pdes ali dentro do modelo eh transacional normal dentro das três formas etc ele mesmo criava uma tabela flat dentro do próprio sgbd dentro do próprio transacional para que fosse uma tabela de ambiente de relatório sim né isso era isso era comum na época né falamos aí de 20 30 anos atrás Sim mas só que aí ao mesmo tempo você não você conseguia atender algumas alguns casos de negócio mas você não conseguia dar escala pra tomada de decisão é escala Empresarial isso era inviável sim porque você desnormalização e você não conseguia fazer a consulta rápida de uma informação que você queria agregada E aí foi nesse nesse tempo ali Acho que foi em 92 94 mais ou menos que esses dois gurus criaram ali o conceito do de data Warehouse e tudo mais eles tinham uma diferença eh um falava que eu preciso ter um um data Ware housee central e em cima disso eu vou e separo os cubos e o outro falava assim eu preciso criar cubos e depois eu tenho o meu datare housee então eles tinha uma abordagem diferente um pensava de uma maneira talvez mais ágil que você vai fazendo incrementos de valor e o outro pensava num umaa maneira mais Waterfall mesmo que eu preciso fazer tudo e depois fazer os recortes tá eh Mas independente do do cenário criou-se o conceito de etl criou-se ali o conceito para disponibilizar os dados de uma maneira estruturada para facilitar a tomada de decisão Então a maneira que você modelava não era mais terceira forma normal você fazia o quê modelo multidimensional você tinha lá a Fato e as dimensões num famoso modelo Star esima né ou então você usava o modelo snowflake que é tipo um estar esima mas com algumas ramificações em cada uma das pontas da estrela tá então você começou a desenvolver isso para você conseguir ter a tomada eh de decisão ali nos antigos ali eh ferramentas de datav que tinha uma camada semântica uma camada eh técnica uma camada de visualização ali no nos moldes ali do do que era antigamente e foi aí que surgiram as grandes ferramentas corporativas para transporte de dados que nem dat stage etc Power Center o que mais vamos pensar aqui na parte de visualização tinha o da orac que é o OB aee tinha isso o business Object Caraca eu mexi com todas essas coisas aí uma Sai até um cheirinho diferente naftalina e mas eu acho que o principal é que aí que popularizou o conceito de etl né que o etl basicamente Ele nasceu para desnormalizar os modelos né para poder levar para esse modelo de DW É desnormalizar mas tinha ainda algum algum tipo de eh relacionamento a ser respeitado para que você conseguisse otimizar ali o seu armazenamento Porque nessa época o armazenamento ainda era um problema você ainda não tinha uma capacidade muito grande de processar também ali as coisas em em alta escala tanto que a gente criava os cubos que que é o cubo é algo multidimensional que ele já chegava ali pegava todos os indicadores todas as dimensões ele já pré Calculava tudo para que quando você fosse fazer ali a chamada ia ser muito mais rápido que é na verdade me corrija se eu tiver muito enganado mas é um bisavô aí do feature Store né é um bisavô do do feature Store mas só que o feature Store é você ainda tem muita coisa sendo calculada em eh em tempo de execução porque você tem alguns indicadores que você que você vai ter que esperar ali para você processar Porque hoje o problema não é a sua capacidade computacional certo hoje você tem capacidade computacional seu problema é pagar por aquilo beleza Eh mas você não tem a limitação que você tinha antes então o que que acontecia o pessoal criava alguns métodos para você conseguir processar e armazenar as coisas em em grande escala certo e qual que era o benefício disso tomada de decisão antes você não tinha eh capacidade de tomar uma decisão rápida porque você tinha que esperar um grande processamento e tudo mais então aí você começou a diminuir o tempo para uma tomada de decisão porque que você deixava ali o seu etl rodando ele rodava carregava no modelo e você conseguia processar ali os seus cubos e conseguir ver ver as suas informações Mas qual foi a problemática disso muito muito tempo para você implantar certo ainda mais no modelo wfx você tinha que implantar tudo para poder extrair valor Prim você tinha que escrever um livro de especificação exatamente E aí é os problemas que a gente já sabe o modelo de negócio evolui Às vezes você demora 1 2 3 anos para você implantar um aquele bizão tradicional e aí quando você entregar aquilo já não era mais necessário E aí quando para trazer para termos mais populares Você não tem uma cultura de produto de dados por quê Porque você criou um produto que já é obsoleto você criou um produto que não vai ter público que vai ativar o valor daquilo ou então as regras já mudaram entendeu E aí para você mudar alguma coisa pensa comigo você tinha que ir lá na origem para fazer o seu etl e buscar aquele campo para você poder alterar uma regra de negócio para depois você carregar e pensar em todos os indicadores que que naquele naquela modelagem multidimensional você tinha criado que vão ser impactados para você poder implantar ali uma alteração E aí tinha o cara da replicação você tinha o cara do do etl você tinha o cara ali do meio de campo que muitas vezes fazia a camada semântica ali do do dado nas plataformas de visualização antigas você tinha o cara que construiu o Dash efetivamente Então você tinha vários perfis sem contar que lá na ponta do transacional tem o cara do dicionário de dados né também aí mais um perfil e aí o que acontecia eh você além de não ter capacidade de trabalhar com dados não estruturados que antes isso nunca foi tema do do bi tradicional você ainda tinha uma dificuldade muito grande de você evoluir o o data Warehouse você tinha uma dificuldade de você evoluir seus indicadores suas metas sua tomada de decisão E aí Eh mais ou menos ali Acho que se eu não me engano em 2011 surgiu o conceito do do dat Lake acho que pra gente passar do DW pro dat Lake é importante a gente até para quem não tá eh quem quem não quem tá acompanhando a gente não é 100% da área de dados como que é quem tá acompanhando a gente não é 100% da área de dados a gente eh deixar fazer um um um Prelúdio do que é um dado estruturado e o que é o dado desestruturado primeiro eu vou falar uma coisa se você tá assistindo esse podcast tecnologia dado tem que fazer parte das coisas que você vai estudar hein isso por favor hein Por favor mas uma uma dúvida eh relativamente comum uhum vou passar a bola para você esclarecer é eh tem tem uma questão entre o que é o dado estruturado e não estruturado com o dado relacional e não relacional tem essa dúvida sabe beleza ó pensa assim o dado estruturado é todo o dado que você consegue organizar por exemplo num Excel Ok então você vai ter uma linha e uma coluna E aí aí quando você tem a relação de linha e coluna Você tem AL linha a famosa tupla ou célula OK agora assustei as aulas de banco de dados Ok então isso é o estruturado Não importa se você tá num tabelão ou não Não importa se você tá numa tabela em terceira forma normal isso é um dado estruturado porque você tem ali um uma característica Onde você consegue ter de uma maneira celular a as informações dentro do seu banco de dados tá então isso é o estruturado quando você vai pro semiestruturado É como se você criasse uma tabela certo e aí entenda a tabela estruturada dentro de uma célula Então como que eu posso falar eu tenho ali por exemplo o meu Excel e dentro de uma célula do Excel eu abro outra planilha de excel o cedata do XML é um exemplo disso Jon também eh então assim eu consigo ter um uma visão que ainda tem uma estrutura certo eh mas só que não necessariamente o grão dela né a a a eh como posso falar assim o grão é que também é um termo Difícil de explicar mas eh você não necessariamente tem no seu banco de dados armazenado uma informação por cada linha Então você consegue ter uma informação que vai ser para um conjunto de linhas que vão estar dentro de um de uma célula Então você consegue otimizar o seu armazenamento e você consegue trabalhar de uma maneira mais flexível Esse é o semiestruturado quando você vai pro não estruturado são informações que você você não vai ter dentro de um de um por exemplo de um de um Excel Pensa numa imagem num vídeo num num áudio alguma coisa assim você não tem aquilo dentro de uma célula certo Você tem algo mais abstrato então isso seria o o não estruturado E aí quando a gente vai para o DW DW não foi preparado para trabalhar com esse tipo de dado para dar uns exemplos aqui para esclarecer pra galera né rud então vamos supor eu tô falando de do relacional na terceira forma normal que está lá no meu my C por exemplo isso é um estruturado isso é um banco estruturado relacional relacional exatamente E aí eu eu faço um dumping da minha da minha base de dados por exemplo e um Jon e subo ele no S3 isso é um dado não relacional mas estruturado correto Eu Eu ainda vejo que ele tá estruturado certo porque você respeita ali a cé mais est tem até as tuplas tem uma estrutura de de dados e tal mas ele é document driven ele não é relacional sim mas só que é o que que acontece ó e você não tem como garantir algumas condições de estrutura e não tem constraint não tem conente mas você também não tem nem a a a atomicidade ali garantida Ok então e se você faz esse dump você coloca em Jone dentro do de um s3 de um documento Deb qual qualquer eu entendo que ali você já tá trabalhando com dado semiestruturado semiestruturado tá faz sentido sim por quê Porque Eh vamos supor que teve uma na sua tabela origem que você fez o dump uhum Ok se você fez essa alteração lá na origem que que vai acontecer com o banco estruturado ele vai manter exatamente aquela integridade mesmo pras coisas do passado agora você faz o dump só daquela parte que teve alteração e depois joga para esse mesmo lugar que você colocou você vai ter dois esquemas diferentes dentro do mesmo da mesma base então você passa a ter um dado semiestruturado porque você vai ter estruturas distintas dependendo do time que você colocou aquilo dentro do seu banco de dados Então quando você tá trabalhando com semiestruturado você tem uma certa flexibilidade de administrar o esquim mas você tem um esquim mas mas aí se você pensar nesse sentido um banco document driven ele passa a ser semiestruturado para mim então Depende do que ele armazena porque se ele tiver armazenando uma imagem se é aí aí o que que vai acontecer a imagem ela é não estruturada mas as tags que você colocar na imagem aí vai ser semiestruturado sim mas o banco não estrutur o banco não relacional como um todo ele é baseado em tuplas então ele tá ali num conceito semiestruturado ele não é relacional sim mas ele tá tá para dizer até que ele é estruturado não então ele tem uma certa estrutura mas só que porque ele mantém um esquema padrão mesmo ele não sendo relacional ele ele mantém um esquema padrão que vai ser utilizado para você federar mas isso não quer dizer que todos os documentos vão ter aquela mesma estrutura é aí tem depende da configuração de cada banco né porque tem banco que você pode não que você pode manter um contrato padrão para mas é aí depende de banco para banco n sim por isso que eu gosto de pensar assim é que é que é complicado quando a gente mistura tecnologia e os conceitos certo eh Mas dependendo da tecnologia você pode aplicar e a gente nem falou ainda do banco de dados orientado a objeto que se você for pensar ele acaba sendo também ali um meio de campo entre estruturado e semiestruturado entendeu então pegar aqui um banco orientado a objeto para pessoal ter uma noção é que diferente da linguagem de programação que pegou muito orientação a objeto para banco de dados não pegou tanto mas se você for olhar o seu esforço para mim ele é um ele por trás dele tem ali um um banco orientado ao objeto porque você tem um um um grau de relacionamento ali entre entre o as entidades né que a gente nem fala que é tabela a gente fala que é uma entidade que a gente vai fala coluna A gente fala atributo então ele tem uma característica orientação objeto muito semelhante ao semiestruturado sim eu tenho eu tenho uma um spoiler que por trás do Sales force é um banco não relacional document driven mas a camada de abstração que você tem de acesso ao dado via pi é 100% orientado a objeto porque aí você tá orientado em entidades sim né que você tá falando de valores características e propiedades e tem uma coisa distinta também no seu S que você tem o record Type que que acontece para cada tipo de registro que você tem dentro de uma mesma entidade Você pode ter a obrigatoriedade ou não de um preenchimento de atributos ou não então assim e tá vendo como quando você aumenta a complexidade de administração do esquim você já vai pro mundo semiestruturado ok e que ainda é possível de fazer un um SQL pelas tecnologias modernas Embora tenha ficado aí um tempo sem ser possível fazer o SQL mas eh eh ainda tem que tratar como como semiestruturado sim é eu eu gosto do termo document driving justamente por causa disso porque você tem documentos que você pode fazer um SQL nas propriedades e você conseguir obter aquele documento n exatamente então eh São documentos indexados a gente pode dizer assim né aí por exemplo pro pro não estruturado que é lá o vídeo a imagem né o áudio eu o meu entendimento é que quando eu olho pro eh pro conteúdo em si ele é não estruturado mas quando eu aplico ali as indexações as tags dentro daquele documento esses metadados eles acabam sendo semiestruturados e é esse o ponto que eu quero que você esclareça pra galera o dado não estruturado é aquele que não tem um esquema certo Uhum e ele não tem um um document Type padrão ele pode ser um texto um vídeo uma foto etc ele é só um conjunto de bits beleza e aí você tem que ter uma inteligência para lidar com isso sim e aí entra a importância do metadado eu queria que você explicasse o que é o metadado tá e a importância do metadado para que você consiga fazer o relacionamento com os demais e a gente chegar no conceito de dat Lake tá eh acabou indo para uma acabou indo para uma outra lado é que eu tô vendo se eu consigo entender e eu vou depois que ele falar Vou até ver se eu consigo traduzir o que eu entendi ele fala se é mais ou menos isso ou não não você quer falar e depois eu falo sobre metadados porque eu acho que vai ser outra coisa Porque Pelo que eu entendi assim um Você tem uma tabela com tudo padrãozinho que é aquilo que aceita o outro você tem uma [ __ ] de uma bagunça que pode ter qualquer coisa mas tem um índice falando o que que é cada coisa e onde tá sim tipo assim é uma bagunça ó esse aqui é o índice dessa bagunça toda tá organizado aqui e tipo onde tá minha dúvida onde que fica esse índice né ó PR PR para fazer um paralelo para ver se facilita aqui até para quem tá ouvindo a gente não tem profundidade em dados você um Você pode ter toda a tabela todos os campos definidos com tipos etc etc etc eh muito parecido com modelo de Oracle eh myso post etc e o outro você tem tipo chave valor essa chave valor pode ser um Jon com documento inteiro é o índice né É você tem um índice eu acho que eu vou usar o Excel de novo para explicar o Excel sem você mesclar nada ok uhum seria um um dado estruturado dado semiestruturado é quando você começa a mesclar as células eh para poder fazer ali a organ aquele PR V horrível o o o o então Independente se é mesclado ou não você ainda consegue fazer proc V certo você ainda consegue fazer às vezes alguns controles ali em cima de contar as a a contar a quantidade de registros e consegue fazer as coisas ainda assim mas por exemplo se você contar a linha mesclada e a linha não mesclada vai dar uma coisa diferente então você vai ter grãos diferente Dependendo do atributo que você for for analisar exatamente então isso seria mais próximo do do semiestruturado Agora imagina você colocar um monte de vídeo lá no Excel você quer saber quantos vídeos você tem você não consegue saber entendeu o o o não estruturado ele é não estruturado você não consegue ter ali algum tipo de controle em cima disso então o que que se faz para poder administrar melhor o dado não estruturado você cria índices ou você cria tags você cria você escreve o que que é cada um então você cria um mecanismo semiestruturado para ajudar a controlar o dado não estruturado porque ele em si só ele é muito difícil de você administrar você fala o que tá naquela casinha é isso exatamente então é uma maneira de você trazer um pouco de estruturação ao dado não estruturado entendeu mas só que acaba sendo um dado semiestruturado ou estruturado porque você não consegue entender o não estruturado aí não dá para pesquisar pelo não estruturado não dá para pesquisar por exemplo eu quero saber o vídeo que oon aparece Então você consegue a partir daquilo que você tá Gia entendeu que é o metado que é o que você vai falar agora isso é metadado quando a gente usa ali o o palavras chaves o prefixo meta certo quer dizer além então o metadado é o dado além do dado olha só que maravilhoso então quando você vai tipo dicionário você coloca a palavra e coloca a tradução Como fala como explica aí pensa assim pensa a descrição do dado não somente não somente isso porque pensa assim eu posso tem vários autores mas eu gosto de pensar que o metadado ele tem três categorias Eu tenho um metadado técnico que basicamente vou fazer uma analogia com dado estruturado que mais tá então eu tenho ali uma tabela eu tenho a tabela eu tenho Qual é a tecnologia daquela tabela eu tenho Quais são as colunas daquela tabela eu tenho quais são os tipos de cada coluna daquela tabela eu tenho falando se aquela tabela tem alguma e marcação de sensibilidade ou não tem informações técnicas daquela tabela aí eu também tenho os metadados de negócio que são as descrições das tabelas então eu falo que aquela coluna e DSC produto é a descrição do produto e da empresa xpto consumido pelo fulaninho tal Ok então isso aqui é um metadado de negócio eu tô trazendo um pouco de conhecimento aquela enfim aquele dado que a princípio não tinha nenhum valor Ok E aí quando eu eu tenho metadado operacional eu começo a falar assim ó essa tabela ou essa coluna sofreu essa alteração ela é originada dessa outra fonte ela sofreu essa transformação ela passou por essas condições o dono dessa informação é essa pessoa então começo A enriquecer os metadados em cima disso histórico do que aconteceu naquele bloquinho que aí eu uso metadado para criar o conceito de produto de dados porque eu consigo saber a evolução dele eu consigo saber se aquela tabela por exemplo guarda só os 5 anos e os últimos 5 anos ou não eu tenho a o ciclo de vida do dado estabelecido al eu tenho evolução daquele ativo de dado eu tenho que pegar esse ponto para fazer uma pergunta que muita gente pode est perguntando agora Uhum eh você falou dos três tipos de metadado né um que é relacionado à descrição técnica do dado outra descrição de negócio e esse outro que é mais ele é mais ligado ali a origem do do dado operação e etc operação e quando a gente fala muito do do conceito de dat Lake não dat Lake dat Warehouse que agora a gente banalizou falar tudo sobre sobre dat leak né mas quando a gente fala de dat Warehouse e sobre acumulação de dados né o data Storage para para analítico né se convencionou falar muito na época do Big Data né do que foi a grande explosão do dware house etc que o analítico era o dado transacional sem update então eu lembro até que tinha uma analogia que funcionava muito bem na época que é você se você coloca o bi para olhar o transacional você vai ver a foto Uhum você coloca o bi para olhar o analítico você vai ver o filme justamente porque como você tinha uma transição do dado saindo do transacional pro analítico pro DW eh de forma constante você conseguia pegar o histórico daquele dado eu tô fazendo esse ponto porque que você falou sobre esse outro metadado que tá relacionado à operação do dado mas também que tinha essa visão de eu levar o dado pro dware housee sem as as suas alterações com com as datas eu consegui fazer um tracking da evolução do dado isso é um um chute absurdo de de de Storage né é um chute absurdo de Storage mas só para deixar claro que o data House também tinha tinha técnicas para você historicar tá bom então você tinha lá as dimensões tipo 1 2 3 tinha lá umas eh tipagens que te permitiam eh versionar historicamente alguns atributos ou todo o registro que você estaria dentro do próprio DW dentro do próprio DW mas só que aí você começa a ter maior armazenamento e processamento de dados e aí você entra nas limitações tecnológicas do passado e aí em 2011 teve lá um carinho um acho que ele era CTO da pentar acho que é James Dixon acho que esse é o nome dele que ele criou o conceito do dat Lake que basicamente é o quê um repositório onde você pega ali as informações e joga para dentro do do de um de um ambiente de Big Data eh para que você conseguisse em cima desse Ambiente fazer o que você precisa fazer E aí que o conceito por exemplo de etl mudou para el então etl é extract transformation load com com o o dat Lake surgiu eu extraio faço extract eu carrego lá no meu ambiente de Lake E aí Eu transformo o dado pra minha necessidade que aí surgiu o conceito das três camadas né ainda não eu só tô pegando o dado da minha origem carregando lá no no dat Lake E aí depois baseado na minha necessidade de uso Eu transformo e faço do que eu quero sem ainda ter os conceitos da sem ter os conceitos das camadas E aí até um ponto interessante esse carinha li alguns artigos aí eu preciso eh até pegar ali onde que que eu li isso mas ele trouxe uma coisa interessante que é o seguinte ele falava do data Lake por domínio hum teria um dat Lake por produto E domínio informacional por cada domínio informacional E aí ele falava até que o conjunto desses dat lakes virava um aquifero ou tinha lá um um outro um outro tipo de terminologia que ele falava que era o conjunto de vários Lagos eh só que o que que acontece né ele o surd fez esse não é tão absurdo Não não é tão absurdo faz sentido e aí o que que acontece quando ao trazer esse esse conceito foi muito revolucionário por qu porque agora eu tenho como trabalhar o dado semiestruturado Agora eu tenho como trabalhar o dado não estruturado eu trago tudo para cá e trabalho D aqui exatamente então assim eu ativei o Big Data eu criei uma autonomia gigante para os analistas de dados mas só que eu criei um probleminha sabe qual o probleminha que eu criei Qual que é a verdade da companhia porque todo mundo pegava o dado e transformava do jeito que queria no transacional você quer dizer não não tô falando no Lake Ah entendi porque ó peguei eu peguei informação bruta eu peguei informação semiestruturada estruturada não estruturada joguei lá pro Lake aí você é um cientista faz a transformação que você quer aí você é um cientista você é um engenheiro certo cada um pega ali a informação e trabalha do jeito que quer o que que o cliente a gente tá pedindo tá pedindo dashboard cria o dashboard o outro vai querer o mesmo indicador cria o dashboard de novo e aí o que que acontece eu resultados diferentes eu dou uma viabilidade tecnológica mas só que eu não tenho uma organização e aí entra o conceito do data swamp Olha só Pântano de dados E aí tiveram até algumas estratégias que é legal dat Lake é a moda é Big Data Beleza vou pegar o dado de que existe em todo lugar e vou jogar para dentro do dat Lake moral da história eu não fui orientado a valor não fui orientado a produto Criei um monte de coisa melor que o sistema ficou super pesado não consegui bancar não gerou valor nenhum prejuízo pra companhia [ __ ] sim é ISO essa essa é a maior a maior é é aquela bagunça que só quem fez entende né nem quem fez entende pensa assim pensa numa biblioteca e num cebo o carinha do cebo dvida que ele sabe onde tá todos os livros dele é esse é o problema porque aí você depende do cara utilizar o dado certo pro resultado certo você pode usar tipo você pode usar o dado que você quer para levar o resultado que você quer sim e aí aí eu entro Eu tenho um um um não sei se é paradoxo enfim eu tenho dois cenários bem conflitantes Eu tenho um um DW que eu tinha uma semântica bem definida e eu tinha indicadores bem definidos mas só que eu não tinha capacidade de evoluir isso e eu tenho um outro ambiente que é o dat Lake extremamente flexível capaz de evoluir mas só que sem semântica nenhuma quero falar com você agora quem ainda não conhece a Clever Clever é uma empresa que já tem mais de 3 milhões de usuários em 30 países com 30 idiomas diferentes que tem trazido Soluções em blockchain criptomoedas e ativos digitais o objetivo da Clever é te dar liberdade financeira para operar nesse mercado de cripto então se você acredita nisso se você acredita nessa Liberdade você já Pensa como a Clever vai conhecer os caras é Clever Paio estão contratando também pessoal para trabalhar com cripto com blockchain então se você tem interesse se você tem conhecimento nessa área procura Clever se você gosta de criptomoedas se você opera no mercado você precisa conhecer a Clever precisa conhecer as soluções da Clever então o endereço tá aqui embaixo no vídeo para quem não tá no YouTube é Clever pai vai lá vai conhecer que realmente é um mercado [Música] sensacional Então você tem ali um um data Warehouse que você consegue ter uma capacidade de tomar decisão Você tem uma semântica bem definida certo mas só que você tem uma dificuldade de evolução e você tem um outro universo que seria o o do dat Lake onde você tem uma capacidade de fazer as coisas de uma maneira muito fácil evoluir as coisas de uma maneira muito fácil trabalhar com regras de uma maneira muito fácil mas você não tem a semântica aplicada a ele mas quando você fala semântica você tá falando sobre a a interpretação do dado interpretação do dado sobre um mesmo contexto Então pensa assim eh pegar aqui você trabalha numa eh empresa que vende plano de saúde certo por acaso sim então aí você tem você também você então o Core de uma seguradora é o quê é vida prêmium e sinistro Ok geralmente esse é o Core da da empresa Então imagina você ter cinco processos que vão calcular por exemplo o a sua sinistralidade cada uma Dá Um Valor diferente para um mesmo períod o mesmo o mesmo contexto é totalmente prejudicial sim aí quando você fala semântica significa que ok para eu para eu saber o valor de sinistro de fato desse período para esse período Eu tenho um conjunto de dados que envolve SS essa essa tabela e essa e essa e essa transformação tem que ser aplicadas entendi basicamente é isso é uma regra de negócio em cima daqueles dados que estão dentro do dat Lake exatamente E aí ISO que se chama de semântica isso porque aí quando você vai trabalhar com dado todo mundo vai chegar ao mesmo resultado se trabalhar em cima do mesmo contexto que é o conceito de produto de dado que é o conceito de produto de dados mas só que o que acontece eu um lado eu tinha muita flexibilidade e tinha pouca semântica outro lado eu tinha muita semântica e pouca flexibilidade para eu para eu poder facilitar para quem não não é desse mundo até de de seguros uhum seria como se eu tivesse todas as minhas tabelas dentro do datalake aí eu quero fazer um gestão de cliente vamos falar f fidelização de cliente Bom exemplo Ok o meu exemplo era outro que era mais simples mas vou confiar no teu Vamos então vamos supor que eu queira calcular o o grau de satisfação do do meu cliente ou então se eu tiver falando de NPS sei lá que também é um termo que tá mais na moda então eu cheguei já tenho ali as informações dentro daquele daquele contexto eu já coloco ali Quais são as regras de tratamento do dado para poder fazer ali aquela aquela análise todo mundo vai consumir exatamente aquele aquela mesma informação Então vamos pensar num contexto de DW Eu tenho lá minha origem eu pego essa origem eu extraio aqueles dados Eu transformo aqueles dados eu carrego os dados E aí eu tenho ali bonitinho o meu dado de NPS Esse é o modelo de DW quero evoluir essa regra é um parto é muito difícil Ok vamos pro conceito do do dat Lake eu pego porque eu vou mexer naquela naquela transformação etc PR o que você quer dizer é no DW Eu já dou uma tabela com a regra produzida PR Mas e aí para evoluir essa essa regra é muito difícil que eu vou mexer na transformação ET etc ET exatamente aí o conceito do dat eu peguei todos os dados lá da minha origem joguei para dentro do Lake olha que maravilha todo mundo todo mundo que quiser dar NPS consome aí Tira o seu NPS E aí eu tenho várias pessoas consumindo NPS dando resultados diferentes do jeito que elas querem do jeito que elas querem Inclusive facilitando a manipulação de informação sim e aí surgiu Acho que mais ou menos em 2020 se bobear o conceito de dat Lake House Ou Delta Lake que basicamente é o quê eu estabeleço camadas certo dentro do do meu dat Lake e onde eu consigo trabalhar com essa semântica e com essa organização do dado então eu vou ter sempre uma camada que eu vou jogar o dado lá dentro certo que é o dado bruto o dado Raw E aí que no Delta Lake é o dado bronze aí depois eu pego esse dado e eu preparo de uma maneira mais adequada para um consumo corporativo Eu trabalho muito aqui nessa parte na semântica certo aí eu tenho o dado refinado ou o dado sei lá que o pessoal chama no o dado Silver certo que seria um dado já preparado ali já organizado já com algumas regras de de tratamento dentro do meu do meu ambiente e depois eu vou ter meu minha camada Gold ouro ou uma camada ali que eu vou ter os dados agregados prontos pro meu consumo certo que aí é onde as apis batem aí onde o dashboard consome aí onde o meu modelo de ciência de dados já vai ter ali toda a perspectiva 360 da informação que eu quero para poder fazer ali o seu modelo então eu vou ter já uma camada de disponibilização do dado é Onde eu consigo monetizar efetivamente o dado entendeu Esse é o conceito do Lake por quê Porque eu tem o o o conceito do Lake que é repositório Centralizado para poder armazenar as informações do meu domínio Ok mas eu crio camadas de preparação de transformação do dado para que ele respeite uma semântica e aí vamos pensar lá no conceito do do Dixon que falava dos aqufa domínio respeitando a camada de dados brutos dados trabalhados no menor grão e dados agregados para atender a minha necessidade de negócio fazendo aquela analogia famosa dos dados a um novo petróleo quando a gente vai pra cadeia de valor do petróleo Você tem o upstream que você vai lá no bolsão de petróleo extrai o petróleo e joga ali para dentro do seu do seu ambiente certo do seu contexto isso seria a camada Raw você tá extraindo o o petróleo da maneira mais bruta possível aí você tem uma uma camada de midstream dentro do da indústria petroquímica que você trabalha o dado transporta o dado organiza o dado de uma melhor maneira E você tem uma camada de downstream que é onde Você tem os produtos de dados que realmente vão gerar valor pra sua indústria entendeu então fazendo uma analogia é isso eu tenho uma camada de integração uma camada de integridade e uma camada de inteligência eu tenho uma camada de captura uma camada de curadoria e uma camada de consumo entendeu ou tenho o o vamos lá o os termos que a gente tava usando o bronze prata e ouro ou então eu tenho Raw trusted refined no conceito do leak house alguns usam Raw refined dat outros usam entre outros conceitos exemplo do petróleo ficou bom Deu para entender a bagunça deu PR entender aquela coisa r o rud é bom de de de exemplo de Deu para entender quando você tipo trabalhou e fez lá a quase a querosene e tipo aqui a gasolina é gasolina pódium Isso então isso aqui é a sua câmara de consumo Porque dependendo do esforço que você deposita em cima do dado você pode ter tipo de produto diferente você tá ali no seu downstream entendeu E aí inclusive você pode alguns aacanagem você pode gerar alguns ativos de dados que vão servir como se fosse uma indústria petroquímica pode você coloca na mão do Consumidor e o consumidor sei lá faz o Maravilhas ali tipo através ali do da parte ali do do Nafta que a gente tira do petróleo vira ali plástico vira um monte de coisa então você tem ali uma capacidade de gerar valor imensa E aí quando eu gosto também de fazer analogia com comida certo o dat Lake no caso seria a reserva de petróleo ali o dat leak é só tipo assim eu jogo eu eu pego o petróleo eu pego todos os produtos que um dia o petróleo gerou eu pego tudo e jogo ali jogo ali você usa o que você quiser você cria basicamente você press sal tá ali ó um mangue ali ó isso que você pode pegar tem árvore tem dinossauro morto tem tudo ali ó e aí o que acontece Você vai em flando tanto dat Lake que fica difícil de você administrar aquilo depois quando você cria esse contexto de dat Lake House que você traz uma parte de do data Ware House que é muito forte a semântica que é muito forte a organização que é muito forte a estrutura juntando com o conceito do datalake você consegue fazer o quê você consegue pegar o bônus dos dois que é a sua capacidade de ser flexível de evoluir porque tecnologicamente você tá muito avançado mas só que você também respeita a semântica e você consegue trabalhar com uma única verdade moral da história você trabalha num cenário com menos de desperdício rud Você que é um cara de governança de dados agora eu vou te pegar numa pergunta difícil tá bom quando você vai pro ambiente transacional Você tem alguns processos em algumas aplicações transacionais Uhum que te geram dados que são semelhantes às camadas pratas e E Gold uhum do teu dado mas que dentro do Lake você vai obter esse dado mais cru sem aplicação da regra de negócio que foi aplicada pela própria aplicação do ambiente transacional sim e que também vai pro rol como é que gerencia isso do ponto de vista de governança então por exemplo deixa eu dar um exemplo para para ver se eu consigo ilustrar melhor você vai ter tabela de venda você vai ter tabela de despesa e você vai ter tabela de faturamento essaa de faturamento que pegou lá despesa menos venda e descontou imposto e tal também tá no Lake e eu joguei tudo isso para lá certo no mesmo nível E aí eu tenho que ter um produto de dados lá que vai me falar quanto é de fato o quanto é o meu faturamento Quanto é a minha o quanto eu tirei de despesa e tal Quanto é o lucro da empresa por exemplo só que eu tenho esse dado na própria camada Hall com a tabela que veio do transacional como é que eu gerencio isso porque o cara e ele pode usar o o o o resultado da camada lá na frente que já eu já apliquei essa semântica esse produto de dados que eu fui refinando isso e lá na ponta o dado tá pronto com uma certa fidelidade para ele mas eu também posso ter esse dado ali preliminar da própria camada transacional que não tá calculado o tempo não tá com uma uma um não tá curado de acordo com o que eu deveria ter lá na ponta Mas pode dar essa sensação onde tá entendeu Como é que cuida disso cara tá eh te peguei né então mais ou menos e aí eu vou eu vou explicar porquê Porque assim tem uma resposta muito simples para isso é eu não posso ter um um precipício entre sistemas e analítico Ok se a gente for comparar ainda com petróleo Eu só preciso do midstream muitas vezes porque minha camada de downstream tá muito longe da minha camada de upstream E aí eu preciso do midstream para poder fazer com que as coisas funcionem de de uma maneira mais organizada Mas se a gente for pensar de uma maneira enxuta Ok o meu próprio upstream Já devia estar conectado com downstream então quando eu olho para um um um universo de dados maduro junto com um universo de desenvolvimento de sistemas e Analytics maduro eu tô falando de uma estratégia de service MH datam unificadas onde eu tenho domínios e produtos de dados digitais que se conversam muito bem então vou pegar aqui um cenário maravilhoso Ok vamos usar o mesmo exemplo de da entidade de cliente eu chego lá e tenho um cliente eu vou fazer um cadastro do meu cliente esse cadastro de cliente que vai fazer ali a contabilização de quantos clientes eu tenho ele vai ficar na minha entidade de cliente até aí beleza tô falando de ambiente transacional Ok perfeito esse ambiente transacional ele tá Federado por exemplo na sua plataforma de de dat Lake House Ok como a sua camada de sistemas tá bem desenhada Ok é tem a sua arquitetura de informação é muito boa você não precisa da sua camada de upstream porque a sua própria camada de upstream é a sua entidade E aí a sua camada de downstream ele acaba sendo a própria Federação daquela tabela Então você não tem distanciamento entre Analytics e e sistema por quê Porque você pega a sua identidade de cliente e qualquer relatório que você quiser fazer que que você vai fazer você vai fazer um select em cima dessa base que você vai ter um armazenamento compartilhado mas o processamento tá no Analytics e se você você consumia via api você vai estar consumindo o processamento da sua aplicação eu queria viver nesse mundo eu também queria porque você tem um legado que não permite isso e fez com que as coisas ficassem muito afastadas então o que eu quero dizer com isso o cenário tecnologicamente sustentável saudável ao extremo ele existe a a dificuldade é em conseguir chegar nesse patamar respeitando todos os legados que a gente tem que foram sempre muito cados e muito pensados de uma maneira eh para atender aquela necessidade só e a minha pergunta é pensando nesse legado porque a gente sabe que tem uma câmara de relatório muito grande nos ambientes transacionais que não deveriam estar lá tem um conceito chamado cofre de dados que você trabalha com com links caraco agora me esqueci mas é é é basicamente eu tenho o objeto a transação e eu tenho satélites como que funciona isso eu tenho a minha entidade e aí eu vou ter ali uma agregação por exemplo o mesmo evento que carrega aqui que que ele faz ele atualiza as agregadas entendeu então eu tô preparado já faço obviamente uma arquitetura de informação que eu tenho entidade do menor grão e eu tenho as entidades agregadas e qualquer evento ele já dispara e atualiza de ponta a ponta Então esse conceito é muito interessante por quê Porque eu consigo trabalhar a disponibilização dos reports dos dos relatórios dentro de um de um eh ambiente sistêmico para ou report mas também consigo gerar uma base sólida para eu conseguir trabalhar no Analytics mas novamente é muito difícil chegar nessa maturidade porque a gente tá falando de tecnologias muito eh legadas que precisam ser levadas para um um para um ambiente mais moder realmente quando você pega essa tecnologia legada o cara já tem lá tipo teu próprio processo de tipo ISS a gente V isso muito em frame todo dia o cara vai lá gera uma tabela de relatório que aplica regra de negócio que é o que você falou da semântica para criar uma tabela eh acumulativa para relatório etc que é o que tinha na época cara sim e que ninguém revisita e que ninguém revisita só que aí qual que é o problema que eu que eu tô te trazendo o cara vai pegar essas tabelas o cara o cara que é engenheiro de dados chegou hoje na empresa Uhum ele vai lá no db2 ele vai levar todas as tabelas pro Lake vai e aí e aí por exemplo aí vai ter tabela semântica e não semântica lá sim e E aí vou falar essas tabelas aí do mainframe tão documentadas tão documentadas não tão não tão exatamente então o que que acontece existe uma série de conceitos de dados que foram negligenciados porque dados sempre foi tratado como um subproduto por isso que eu sou defensor muito do conceito de produto de dados então tem uma série de conceitos que foram negligenciados que agora Tão ganhando um pouco mais de de apelo porque Big date data tudo data Ganhou muito Ganhou muito em muita coisa aqui ganhou muita tração entendeu então todos esses essas questões Elas começaram a ser mais endereçadas entendeu Aí eu pode perguntar vai FAB não é tanta dúvida que eu não sei nem por onde começar tô só eu tô imaginando o tamanho que fica esse negócio então a ideia justamente é você evitar que esse tamanho fique monstruoso entendeu Pensa você ir no num restaurante certo e aí você vai lá no no restaurante e tem só dois pratos Hum ok mas só que aí você tem 2 milhões de ingredientes na cozinha imagina pro cozinheiro cozinhar aquilo não não vai ele vai ter muita opção não sabe o que vai fazer ou então só vai consumir sempre um pouquinho e aquele um monte de outros ingredientes estão ali dentro do seu do seu ambiente sem uso Por isso que eu gosto do conceito do Lake House porque vamos vamos pensar ali eu tenho minha camada eh bruta ali eu tenho os os ingredientes e Natura pensando num grande restaurante você precisa fazer o pré-preparo certo então você já sabe o que você vai produzir eu faço um pré-preparo para que aí no final das contas conforme os clientes vão pedindo eu faço os meus pratos a lacar lá e e disponibilizo pra galera Então veja eu tenho três etapas de de preparo os ingredientes não são estado bruto Um pré-preparo que eu facilito a minha disponibilização de dados corda deixa que precisa faço ali alguns pré preparos deixo o negócio bonitinho mpl aí ó e aí eu tenho E aí eu tenho no final das contas ó pedi o prato xpto com 100 brócolis sei lá aí eu vou lá e faço o prato de acordo com a necessidade do cliente isso aqui é basicamente o universo de dados certo porque eu vou ter o dado bruto o dado preparado e o dado pra necessidade de negócio a cebola picada musarela picada exatamente E então macarrão cozido e agora imagina você uma cozinha certo onde você faz o PR preparo e tudo mais mas só que ninguém usa Metade dos seus ingredientes em Natura e o pré-preparo que você faz você faz o pré-preparo de sei lá 10 pratos que você não vende então quando a gente cria essa camada dessas três camadas aqui de como eu falei integração integridade e inteligência eu crio a possibilidade de eliminar desperdício E aí eu trabalho com uma com uma cozinha mais enxuta E aí tentando fazer uma analogia com os domínios de dados né Pensa que eu vou ter um restaurante de comida nordestina vou ter um restaurante de comida do Sudeste de comida do centro-oeste de comida lá do Mediterrâneo de comida sei lá asiática eu crio diversos inos por quê porque cada um vai ter os seus ingredientes necessários o seu pré-preparo e a sua capacidade de disponibilizar o prato a lacarte conforme a necessidade do cliente ficou melhor do que o exemplo do do petróleo Olha aí aí ó porque você consegue perceber que são Dados diferentes não uma coisa só sim e às vezes tem um ingrediente que pode ser utilizado em tudoo mas só que esse ingrediente ele vai ser administrado de uma maneira que tipo o óleo é o óleo é o sal é o sim mas vai ser utilizado elente o cliente tá em quase toda a cadeia de valorum entendeu E aquele ingrediente ele tem que estar pré preparado para col ser colocado na receita exatamente não adianta eu colocar uma cenoura suja pré lavada direto do direto da terra pro chefe de cozinha usar exatamente Então ela tem que passar para um preparo que são as nossas camadas de bronze para Silver certo isso para poder tratar esse dado e trazer semântica para ele eu eu acho legal o conceito de de semântica que você utilizou rud porque Ele carrega a regra de negócio que tá envolvida na Por que você acha que um dos maiores produtores de conteúdo sobre dataops o conceito o nome dele é data kit maravilhoso aí porque se você fizer essa analogia fica muito fácil entender que você tem que fazer os pré preparos e cada etapa você precisa aplicar métodos diferentes deo eu tô aprendendo aqui contigo nesse Episódio agora o conceito de semântica em dados ele é um pouco diferente do que a gente tá acostumado no mundo da arquitetura como um todo uhum porque a semântica é o que aquele dado representa de Fato né E quando você olha cruamente para um campo ou para aquela informação a semântica dele é tipo ou ele é um dado uma string ou o que ele representa de acordo com a informação que Ele carrega e não exatamente a aplicação daquela daquela regra de negócio então eu tô aprendendo aqui com você hoje que esse conceito ele é mais abrangente do que eu imaginava na época do do que eu mexia com o bizão tradicional e eu me lembro que tinha ali uma camada de consumo uhum tinha uma camada semântica e tinha uma camada que basicamente era técnica que você conectava ali com o banco de dados mesmo nessa camada semântica era onde você basicamente equaliza todas as as regras de de negócio fazia ali de uma maneira mais organizada todo o cálculo de indicador deixava as coisas organizadas da melhor maneira possível para que ali na sua cam de de consumo aquilo tivesse muito facilitado hoje pro mundo mais moderno eu entendo que a semântica é sua capacidade de fazer a sua arquitetura de de informação logicamente que tem essa parte que você falou que por exemplo esse campo significa isso isso é é muito importante certo porque você trabalha ali falando de interoperabilidade na sintática da semântica ali das tabelas pensei exatamente nisso mas só que tenta ampliar um pouco mais esse conceito para você criar os domínios você criar os limites as fronteiras em cada um deles você conseguir e criar uma interdependência entre eles porque no final das contas você tá trazendo eh contexto e organização pro seu universo de dados que muitas vezes é muito grande mas só que você tem dificuldade de extrair valor então eu gosto de pensar assim não adianta eu jogar tudo pro pro Lake ou Lake House jogar tudo para uma um ambiente analítico e se vira nos 30 não eu sou e e cara faz muito sentido eh o conceito de semântica nesse nesse nesse todo ele faz muito sentido porque quando você fala por exemplo Ah quero saber qual o vou extrapolar o o o o exemplo aqui para para ficar claro mas quero saber qual o conceito de lucro da empresa isso não pode ser subjetivo para cada um que acessa os dados né Então essa semântica do que é o lucro do que é o conceito tem que tá carregado de alguma forma e tem que tá normalizado Entre todos da empresa e aí novamente naquela sua uma das primeiras perguntas que você fez aqui no episódio do do metadado por isso que eu vejo assim eh a tecnologia permitindo Big Data o datal leak dat leak house né E são importantes Sim eles são importantes mas se você não tiver uma boa arquitetura de informação você não conseguir separar ali no no nos domínios e eu não tô falando em datam embora seja um entusiasta tá em alguns Episódios para vocês depois assistir falaremos sobre isso certo então eh eh muito mais do que isso mas quando você tem um met dado bem organizado você consegue fazer com que tudo que você construa seja orientado a valor e aí você consegue fazer observabilidade E aí você consegue fazer data Ops E aí você consegue fazer data Fabric E aí você consegue fazer você consegue fazer tudo e aí vamos supor teve um bug no no sistema beleza eu consigo fazer o data drift dele muito fácil consigo saber onde que causou problema quem causou problema Por que causou o problema e eu consigo dar pro pro meu e agente ali de correção do buang insumo para ele poder trabalhar porque hoje é b o que aconteceu hã hã hã hã e ninguém sabe o tamanho do impacto tamanho do problema nada então metadado eu vejo como essencial para toda empresa que e quer se manter viva e eficiente dentro do contexto moderno da indústria 4.0 vou fazer uma pergunta cabeluda pro de agora então quero saber se você quer fazer uma pergunta fácil antes Fabim eu acho que não acho que deu para deixar mais confuso confuso não deu para colocar deu PR entender bem rud Você deixou o cor rost tímido né nossa não a parte a parte da cozinha Deu para entender bem mais ou menos o dado e a transformação que passa cada coisa que é a base comum e que você pode fazer a batata frita uma batata pura de batata a batata amassada batata ele entendeu mesmo bata lá então tipo que você consegue depois da batata fazer o prato que você quiser isso a batata tá lá lá entendeu então eu só tem o índice de receita ali o livro de receita Vai batata prato com batata ISO Então você tipo assim o livro de receita é meta dado livro de receita é meta dado eat data o o o livro de receita é o algoritmo não porque você não executa o algoritmo executa algoritmo é é o o mestre Cook é o modo de preparo e não o tá entend é o cozinheiro é que tem a parte dos ingredientes e tem a parte do modo de preparo não mas o modo de preparo também é metadado é o o o algoritmo ele ele vai ser como aquilo vai ser preparado na prática o algoritmo é o cozinheiro isso é o cozinheiro Então mas aí é é que aí a gente Entra naquele conceito do dat Lake o dat Lake é a plantação o data Warehouse é o armazém Mas é isso aí o data é isso aí é o mercado e o data Lake House é tudo funcionando em sinergia para entregar o prato pro cliente isso é é é que é que aqui a gente não pode mudar não não pode trazer uma um conceito do mundo transacional que é o algoritmo o algoritmo é o que para você o algoritmo é a é a lógica é então beleza sim a lógica ela pode ser materializada no metadado então que seria o metadado operacional exato que é o que transforma o dado de uma camada para outra isso aí não deixa de ser um algoritmo não deixa deesse algoritmo que não é um software não um softw soft então é a parte tipo assim é o programa aí quando você compila o programa é o cozinheiro né o programa é o cozinheiro que vai executar que é o algoritmo programa ou qualquer outra ferramenta Vamos colocar assim porque ele vai estar eh ele vai est atuando no como ele vai est basicamente Na verdade ele tá vai tá pegando como e materializando aquele como em algo certo e aí sim é o programa sei lá pode ser o dashboard pode ser o o como posso falar aí você pode ter lá o o fogão a panela que acaba se tornando outras coisas as outras ferramentas de preparo aí pode ser o seu a sua ferramenta de TL pode ser sua ferramenta de LT pode ser sua ferramenta pela aí is B você que tá vendo esse podcast da hora tá vendo um monte de problema aqui que a gente tá colocando né e Quer uma ajuda aí na sua empresa faz o seguinte entra no site aqui da vmbs que a gente pode te ajudar vem be.io nós somos uma empresa relacionada à arquitetura de soluções a modernizações de aplicações também atuamos na Font devops para ajudar vocês a serem extremamente ágeis então dá uma olhada no nosso site que vai tá aqui embaixo vem. e lá você vai poder ver um pouquinho da nossa história dos nossos profissionais e aproveitando se você for um profissional da área de tecnologia que tá a fim de trabalhar numa empresa legal um monte de colega gente boa e tecnologia te ponta manda o e-mail para pcare @ vmbs a já agora eu quero meu Show Hora Da pergunta cabeluda a gente tá acostumado rud com esse modelo de etl que muda pro el mas sempre não não não muda o e não muda o e não mudo e né que é o stract então eu quero chegar no termo do mais ou menos e o eu tenho a gente quer de arquitetura tá sempre procurando uma forma de fazer as coisas de forma mais eficiente e entendendo as tecnologias estão tão tão no Mercado Perfeito a gente tem um problema muito grande de Storage com com com DW e com dat Lake né e a gente sabe que a gente tem um problema de mau uso da tecnologia quando fala de arquitetura olhando o ptl que a gente tem cópia de dado para cima e para baixo que não deveria ter isso é fato né sim nem vou discutir tem tem o justificável e tem o que não é justificável tudo entra no mesmo bolo né então a gente não deveria ter por isso que a gente tem problema de data Line torto e a direita que você não sabe o que mais o que é Sher daer daer daer né nova pasta um nova pasta do nova pasta TR Então você sempre tem um problema ali de cópia de dados desnecessária e desgovernada sim existem uns modelos de Big Data virtual que é basicamente você armazenar o metadado daquelas daqueles daquelas informações e que você consegue extrair modelos uhum baseado naquele metadado e quando você gera um relatório você vai direto na base transacional Claro adotando alguns algumas premissas de por exemplo réplica de leitura etc para não prejudicar o ambiente transacional etc mas que você basicamente você coloca o registro do que você tem mas você não precisa ter aquilo fisicamente isso funciona na prática é peguei é que a sua pergunta foi isso funciona na prática funciona o problema não é o funcionar o problema é como implementar porque você vai ter que coexistir com o cenário de futuro e o cenário de passado Então esse esse é o problema basicamente o que você descreveu é o data Fabric que é a sua capa de você entregar valor e de uma maneira mais otimizada automatizada e com um redução de desperdício praticamente zero esse seria o cenário utópico e muito legal o ponto é que hoje eu vejo que o mercado não tem uma capacidade social não falo técnica sócio eu tô falando sócio sóciotécnica sóciotécnica para implementar isso não tem entende eh eh eu sou muito favorável à virtualização por quê Porque eu consigo eliminar armazenamento redundante Ok Esse é o ponto principal né sim na verdade não porque o o armazenamento Hoje ele é mais barato que o processamento eu tô falando no sentido de eh final da fatura não o o bitbit porque o que que acontece eu posso o meu custo de armazenamento pode ser mais caro do que o meu de processamento mas só que eu processo eh 200 vezes mais do que eu armazeno então mas o ponto é que para armazenar existe um processamento para armazenar existe um processamento sim eh então você armazena você processa para armazenar e você processa para consumir então o seu o seu volume de processamento é sempre muito maior Ok por quê Porque o seu processamento ele o seu armazenamento ele é mais estático C sim o seu volume de crescimento ele é mais devagar Ok mas o processamento não então por isso que eu vejo que é muito difícil porque você tem que equalizar você tem que administrar isso de uma melhor maneira Mas excluindo o o o é esse ponto o o ponto financeiro digamos essa parte de virtualização ela é muito muito muito para mim benéfica pra companhia por quê Porque você começa a trabalhar com um armazenamento único Ok e com um processamento distribuído e para mim isso é benéfico por quê Porque você tá aderente com o modelo de datam isso mas só que aí você tem que ter algumas premissas primeira premissa você tem que ter uma boa arquitetura de informação porque imagina você virtualizar um monte de silo você vai aumentar o seu custo de processamento tá então é você tem que ter algumas premissas respeitadas Mas vamos pensar que a minha arquitetura de informação minha entidade meu modelo de entidade de relacionamento Tá bonitinho tá funcional tá evitando redundância mano virtu virtualização é da hora porque é o mesmo o mesmo princípio que eu trabalho na Federação Eu tenho um armazenamento Central Ok eu consigo eliminar meu desperdício entre mid e upstream e eu só trabalho com a minha integração e a minha inteligência eu tiro uma camada do meu Lake House eu tiro uma camada do meu Delta Lake e eu consigo trabalhar isso de uma maneira muito mais eficaz Mas ó vou fazer uma pergunta aqui de advogado diabo uhum pensando estritamente na arquitetura técnica da parada vamos supor que eu tenho um modelo totalmente torto uhum baseado em em aplicação e não em entidade de negócio não Ten o modelo de dados muito bem definido não tem um produto de dados muito bem definido e eu tenho isso fazendo uma integração etl levando pro meu dat Lake Legal ou data swamp whatever tô fazendo essa cópia de dados bruta para lá uhum física qual seria a diferença do ponto de vista de desempenho do do lado analítico se ao invés de eu fazer isso eu levar de diariamente esse metadado para lá se houve um modelo se houve uma modificação no modelo a quantidade de dados que existem a o tipo de dado a descrição do dado e deixasse isso à disposição para o cara que é de cência de dados tá e a partir dali caso ele vá fazer um relatório uma experiência eu em vez de rodar no meu modelo físico que eu recebi esses dados via etn eu vou Claro com todas as premissas de salvaguarda pro transacional eu vou direto direto no transacional qual seria a diferença na prática disso porque eu entendo que se eu tiver isso muito bem organizado eu consigo ter uma certa Confiança dos dois lados mas o que eu quero questionar é por que que eu precisaria ter o físico ali se eu consigo ter no transacional garantias que eu não vou udicar o desempenho do transacional que foi a premissa inicial de criar o DW tá aí aí vamos falar de tecnologia se você tiver falando de um banco relacional você nunca vai ter essa essa disponibilidade aí que você comentou Então vamos pensar então numa empresa fictícia onde ela fez uma boa modelagem uma arquitetura de informação e ela só tem entidades num banco de baixa latência tipo um mongo um document de B ele tem um um banco de baixa latência que consegue processar isso ok Você concorda que eu não preciso duplicar o meu armazenamento porque o meu banco ele responde à minha consulta aí sim Então mas mesmo um relacional não consigo fazer uma uma uma réplica de leitura por exemplo is você consegue fazer uma réplica de leitura mas só que pensa que você sempre vai est fazendo o quê você vai est eh onerando seu processo fazendo o join não Claro sim sim você pode trabalhar por exemplo com uma réplica do do dado certo uma réplica do dado num ambiente que não é o transacional você cria um ambiente de lending para você poder trabalhar ok mas isso se você for pensar é sua camada Raw é sua camada Raw dentro do conceito que a gente falou sua camada bronze do conceito que a gente falou aqui é sua camada de integração de uma maneira muito menos eficiente porque você vai manter a a tecnologia relacional Mas você não vai ter a potência do Big dat entende então eu eu penso assim ó e cenário faz muito sentido cenário ideal eu sempre trabalhar com entidades e não com tabelas esse Para mim seria um cenário ideal eu sempre trabalhar com tabelas mais aninhadas que seria o semiestruturado do que com tabelas na terceira forma normal esse negócio de trabalhar com entidade não com tabela leva pro document driven sim eu eu sou eu sou entusiasta disso tá bom porque eu a boas três formas normais Então para mim a terceira forma normal ela só faz sentido em alguns casos muito específicos na maioria dos casos Principalmente quando a gente tá falando da transação para mim não não não faz sentido mais tá é ainda mais pelo contexto tecnológico vamos falar aqui terceira forma normal a gente preparou os dados para insert update delete Ok não para select Por que que foi feito dessa maneira porque eu não tinha capacidade computacional então precisava ser eficiente niss uhum Ok quando eu trabalho nos novos bancos de dados certo eu consigo trabalhar de uma maneira mais eh alinhada eu consigo trabalhar de uma maneira mais E adequada pra necessidade do modelo de negócio e não me importa muito o insert update delite porque a alteração ali no no skim ela é muito fácil eu não tenho um custo de processamento não ten um custo de armazenamento não tenho um custo de escalar isso porque o meu modelo ele é muito flexível Diferente de quando você vai lá para 1990 ou 1970 80 que foi quando foi criado já era relacionado no cartão perado não 73 ou 7 acho que 73 ou 74 foi que a a criou lá o o conceito do banco de dados F entendeu mas era fita né era é se a gente for pegar aí tin Tinha um custo computacional razoavelmente grande grande exatamente mas para você ver como que as coisas evoluíram hoje isso aqui é você como você provisiona uma uma uma um banco de dados lá dentro do sei lá de qualquer uma das três grandes bigs aí não É ridículo é rid é ridículo mas por isso que T falando assim é como tecnologicamente as coisas ficaram muito fáceis a gente tem que trabalhar mais na arquitetura da informação mas então você concorda comigo que acumular dados num grande DW se eu tenho formas de acessar facilmente o dado transacional de forma que não onere minha aplicação não faz sentido Não faz sentido porque você redunda para mim redundância ou redundância é um sinônimo de desperdício e olhar pro passado né porque se você tem processos de Por mais que você tenha Real Time streaming etc você tem despero de Storage no mínimo né sim no mínimo Ok mas pensa pensa assim ó você você tem ali um um um ambiente onde você tá tá duplicando a informação Você concorda que isso é um desperdício para [ __ ] isso é um desperdício agora é o que acontece a gente precisa avaliar se esse desperdício ele faz sentido ou não faz sentido uhum Às vezes você duplicar informação faz sentido para você atender uma condição de negócio uma necessidade um requisito funcional não funcional aí você precisa replicar porque isso vai ser mais barato ou ou mais eficiente ou mais Qualquer que seja variável que você tá administrando do que se você não fizer isso para esses cenários você faz mas tirando esses cenários mano virtualização Federação você tenta aproximar cada vez mais o upstream do do downstream porque aí você consegue eliminar o desperdício perito eu gosto de pensar de uma maneira mais lim né liin é que LM É Vida filosofia filosofia inclusive Filosofia de vida mesmo entendeu inclusive doe suas roupas doe e as coisas aí da sua casa que isso TR movimento né a gente tá até passando ali uma situação aí de Rio Grande do Sul no Rio Grande do Sul então doe também sua um pouco da sua condição financeira lá para ajudar o pessoal eh tem tem um tem uma galera aí que que aquilo po V deixar o link aqui ó a gente fez uma live no dia dessa dessa gravação a gente fez uma grande Live aqui vai ficar no link aqui também para ajudar os nossos irmãos de Rio Grande do Sul aí que estão passando por problemas de alagamento problemas de roupa comida água enfim Qualquer ajuda que você puder fornecer Provavelmente quando sair esse episódio A situação ainda não deve est não deve est Espero que esteja muito melhor mas caso ainda precise de alguma de algum auxílio Aé por favor Estamos aqui todos mobilizados para isso então assim você consegue fazer com que realmente as coisas você diminua o o desperdício e você aumente o valor então pensando em produto de dados olha só que maravilha eu tenho um um único ativo de dados que pode ser utilizado para n necessidade de negócio Poxa eu tô no meu na minha utopia no meu sei lá Êxtase de de dados porque eu consigo diminuir custo e aumentar valor perfeito entendeu E esse é esse seria o mundo ideal mas novamente é muito difícil porque você tem que você tem os seu Silos de dados você tem tecnologias diferentes como é que você vai fazer isso em tempo real com db2 quando você Desc você me conta então mas aí você tem cara até com tecnologias mais simples né Às vezes até tecnologias que não são tão e legadas mas não te dá condição de de alta disponibilidade etc e e às vezes você você e tem uma cultura corporativa que ela ela é muito mais B lâmbda do que stream uhum e aí você fica ali dentro de um cabo de guerra que é difícil trazer transformação é até engraçado porque muitas vezes eu vejo que a área de governança e é até engraçado muitas vezes promove a Inovação porque ela tá muito alinhada à estratégia ela precisa puxar algumas transformações senão eu não vou alcançar estratégia entendeu então a gente não pode se acomodar Então vamos lá não pode se acomodar tem que minimizar o desperdício e ter que potencializar valor eu gosto de pensar que produto ele tem três usos primeiro ele tem que ser útil então se não é útil mata do seu data link House Ok o que que é útil é tá agregando valor de alguma maneira alguém tá comendo o meu prato de comida OK aí vamos lá utilização certo então então a utilização é o público alvo que que consome então se eu tenho um valor agregado eu mato a fome mas eu não tenho ninguém que consome qualquer coisa vezes zero é zero e a outra coisa tem que ser utilizável então eu tenho que fazer as coisas de uma maneira em que a experiência de uso ela seja agradável porque aí eu aumento os meus utilizadores então se eu não respeitar esses três usos meu produto vai ser falho novamente se uma das variáveis for zero é desperdício se não for útil corta se não for útil utilizado corta se não tiver uma boa usabilidade corta pronto perfeito Fabinho Última oportunidade de fazer uma pergunta pro agora é vamos sair para comer alguma coisa que deu forme depois desse papo todo acho que eu e o Igor ali Estamos na mesma situação né excelente o papo acho que foi um esclarecedor para você CONSEG entender fam olha entender não mas eu tenho uma uma noção melhor do que eu tinha antes de sentar aqui Ant tá bom falar que eu entendi não mas eu ã já consigo pelo menos ter uma uma noção dá um pezinho no no no mundo do dado né né mas é um assunto bem profundo dá para se aprofundar bastante não é simplesmente não precisa não pode ser descartado Ach acredito que isso seja fundamental porque senão vira uma bagunça toda isso aí rud meu amigo muito obrigado cara Eu que agradeço o convite sempre muito bom estar aqui você é da casa você sabe né Você é da casa n fala um pouquinho sobre o seu curso ah eu tô lançando aí um lançando não já é a segunda edição de um curso sobre datamesh eh provavelmente vai ficar gravado ali na plataforma Mas em breve também vou pegar esse conteúdo e vou colocar numa plataforma de ensino online também para poder facilitar aí todo mundo que quiser saber um pouquinho mais sobre o que que é produto de de dados O que que é uma governança federada eh Quais são os princípios ali do do datam E aí também traga um pouco do contexto do universo de dados fala um pouco sobre lind data olha só que maravil lind datata ó maravilhoso hein eu criei um termo chamado lind datata organization Olha só ó e aí eu falo um pouquinho sobre isso no curso Então também em breve vou disponibilizar isso em alguma plataforma tipo hotmart ou alguma coisa assim quando tiver você vem aqui fazer o lançamento no PPT beleza combinado então quem quiser saber um pouquinho mais também do universo de dados pode me seguir na no Linkedin Luis rud é bom ter nome esquisito porque iG examente então Me sigam lá se quiser fazer um B alguma coisa assim também eu tô super aberto aí para compartilhar um pouquinho sobre Universo de dados cara muito obrigado pela sua 49ª participação aqui no PPT no compila sempre dando aula de dados Muito obrigado e aí fica a dica aí ó todo mundo Assiste aí os 130 e poucos Episódios do PPT no compila e fique analisando as minhas 50 versões aqui Skins 56 5 já já tive cabelo comprido já tive cabelo quase crescendo já tive cabelo curto já fui gordo já fui mago já fui bombado já enfim fica a dica aí mas é o mesmo rud a gente te garante é a transformação é o Etel dele é muito bom valeu rud obrigado meu irmão valeu Fabinho Obrigado mano V ISO Valeu sempre nós no meu queixo você que acompanhou a gente tá aqui muito obrigado pela audiência de vocês se você acha que esse episódio agregou um pouquinho mais pra sua pro seu conteúdo pra sua vida profissional você pode ser membro do PPT no compila se você for membro do PPT no compila você vai ter acesso a conteúdos que só você vai ter e outros membros do PPT não compila e a gente vai sortear Não sei ainda quando mas a pessoa pode vir aqui sabia rud caramba vir aqui no estúdio e ver que isso aqui é uma bagunça uma bagunça organizada uma bagunça organizada mas uma bagunça divertida também né também é então você vai poder vir aqui vai ver como é a nossa gravação vai ver como é nossa intimidade aqui trocar ideia com com o nosso co-host com nosso convidado Então seja membro se você acha que a gente atribui alguma coisa para você traz alguma coisa de bom PR PR pr pra sua vida profissional pro seu entrenimento você pode ser membro e contribuir aqui com o PPT no Cila caso você não possa se você ar esse episódio para alguém compartilhar fazer qualquer coisa com esse episódio para ajudar a divulgação do PP compila você já vai contribuir demais pro nosso crescimento e com o nosso trabalho então não esqueça também de curtir seguir fazer as coisas que o host sempre esquece de falar isso é é eu sou péssimo de redes sociais né velho eu sou nerd mano é a gente acontece é acontece então dá like segue aí e etc que tudo isso ajuda demais a gente meus amigos muito obrigado novamente é isso aí Valeu galera valeu obrigado
[Música] [Aplausos] [Música]
Episódios Relacionados
1h 43minTransformando Dados em Decisões: Antropologia e Comportamento Humano | PPT Não Compila Podcast
Talita Castro, Danilo Martins
17 de set. de 2025
1h 51minO Scrum e o Agile estão morrendo? | PPT Não Compila Podcast
Victor Gonçalves
10 de set. de 2025
1h 25minVocê sabe como funciona e como evoluíram os browsers? | PPT Não Compila Podcast
Clauber Stipkovic
3 de set. de 2025
2h 1minSegurança estratégica de Software: O que todo Gestor e Executivo deve saber |PPT Não Compila Podcast
Rafael Lachi
24 de jul. de 2025
