Data Deep Dive: O Impacto da Qualidade de Dados nas Corporações
Convidados
Juline Louise
Consultor Independente de Governança e Qualidade de Dados @ Salter
Samuel Otero
Manager de Data Analytics @ Google Cloud Platform
Romulo Barbosa
Techrom
Explore o episódio
📊 Bem-vindos ao "PPT Não Compila" em nossa série "Data Deep Dive"! Neste episódio, junto com o co-host Romulo Barbosa da Techrom, desvendamos as complexidades da qualidade de dados em corporações. Acompanhe a discussão com nossos convidados Juline Louise e Samuel Otero do Google Cloud Platform (GCP), abordando temas essenciais como governança de dados, desafios de integração e atualização, e a prevenção do "Data Swamp". 🌐 💡 Destacamos as melhores práticas para manter a integridade e relevância dos dados, além de explorar o impacto direto da qualidade de dados na tomada de decisões de negócios. Nossos especialistas compartilham experiências valiosas e oferecem insights sobre como a tecnologia moderna pode ser utilizada para aprimorar a qualidade dos dados em diferentes cenários corporativos. 🔍 🚀 Este episódio é um recurso incrível para quem busca aprimorar a qualidade dos dados na sua organização e entender melhor o papel crucial que eles desempenham nas decisões empresariais. Assista agora para uma discussão informativa e prática, e não esqueça de curtir, comentar suas impressões e se inscrever para mais conteúdo! #DataQuality #DataGovernance #BusinessIntelligence 🌟 0:44 Abertura e apresentação 7:50 Definição de dados de qualidade 20:01 Gestão de acessos e observabilidade 22:56 Disciplinas que interferem na qualidade de dados 30:22 Preocupação das empresas com o dado 31:50 Cultura data driven e união com disciplinas técnicas 38:03 Dados real time 47:07 Confiança nos dados 59:10 Soluções para melhorar a qualidade dos dados 1:03:41 Custos e geração de valor 1:06:50 Mapeamento de qualidade do dado da informação 1:14:45 Processos e gestão de acesso 1:16:17 Qualidade e governança de dados não estruturados com IA generativa 1:25:19 Agradecimentos e considerações finais Convidados: Juline Louise: https://www.linkedin.com/in/julinelouisethiem/ Samuel Otero: https://www.linkedin.com/in/samuel-otero-schmidt/ Romulo Barbosa: https://www.linkedin.com/in/r%C3%B4mulo-barbosa/ Spotify: https://spoti.fi/49vSnZO Youtube: https://youtu.be/fdGFhn2PjvY Outras plataformas: https://linktr.ee/pptnaocompila Acompanhe nas redes Instagram e Twitter: @pptnaocompila LinkedIn: https://www.linkedin.com/company/pptnaocompila Produção: Voz e conteúdo | https://www.vozeconteudo.com.br - @estudiosvoz
- Desafios da Qualidade de Dados
- Introdução do Podcast e Tema
- Apresentação Juliane Luiz
- Apresentação Samuel Otero
- Interação com a Audiência
- Transição Musical
- Entusiasmo com o Tema
- Definição Subjetiva da Qualidade
- Qualidade Intrínseca e Extrínseca
- Impacto da Monetização e Observabilidade
- Múltiplas Dimensões da Qualidade
- Publicidade (Clever)
- Transição Musical
- Desafios de Gestão e Turnover
- Data Lineage e Arquitetura de Dados
- Qualidade como Disciplina e Ciclo de Vida
- Cultura Data-Driven e Educação
- Qualidade Transversal e Papel do DPO
- Tempestividade vs. Real-Time
- Propriedade dos Dados e Incentivos
- Custos e Medição da Qualidade
- Qualidade em Empresas de Médio Porte
- Publicidade (VMBS)
- Jornada Contínua da Qualidade
- Qualidade em Novos Projetos
- Custo x Benefício e Visão Estratégica
- Dados vs. Informação de Qualidade
- Gestão de Acesso e Governança
- Qualidade em Dados Não Estruturados
- Impacto da Má Qualidade na AI
- Consultoria e Próximos Passos
- Encerramento do Episódio
definição da qualidade vai muito de quem tá usando o dado né porque querendo ou não às vezes você pode construir modelos e coisas anatômicas e ninguém tá usando você começa a monetizar o dado você começa a perceber o quanto de errado está os dados da sua empresa né mas tem mais de 23 dimensões para você avaliar a qualidade de dados então assim é um assunto bem extenso então para você avaliar por várias perspectivas o dado sendo inserido e cadastrado é só o primeiro passo depois é qual dimensão para mim é importante eu monitorar criar regras Porque existe um investimento né como a comentou 70.000 tabelas vou monitorar 70.000 Será que eu vou monitorar só as mais utilizadas só as mais críticas bem muito bem meus amigos o PPT no compil estamos aqui para mais um episódio R hoje é dia de trilha nova cara trilha nova de dados trilha de dados sabe qual o nome dessa trilha cara Acho que você comentou data Deep Dive é um trava língua quero ver quem eu não me arrisquei a falar porque ia falar errado sabe quem sugeriu esse nome para mim cara não vou nem perguntar melhor não perguntar não você não vai perguntar você sabe a resposta ela a mais famosa do p a Gabriela passa os Torres minha redatora GPT P pegar essa e hoje qual que é o assunto da nossa da do nosso primeiro episódio da nossa nova trilha de dados R hoje eu vamos falar de qualidade de dado eh um tema super relevante apesar de ser um algo tão antigo mas ao mesmo tempo tão atual tão complexo e que acho que vale muito a pena estressar o tema e o eu tô muito curioso porque vai ser um tema muito bacana E hoje vai ser um dia fantástico porque acho que vamos falar muita coisa boa aqui também acho eu sou um cara que tenho minhas limitações em relação ao assunto estou empolgado para saber sobre essa disciplina tão importante que Dara de dados para falar com a gente disso aqui no PPT eu tô com a juline Luiz que é consultor Independente de governança e qualidade de dados tudo bem juline tudo bem Boa noite Boa noite meninos tudo bem como estão um prazer né na rável estar aqui com vocês nessa noite acho que vai ser um papo bem produtivo né Eh falar um pouquinho da minha trajetória né Eu sou farmaceuta de Formação procuro brincar de mexo com drogas mas é mentira farmacêutica aí você parou de trabalhar para mexer com drogas exato com drogas lícitas lícitas farmacêuticas Comecei na áa de dados de saúde fiz a transição fiz Engenharia de Produção trabalho com governança e qualidade né Eh atualmente eu tô na consultoria salter né faço consultoria independente também E atuo aí com a área de dados há mais ou menos há uns 10 anos né sempre em dados em qualidade e governança né e é isso aí Vamos bater um papo bem legal aqui tema legal obrigado por aceitar o nosso convite obrigada E para complementar o nosso ponto aqui Samuel Otero que é manager de data Analytics no gcp Google Cloud isso mesmo e obrigado pelo convite r então toda a equipe eh eu atualmente sou Manager de detalh no Google Cloud eh no time de professional servic que ajuda ah os nossos clientes a construirem plataforma de dados no Google temos várias disciplinas né Ia infraestrutura aplicação segurança e a gente presta consultoria também para vários clientes também no mercado para ajudar a usar o melhor Nossa plataforma né Eu tô aqui obviamente não só como profissional aqui do do do Google mas profissional de mercado né todas as minhas opiniões aqui não representa a opinião do do Google necessariamente então quero deixar bem claro isso vai ser um papo mais aberto né mais mais soft e atua no mercado também já desde 2013 com Big Data desde 2010 com dados já passei por um setor financeiro por outras empresas de nuvem também e também tive a oportunidade de dar aula também algumas faculdades aí do Mb de pós-graduação e de Big Data Analytics de 14 até 2013 Então foi uma jornada muito bacana para ajudar muita gente aí a a entender um pouco mais da área de dados e eu tô agora com H como mentoria profissional na eh na área de dados ajudando profissionais a eh ingressarem na área de dados ou alavancar sua carreira na aná de dados desde 2020 focando nisso e Desde o ano passado eu tô focando 100% o meu tempo e Extra né que eu tenho um tempo um pouco a mais aí não sei como né Eh na na mentoria então tô tô usando na mentoria na scda quem quiser acessar aí fica um Jabá aí que eu já combinei sda.com.br que a gente ajuda os profissionais também a fazerem mentoria de dados Eu sou um dos mentores lá tem vários outros profissionais também é bem legal também ajudar quem ficou interessado eu vou deixar o link aqui na descrição então e pode acessar aqui e conferir o trabalho de mentoria e sabe quem mais vai participar desse Episódio R tem mais um convidado tem mais milhares de ouvindo a gente você tambm nosso convidado e por favor Participe interaja conosco deixe o seu comentário aqui a gente consegue ver em qual momento você fez o comentário e se você ficou com alguma dúvida quer mandar pros nossos pros nossos convidados aqui que eles vão responder com maior prazer e a gente sempre D duro o Linkedin deles aqui na descrição você pode ir lá e pentelhar também tá mas participe comente deixe o seu like e também tem uma coisa coisa chamada progressão geométrica R sabia sabia disso não sabe o que significa Se cada um que tá ouvindo o episódio indicar esse episódio para alguém que não conhece o PPT significa que no próximo episódio a gente pode dobrar a nossa comunidade e nesse segundo eh Episódio se aqueles que foram indicados e os que já conheciam também indicar para mais uma pessoa a gente pode quadriplicar a nossa comunidade então Compartilha esse episódio você tem aí um minutinho para fazer isso antes da gente começar o episódio então Obrigado pela sua recomendação e seja membro também do canal tem isso agora Tem um monte de coisa né R para falar no começo cara tô super contente porque cara como tá evoluindo eu tô tentando ser blogueirinho Tá Viu tô tentando fazer todo o o o o script do do influencer nerd influencer já viu isso boa aí ó Isso é uma boa sacada cara você pode ser membro do nosso canal e contribuir aqui de alguma forma se a gente contribui também com você na sua vida profissional e se você for nosso membro lá no YouTube você corre o risco de vir aqui tomar uma cerveja com a gente conhecer o estúdio E participar de uma gravação ao vivo conosco então se você pode contribuir contribua se você não pode você já vai contribuir demais deixando o seu like e compartilhando esse episódio com com quem mais interessar Beleza então vamos lá que o episódio tá muito bom [Música] [Aplausos] Bora R sabe que esse episódio Vai ser muito bom até para eu entender algumas místicas da área de dados né sabe que eu como arquiteto desenvolvedor se a gente desenvolve ali um sistema cria tabela d da toda integridade referencial dela forma normal etc e as linhas aparecem no banco mas eu nunca olhei para aquelas linhas e falei essa linha é boa essa não é você sabe que eu também tô bem animado e ansioso porque primeiro porque é um tema eh apesar de não ser um tema novo mas eh tem ganhado cada vez mais relevância Principalmente nos dias atuais onde tá tá se falando muito do uso de Inteligência Artificial e enfim além de montar estruturas de datalake Delta Lake mas esse tema é um tema que cara seja empresa pequena ou uma empresa gigantesca tem seus desafios né então eu tô bem ansioso para paraa conversa de hoje sim também também eh brincadeiras a partes a gente queria abrir o episódio perguntando para vocês que que define um dado de qualidade bom vou começar por favor eu acredito que o a definição da qualidade em vai muito de quem tá usando o dado né porque querendo ou não às vezes você pode construir modelos e coisas anatômicas e ninguém tá usando né e muitas vezes você não consegue entender exatamente Como que você vai Como que você vai medir aquela qualidade Como que você vai entender como é que é aquela qualidade Então ela tá muito direcionada ao negócio ao usuário né de dados e hoje essa inserção entre o usuário né e a parte tecnológica é um passo muito desafiador PR as empresas né atualmente hoje essa essa eh conseguir juntar essa essas os dois lados para conseguir ter uma qualidade melhor né hoje a gente né não é só uma ou outra empresa a gente vê muito muitas empresas do mercado eu como consultora tenho percebido muito né esse movimento no mercado é é fazer projeto entregar projeto finalizar desenvolver coisas de Inteligência Artificial ou outros e ninguém tá olhando para isso e o usuário tá reclamando lá na ponta e a gente não tá conseguindo eh aplicar até pelo turnover nas empresas muito grande né com ferramentas novas a gente tem que ser um pouco agnóstico né em relação a ferramental então eu posso dizer Samuel que um o mesmo AD para um determinado fim ele pode ser bom e para outro determinado fim ele pode não ser ter uma qualidade tão boa é isso sim perfeito concordo com a juline juline juline vou acertar agora e eu acho que pegando esse gancho que a juline trouxe temos dois duas perspectivas até uma parte mais digamos assim eh na Perspectiva do usuário que é o que o o dado tem de qualidade intrínseca e o que o dado tem de qualidade extrínseca que é o o que o usuário percebe Ou que os usuários ou quem vai consumir aquele dado percebe ou quem provê aquele dado percebe então às vezes eh não tem como o dado ter uma melhor qualidade porque a qualidade intrínseca dele é ruim por exemplo se você C um cadastro de um cliente o cliente não tem o cadastro de endereço lá não tem dado então não tem como ter qualidade extrínseca naquele perspectiva mas se você tem um endereço cadastrado e de repente e não tem ali o o CEP mas tem por exemplo a a cidade de repente atende uma área de negócio mas não atende uma outra que quer uma precisão um pouco maior D um exemplo simples né então assim e é possível ter uma perspectiva de qualidade né do usuário e que pode variar e para um usuário para outro mas a qualidade intrínseca do dado bem importante tem algumas dimensões como completude como a cor a cidade que que é algo intrínseco dado né que aí não tem como mudar então quando quando a gente fala assim do do da qualidade extrínseca uhum a gente tá falando mais daquele valor do dado no conceito que a gente aprende lá no começo da faculdade dado que vira informação né então é a capacidade dele gerar informação com outros dados é o que eu percebo de valor certo perito mas eu tenho fatores então técnicos que também def nem a qualidade daquele dado né que não necessariamente está ligado exatamente ao valor dele eu consigo explicar ou terminei de complicar a [ __ ] toda caminho tá quase lá quase lá É que na verdade hoje em dia a gente eu não sei se Samuel Ele observa muito isso no mercado ou Home mas a gente usa hoje deve ser usado né Não que seja um cenário ideal mas o ideal seria usar observabilidade de dados para que a gente tenha mais indicadores ali para que a gente consiga F tomar decisão né esses tempos atrás eu peguei um cliente aonde a gente tinha eh um um uma 70.000 tabelas no ambiente como que você vai fazer a qualidade de tudo isso né é humanamente impossível você vai gastar muito você vai ter um a voz de você eh prover uma qualidade você vai acabar gerando um gasto pra empresa né e outros fatores também aonde você não consegue às vezes alcançar porque você tem usuários e internos da empresa onde você pode dividir por domínio de dados e você também tem usuários externos muitas vezes quando você monetiza o seu dado na sua empresa Então quando você começa a monetizar o dado você começa a perceber o quanto de errado está os dados da sua empresa né hoje a monetização é algo que todo mundo quer fazer né S já deve ter ouvido falar muitas vezes sobre a monetização só que a monetização não é tão simples porque quando você monetiza o dado alguém vai pagar por aquele dado né ele ele tem um valor realmente não é só um valor que a gente fala de valor ele tem um valor pre exato ele tem um preço e quando a gente olha ol para o preço do dado a gente percebe o quê que é diferente se você tem um cliente interno na sua empresa que tem um problema de dados de uma área específica de uma área de um domínio né de um produto área de vendas né ou qualquer outra área que tem ali ou se você tem algum cliente que ele já é seu e você monetiza o dado ele mesmo usa o seu dado então quando acontece essas situações você começa a ser mais cobrado pela qualidade do seu dado porque alguém tá pagando por aquilo e dói no bolso então quando começa a doer e a gente começa a ver as ex a mais pra empresa aí é mais preocupante mais a governança mais a qualidade e esses fatores mais relacionados a ao ciclo de vida do dado E aí que nem você falou no começo né alguns momentos eu me preocupo com a questão de desenvolver o ambiente fazer o ambiente mas em muitos desses fatores a gente tem muitas meta dados técnicos que a gente consegue gerar indicadores de observabilidade para alavancar e saber para onde a gente quer ir para onde eu preciso ir será que eu esse cliente de 70.000 tabelas mais ou menos 70% do ambiente dele não usava do a 3 anos Então como que você eh como que você fala pro cliente que você tem e tabelas sem utilizar há 2 a 3 anos e mais da metade desses 70% em torno de 30% basicamente ele estava relacionado a que a tabelas Não atualizadas então além de não ser usado não era atualizado e alguns casos que eh eh era usado não atualizado que é ruim e tem o o não atualizado que a pessoa usa obsoleto Então tudo isso impacta diretamente a qualidade do dado às vezes a gente não tá falando da qualidade do dado em si mas a gente tá falando de fatores metadados técnicos como atualidade e outros fatores que impactam diretamente sabe que são esses fatores intrínsecos é isso que não é o explícito digamos assim tô tô tentando formar aqui o conceito na cabeça de arquiteto tá a gente é um pouquinho lerdinho a mas a gente chega lá eh eu tenho ali uma uma base cadastral do meu cliente ele tem a percepção do valor do dado como boa porque ele tá vendo ali o dado na tela dele no sistema Beleza tem o telefone endereço tá completo tem o CP tá tudo aqui mas ali no momento em que ele observa aquele dado no no sistema transacional dele por exemplo ele pode não ter a data de atualização né E aí aquele dado de endereço é de 3 anos atrás Uhum E talvez ele tenha uma percepção da completude e do valor do dado mas aquele dado não necessariamente vai ser efetivo para ele porque ele não tem uma boa qualidade porque ele é um dado obsoleto sim é isso sim eh na prática se você for avaliar qualidade de informação qualidade de dados vamos dizer assim qualidade de dados é o que tá relacionado ao dado num perspectiva mais técnica né qualidade de dados e depois a gente expande para qualar informação eu separo um pouco esses dois que eu estudei um pouco esse assunto no no mestrado e a Juliane também usa muito no dia a dia mas tem mais de 23 dimensões para você avaliar qualidade de dados então assim é um assunto bem extenso então PR você avaliar por várias perspectivas por isso que para uma área pode eh várias pessoas da empresa Podem perceber de forma Diferentes né então como você tava comentando o dado tá lá completo tá preciso porque aquela informação aconteceu mas não tá atualizado atualidade é uma dimensão completude é outra dimensão precisão é outra dimensão conteúdo né se o dar o tem de conteúdo um formato adequado também é outra dimensão então assim Existem várias dimensões Cada uma com sua definição isso existe na na teoria e muitas ferramentas usam eh desses conceitos e aplicam na prática começam a criar métricas e regras para monitorar e ver como essa informação está ao longo do do tempo no dia a dia a evolução disso então assim eh eh ver eh o dado sendo inserido em cadastrado é só o primeiro passo depois é qual dimensão para mim é importante eu monitorar criar regras Porque existe um investimento né como a j comentou 70.000 tabelas vou monitorar 70.000 Será que eu vou monitorar só as mais utilizadas só as mais críticas enfim investir e isso e vai aumentando de uma forma incremental para você conseguir ter uma qualidade robusta na empresa como todo e prevenir problemas por exemplo eu acho que o base tá ótima aí vou monetizar aí na hora que vai chegar no dashboard Nossa então V que a base cadastral tá desatualizada e aquele dado na verdade 10% se aproveita Poxa aí é decepcionante cri é uma expectativa então se você não tá monitorando isso pode dar ter um time to Market muito mais demorado na hora que for implementar alguma ação em cima desses dados seja ó com projeto de monetização seja também com um projeto interno mesmo para tomar decisão basiada Em dado né quero falar com você agora quem ainda não conhece é Clever Clever é uma empresa que já tem mais de 3 milhões de usuários em 30 países com 30 idiomas diferentes que tem trazido Soluções em blockchain criptomoedas e ativos digitais o objetivo da Clever é te dar liberdade financeira para operar nesse mercado de cripto então se você acredita se você acredita nessa Liberdade você já Pensa como a Clever vai conhecer os caras é Clever estão contratando também pessoal para trabalhar com cripto com blockchain então se você tem interesse se você tem conhecimento nessa área procura Clever se você gosta de criptomoedas se você opera no mercado você precisa conhecer a Clever precisa conhecer as soluções da Clever então o endereço tá aqui embaixo no vídeo para quem não tá no YouTube é Clever Vai lá vai conhecer que realmente é um mercado sensacional [Música] R vou botar fogo na discussão que se você quer fazer uma pergunta faça agora porque a gente eu vou eu vou pera aí enquanto você faz enquanto você faz essa pergunta eu vou preparar o galão de gasolina aqui e vou vou botar fogo manda a eu tenho notado em alguns projetos que eu tenho participado de dados né oente implementar um projeto por exemplo de de streaming de dados quer implementar de dados porque quer pegar o tal o dado próximo tempo real para fazer alguma análise tal e aí o que eu vejo na prática é que muito pouco das empresas se preocupam por exemplo com gestão de esquim né de eu quero dos esquemas das tabelas pô quem se tem alteração quem alterou Por que alterou isso tem sido um problema gestão de acessos né ca da privacidade lgpd fala muito nisso que a gente pode até com observabilidade né olhar para isso né em muitos momentos você pode usar alguns fatores de metadados técnicos da para colocar dentro de observabilidade a gente também tinha feito na época a monitoria dos usuários né para ser como ele falou né como o Samuca falou mais proativo do que reativo né então você também pode começar a utilizar a gente dentro de um dessas monitorias que a gente acabou criando eh Em alguns momentos a gente criou monitoria do usuário para saber quem tava consumindo né as tabelas para que eu pod discutir regras de negócio né poder discutir como que a gente constrói uma regra nova de negócio como que a gente porque assim a regra técnica em si o técnico é fácil Teoricamente falando porque o técnico você extrai dos sistemas né de metadados de informações de você faz lá um um campo de data um campo de hora né então você tem algumas boas práticas de desenvolvimento que deve ser feito chave Primar chave estrangeira Então isso é importante é o básico Teoricamente do desenvolvimento né mas quando a gente entra no usuário é onde é o o dizer oal Aquiles de todo mundo hoje porque todo mundo tem dado e as pessoas não sabem quem tá usando mais o dado porque as empresas estão se perdendo hoje em relação a seus acessos a gestão de acessos é muito dito sim é tá se perdendo porque falta Talvez algumas ferramental para isso um outro caso que a gente temesso processo e você comentou no início da conversa a questão de rotatividade eu um tempo atrás eu eu fiz um projeto por uma um varegista anualmente tinha uma mudança enorme enorme cara como é que você consegue implantar um um um processo de qualidade de dado num cenário em que cara cada um ano muda o time eu sou suspeita para falar sobre isso sabia sobre posso rcar o fósforo porque eu acho que tem a ver com com com esse cenário que eu quero quero trazer para vocês discutirem né porque acho que tem muitas disciplinas nesse assunto que se se relacionam né e a juline falou de um assunto que eu gosto bastante que é observabilidade de dados né E porque eu gosto muito de pensar na observabilidade dosas como um todo né o fluxo disso como um todo né e é uma coisa que nós de arquitetura temos que policiar o tempo todo junto com a área de governança até para poder entender o fluxo e a história da vida daquele dado principalmente fazendo dat mapping né exatamente E aí entre o ponto principal como que essas disciplinas precisam trabalhar junto para afetar de alguma forma a qualidade do dado seja para um dado de melhor qualidade seja por um dado prejudicado por falta desse processo E aí eu vou dar um exemplo de uma coisa que dia sim dia também a arquitetura tem que bloquear às vezes em alguns processos de de etl de integração de ingestão de dados por exemplo que é o o famoso loop over né que sempre tem na na companhia você tem um sistema transacional que gera um dado aí você tem uma necessidade de uma área analítica ou de bi que vai consolidar aquele dado num dat Lake etc né E aí constrói-se uma aplicação C eu tinha aplicação a aplicação B gerando os dados dela transacionais o dado fluindo como um rio para onde ele tem que ir sabe nasce no transacional aí ele vai pro analítico cai na camada raw aí vai pro Golden beleza tudo lá com as camadinhas beleza aí o cara que cria o sistema B fala eu preciso do dado tá Prontinho lá no dat Lake bonitinho tudo certinho aí o cara quer fazer um load lá do datalake de uma informação que já foi processada que já teve alteração já foi curada etc e jogar de volta pro transacional aparentemente quando você fala assim não tem nada demais né o cara só tá trazendo mas Aí surge uma integração do sistema C pro sistema a que vai alterar a informação que é a origem da própria informação percebe o O lup Que Você Dá uhum entendeu Eu tenho um sistema gerando informação que vai pro dat lei eu tira informação do dat lei que leva pro sistema c e o sistema c sobrescreve o dado que é origem dele mesmo e que ninguém sabe porque não foi observado toda essa cadeia E aí você tem um dado que é xerox da Xerox da Xerox sabe mas aí da arquitetura tem Teoricamente a obrigação de ter uma ferramenta de linhagem né que é o famoso Lineage de dados exato para poder acompanhar esse fluxo né esse é o ponto que eu queria discutir com vocês Como que o data lineid data mapping e data Quality se relacionam nesse mundo complexo que é porque é é você tem que ter uma disciplina na arquitetura de dados que faça esse dataline age porém a realidade nas companhias é bem diferente Às vezes o cara não tem uma ferramenta para isso às vezes equipe que turnover tem um turnover é absurdo né e aí quando você vai ver você tem até inconsistência entre as bases sim porque você tem um um um processo de etl de integração que faz loop sobre si mesmo mas isso é só um caso só um exemplo um exemplo né prático de vida como se não houvesse em outras empresas duplicidade acaba ele alterou que nem você falou entrou na base ali você tá falando dos dois casos a pergunta do Home e a sua se complementam né porque no caso que ele falou do turnover o grande problema primeiro né vou falar da pergunta dele o turnover o principal problema do turnover são as tecnologias os ferramentais tá porque a gente tem um monte de tecnologia boa novas no mercado todo mundo usa todo mundo quer usar e etc mas você não tem aquela mão de obra à disposição para que faça e a mão de obra que sabe tá saindo amanhã E aí você contratou uma ferramenta Vamos dar um exemplo de R 2 milhões deais e aí um duas três pessoas mexe aí se faz lá contrata uma empresa para te ajudar a mexer E aí daqui a pouco ninguém mais tá usando porque caiu em desuso por algum motivo né isso funciona também não só para qualidade de dados né mas qualidade de dados D um exemplo porque eu você eh Há uns quro anos atrás me perguntavam Qual a ferramenta que você utiliza fazer entrevista Qual a ferramenta que você utiliza para fazer qualidade de dados eu falei nenhuma como nenhuma é é porque eu sou raiz reex eu sou raiz por quê reex fazer por fazer Rex por quê Porque você vai chegar em alguns momentos que as ferramentas elas não são a realidade do que você precisa muitas ferramentas elas prometem muitas coisas você faz várias coisas mas sempre tem um buchadinha que você tem que estar fazendo uhum né e acaba caindo na seguinte pergunta né como que eu aumento a minha capacidade de análise de qualidade de dados né se ao mesmo tempo eu tenho esse turnover como que eu equilibro isso E aí vem a o que eu vou perguntar para que eu vou jogar para você respondendo se a gente tem a uma das perguntas que as empresas fazem qualidade de dados como área ou qualidade de dados como a disciplina de quem que é responsabilidade bom ponto né E então assim isso é uma até falando um pouco de governança uma decisão muito da da gestão porque você pode fazer uma área específica que vai cuidar de todos os seus processos que eu acho isso um pouco complicado Tá mas que ela tem que ajudar a alavancar os processos dentro da empresa também a avaliar a questão de ferramental para ter esse esse Skill E tem também a questão de que cada é é que nem o brinco né e a gente tá na quarta evolução industrial né 4.0 quando todo mundo aqui estudou na escola né indústria 1.0 que era a máquina a vapor né e a gente chega no no no supermercado hoje vê uma lata de milho lá e a gente não acredita como é que fica 5 anos sem estragar né E por quê Porque eles passaram por toda uma evolução e a gente tá falando de nuvem o quê 10 anos Teoricamente falando a gente tá muito bebê ainda né então assim levando em consideração que tem uma Engenharia de Produção envolvida né para que a gente desde que é colhido milho onde passa por Tod todo o ciclo Até chegar na nossa prateleira na nossa casa isso também acontece com dados né porque é um ciclo de produção ele é um produto e serviço e ele tem que ser respeitado e como que acontece na fábrica tem vários fatores de qualidade né dentro do ciclo né Na hora da colheita na hora da transformação dentro da fábrica tem os fatores de qualidade sele sar os melhores milhos e para chegar qual os milhos que vai chegar na sua prateleira e e dados também tem que ser assim só que a gente não tem essa maturidade ainda entendeu por quê Porque que a gente ainda não consegue implantar dentro do ciclo de vida produção por isso fala tanto em agilidade linha hoje em dia né E até falei para você quando a gente tava conversando ali atrás eu fiz engenheiria de produção por isso porque eu sabia que no futuro ia ter bastante desenvolvedor e o pessoal da tecnologia tá muito preocupado em desenvolver mas ninguém ia tá preocupado com o ciclo né e eu falei meu a gente tem que tratar isso aqui como um ciclo produtivo né e não sei se isso deu uma clareada no que você perguntou deu uma ajuda um p acho que você tem um ponto Você tocou num outro ponto interessante que eu tava Acho que foi o ano passado não lembro onde eu vi a fonte Mas falando da da falta de eh da falta de conhecimento das pessoas das da empresa num todo em relação à preocupação com dado Porque as pessoas não primeiro a preocupação de todo mundo ter de da importância do dado de atualização de eh fazer a a a curadoria do dado mas ao mesmo tempo Tá mas esse dado serve para quê aquele gráfico que tá mostrando ali tá crescendo tá diminuindo tá que que decisão que tem que tomar e eu já vivenciei projetos Que Era exatamente isso o a gente não e a gente fez um projeto para uma empresa uma empresa de porte médio grande e em que a gente tinha que fazer o gráfico mais básico possível porque e obviamente explicar muito bem o que que aquele graf representava e que e que o gestor tinha que tomar decisão baseado na mudança do gráfico porque não tinha esse esse conhecimento então eu acho também tem esse lado também que eu vejo nas empresas na maior não todas algumas estão mais evoluídas outras ainda estão em evolução do conhecimento em si da importância né é a cultura data driving que ainda não é enraizada né E aí eu queria passar pro Samuca para ele e dar uma a visão dele complementando o ponto da juline aqui uhum eh porque se a gente fala sobre a qualidade de dados ela permear desde uma área ali que pode ser um coi por exemplo que é sei lá um evangelista sobre o assunto mas tem que ser tratado como uma disciplina onde eu vou olhar paraa qualidade do dado em todas as fases do desenvolvimento o não só falando de fase de desenvolvimento de software mas em todos os momentos da operação da ti eu teria que olhar para isso e lá no começo você falou que são 20 quantas dimensões mais de 23 mais de 23 dimensões de de na literatura de de qualidade de dado né Eh eu eu consigo imaginar só com 40 minutos que a gente tá conversando aqui vários fatores que você observando esses essas dimensões de qualidade que eu posso ter dado que você vai influenciar a arquitetura do software você vai influenciar a governança do dado que você vai influenciar a engenharia de dado né até produto né aliás principalmente produto né Para que você desenvolva um produto que trate melhor a qualidade do dado como é que permeia isso como uma cultura e junto com essas outras disciplinas que são mais técnicas como o data Line governança de dados dentro de uma perfeito acho que é uma pergunta bem Ampla mas bem profunda ao mesmo tempo e acho que dá para cobrir um pouco eu sempre procuro brincar um pouco né quando uma empresa fala que é data driven que que é data driven ter um time tem o bi um time de gia de dados a a Juliane para falar lá de governança e e meia data Science acabou esse é o data driven não é né então data driven é você pensar no dado ponta a ponta aí você ter desde o operador lá da empresa que tá pegando informação seja por ex empresa de varejo capturando o dado do cliente num cadastro para saber se tem qualidade não aprende qualquer coisa aí não saber se tem qualidade lá na ponta até o executivo da empresa falando vai entrar um sistema novo quem tá pisando na qualidade então assim às vezes a empresa tem um legado que já foi construído E aí não passou por uma uma certa avaliação de qualidade ou uma importância nesse sentido mas sistemas novos não tem desculpa né então assim sempre brinco né se fazer o novo fazer bem feito então empresa que driven faz o novo bem feito qualidade de dados qualidade de informação tem que ser premiado em todas as áreas sem exceção para você de fato ter uma cultura data driven se você não tivesse dado que é o seu ativo principal como qualidade que que você quer ter no final N então e isso envolve pensar num time de engenharia de software no time desenvolvedor né o geralmente o time que desenvolve aplicação ele pensa em qualidade de dados né pelo menos algumas empresas que não são ainda na na Lita driven o cara tá pensando em fazer a aplicação funcionar se ela vai escalar pensando no prazo também pensando no prazo para entregar rápido às vezes o prazo vem antes de tudo isso que você falou prazo é o vilão da qualidade eu sempre digo ex exato aí depois como vai ah depois tem que entregar informação para uma área de de de engenheria de dados de bi Ah esqueci disso aí P pera aí Deixa eu fazer um apzinho aqui puxadinho esporta um csv for um csv lá então assim não é assim né então assim depois o cara vai extrair dado aí o time que vai extrair vai ser ocupado que tá no problema no sistema transnacional aí vai ter que parar de extrair não vai entregar informação então assim eh a área de dados hoje ela tá cada vez mais importante relevante mas essa disciplina pensamento é importante de dados tem que ser cada vez mais expandida então de eu tô vendo nas empresas apareceu o cargo de data product owner fiquei bem feliz né porque eh a pessoa não é um product H é o data product honer né pensando em datam e tal mas não falando muito da parte técnica ainda mas pensando na parte né corporativa de funções eh é bem importante ter esse tipo de profissional e é raro encontrar é mais difícil você você vê engenheiro de dados você vê arquiteto de dados vê profissionais de governança mas o o profissional que tem Skill de negócio que tem uma visão de produto e que fala Poxa temos que pensar em dados de maneira mais profunda aqui então Eh desde que o Rômulo comentou né poxa tem um sistema Real Time que à o pessoal quer Real Time Ah por que que é Real Time Ah não Porque é importante né ter dado Real Time Às vezes você não vai tomar decisão Real Time então você não precisa Ah não vou tomar no futuro ou vai ser uma decisão automatizada Poxa legal Então vale a pena ser time agora e eh atualização da informação se a informação é atualizada é uma dimensão o tempo da entrega da informação é outra dimensão sabia não sabia tempestividade porque uma coisa é a informação tá atualizada vamos supor o cliente atualizou o cadastro dele ela veio na semana passada mas quanto tempo você demora para entregar isso lá no sistema House bi se demorar um mês a tempestividade dela de um mês mas ela tá atual Uhum você vai entregar em Real Time demora não 5 segundos ela tá lá ah então a tempesti dade elá é muito é rápida então às vezes tem requisito de tempestividade que também é muito ignorado nas empresas raramente é avaliado geralmente o p só pensa na latência da aplicação mas não tempo de entrega num áa at terh bi então assim eh é um tema bem amplo mas que as empresas em geral T que estudar já é um tema muito estudado eh na perspectiva de qualidade mais né operacional de captura de dados há muito tempo desde a década de 80 mas eh hoje cada vez vem mais sendo eh aplicado e dando importância Então acho que temos muito a amadurecer Eu acho que o gancho que a eh joline comentou de de de parte Industrial Realmente acho que a gente tem muita pista ainda PR TR aninhos só né É tem muita pista para percorrer aí mesmo e o ponto que você colocou da tempestividade Ela é bem ela é bem alusiva assim com a realidade que a gente vive de de ti né eu converso muito com Ron sobre arquitetura orientada eventos etc e eu vejo a necessidade por exemplo de um sistema Real Time ou o near Real Time Muito mais no transacional porque aí você vai ter eh operações concatenadas e e e e transações acontecendo em Real Time eh muito mais do que na área analítica Porque aí às vezes a tempestividade como você disse às vezes ela não é uma urgência de negócio isso a menos que você sen já falando Ah beleza eu quero ter aqui um painel realtime da quantidade de vendas das das minhas lojas do e-commerce é um stock né stock é importantíssimo ter Real Time né logística ex Aí sim você tá falando de uma dimensão do dado que vai te gatilhar eh ações de negócio em tempo real isso e e que necessariamente precisa passar por uma camada analítica né mas e são situações que são muito específicas né a maior parte das informações que você tem no analítico são informações consolidadas que não tem uma necessidade de tempestividade tão alta né pelo menos essa é a percepção que eu tenho isso quando quando a gente fala da das necessidades de sistemas né mas é quando o usuário você pergunta quando você vai definir algumas regras de negócio principalmente de atualidade a a eles juntam na sala desenvolvedora parte técnica negócio e vão discutir fazer um projeto aí Pergunta para usuário assim Pergunta assim quando quando você precisa o dado aí o usuário se diz assim para ontem PR ontem eu quero dado para ontem entendeu Tipo o dado entrou quer S ele não usa o dado naquele momento mas ele sempre o usuário sempre vai tendenciar para ter Real Time sim até porque isso Isso é uma uma falha que eu acho que a gente tem da não uma falha mas acho que uma uma uma melhoria que a gente poderia ter com as pessoas que modelam produto isso porque o geralmente quando você tá numa reunião como essa Eh o cara que tá discutindo produto e discutindo feature com esse usuário ele tem uma dificuldade de explicar pro cara o que que é um relatório transacional que o cara pode ter a hora que ele quiser porque tá no sistema dele ele vai ter uma listagem ali do que é um relatório analítico de dados é que o usuário Ele sente que se ele não recebe o dado agora ele tá perdendo informação ele tá perdendo de ganhar principalmente Sea de vendas entendeu ele e dado é meu eu quero ele aqui eu uso ele quando eu quiser é Exato eu sou o dono do dado né que a gente tem ess dificuldade de definição nas empresas né isso é uma coisa que é muito falada em governança então assim o dono do dado muitas vezes ele quer o dado para ontem ele nem vai usar aquele dado mas ele quer que o dado esteja disponível para que ele vai usar do jeito que ele quiser que nem falou eu sou dono eu quero ele aqui e Seja o que Deus quiser então vocês de tecnologia que se vir então uma das dificuldades que tem hoje como governança é você que conseguir o time técnico se entender com o time de negócio então o negócio tem que entender um pouquinho do técnico e o técnico temer um pouquinho do negócio então e E aí a gente como governante de dados fica no meio ali tentando ajudar todo mundo né né em muitas situações que não é a a o cenário ideal para as empresas Mas e o movimento da qualidade ele vai vir ele é crescente com a quantidade de dados que é gerada né alguns anos atrás tinha visto uma uma um artigo que ele falava assim 2015 2014 geramos dados nos últimos 2 anos como geramos nos últimos 20 eu falei meu Deus 2015 imagina hoje né Nem vi nem pesquisei mais sobre isso mas assim e é quanto mais dado a gente tem mais qualidade ele vai precisar porque o Ron comentou já hoje sobre a questão e da análise de dados em algum momento acho que foi ele não existe cientista de dados que vai usar um dado se não sabe Para que aquele dado serve ele vai virar lixo você também vai criar lixo isso não e E aí entam outras questões como glossário como catálogo como eh mais coisas sobre o dado e quem vai saber dizer você tem que cobrar o owner né e teve uma situação que a gente implantou selo de qualidade de dados em uma empresa e a gente começou a cutucar né fez gelo diamante ouro prata bronze e cobre e aí a gente fez todas as todas as tabelas E aí definimos fizemos os selos tal P pá daí um owner chegou um dia lá no meu privado Por que que a minha tabela é bronze falei porque né é uma regra de atualidade que não está respeitando a gente colocou as tabelas em d-1 para ver qual o efeito eu coloquei no melhor cenário tudo que tava fora e ser o pior não mas eu quero que a minha que o meu dado seja ouro no mínimo ouro não aceito menos que ouro falei então me fala a regra Ah mas a diretoria tá me cobrando e a gente começou a fazer uma produção puxada né porque a gente só vai mexer com qualidade quando tá incomodando alguém ou quando tem uma disputa interna de competitividade da empresa entre áreas né isso acontece muito se você começa a cutucar as áreas então eu comecei a ver nesses meus 10 anos de de de qualidade que se você cutu cara de negócio você com br do mexe com o bril com a beleza com aquele porque eu tenho dado eu sou o cara do analista eu vendo Então tá então você vende então aqui ó sua tabela tá desautorizada Ah mas não não é meu processo é tecnologia não sei o falei tudo bem então me fala quando é regra que eu vou refinar a regra né Qual que é a regra adequada de negócio que eu vou refinar a regra de qualidade de dados a gente coloca dentro da regra de monitora se é isso que você tá falando vai aparecer em quatro semanas ou em uma semana ou enfim se não é isso a gente vai descobrir entendeu então a gente começava a incomodar E aí começava a ter uma disputa interna porque um owner queria ser melhor que o outro todos queriam ser diamante falei mas diamantes Tem que atualizar a tabela todos os dias Ah então vou cobrar pessoal técnico então começou a ter uma cultura puxada né uma produção puxada que é muito falado no lim né pela necessidade por qu a diretoria via os indicadores de qualidade de dados não gostava do resultado de atualidade né e falava por que que essas tabelas não estão sendo atualizadas no que é proposto E aí a gente começava a refinar as regras né e as regras começavam a aparecer realmente eh ficava grande parte do ambiente ficava com bronze e cobre Porém quando pessoal começou a se mexer porque assim é melhor você colocar tudo no balai como ruim que daí os donos vão aparecendo se você falar que tá tudo bom ninguém se mexe Então foi uma das iniciativas que a gente conseguiu alavancar a qualidade com precisão e na prática deu certo entendeu porque você começou a expor aí a gente começou a colocar nome dos owners pras tabelas aí Pronto né aí F estouro D Boiada então assim aí você vê fo o refeitório fulano de tal tabela cobre vai ser zoado no H do almoço mas é isso que acontecia Porque pô a minha área aqui tenho três às vezes tem vários domínios dentro de uma área de vendas né Ah o meu domínio meu subdomínio aqui da área de vendas aqui tá vendendo mais do que o outro Ah porque minha tabela tá mais atual aí começa a dar o quê a fazer um movimento que não fica só na obrigação de ter I fazer as coisas sim não is isso é legal um movimento como esse sem o envolvimento do negócio não dá não dá não sai não sai é mas é aquela pergunta que você fez no começo né quem que é o responsável pela qualidade o usuário é não é o Quem tá lá a pessoa que tá desenvolvendo e fazendo ela é responsável por sustentar Aquilo é ISO a mas a regra Claro que existe as falhas hoje do desenvolvimento em muitos momentos a gente sabe que tem algumas questões assim mas a gente sabe que se você se a parte de negócio tá próxima a parte de tecnologia a coisa funciona tecnologia não tem bola de cristal para saber as coisas exatamente entendeu E pode perceber que tudo é culpa de ti sim sim Exatamente isso acontece lá na Austrália aqui no Brasil não imagina ti é santa n bom você que tá vendo esse podcast da hora tá vendo um monte de problema aqui que a gente tá colocando né e Quer uma ajuda aí na sua empresa faz o seguinte entra no site aqui da vmbs que a gente pode te ajudar vb. I nós somos uma empresa relacionada à arquitetura de soluções a modernizações de aplicações também atuamos na Font devops para ajudar vocês a serem extremamente ágeis então dá uma olhada no nosso site que vai tá aqui embaixo vb. i e lá você vai poder ver um pouquinho da nossa história dos nossos profissionais e aproveitando se você for um profissional da área de tecnologia que tá a fim de trabalhar numa empresa legal um monte de colega gente boa e tecnologia tipo ponta manda o e-mail PR people care@gmail.com [Música]
[Música]
nos dados ou seja a grande maioria não confia nos dados e uma das razões É por isso sim porque existe esse conflito né E quem quem é o dono do dado ou quem Quem produz o dado é áa de negócio né área tecnologia na verdade ele capta captura aquele dado e sustenta faz a limpeza faz o que tem que ser feito mas o dono do dado é área de negócio né É eu acho que tem uma meia culpa aqui que a gente tem que fazer assim sabe eu eu acho que a gente provoca pouco né Principalmente quando a gente tá falando da Concepção do sistema lá no transacional modelagem do produto etc acho que a ti tem a responsabilidade como a gente falou anteriormente né dessa disciplina de provocar o dono para extrair essas regras no momento da Concepção sim porque cara não dá para você esperar que um piou vá saber as 23 dimensões de qualidade de dado e vai colocar esses modelar o produto dele falar te faz assim que esse produto vai ter o selo diamante da Ju de qualidade de dados não vai né então eu acho que a ti tem a responsabilidade de extrair desse cara na principalmente na concepção né é o ideal e aí a gente já criar sistemas e plataformas considerando isso com certeza usuário ele vai falar cara pega o dado põe aí atualiza se é para atualizar eu vou mandar o Fulano atualizar mas mas como eu não tenho essa visão do do processo para que você tenha uma esteira de produção de que o dado seja sempre ouro se ele tem que pegar o telefone de ligar para todo mundo para mandar atualizar mas isso deveria ser um processo de negócio que o dado fosse atualizado por uma necessidade do produto e do negócio não porque ele viu o lá no refeitório a carinha dele com a tabela bronze Mas é porque daí foi provocado isso aí e aí entra na mudança de Cultura né Falou cara você quer que o seu seu dado seja diamante como é que você remodela o seu produto para que o dado seja atualizado todo dia sim né já que a gente não fez lá na concepção né E isso gera um custo também né se a empresa for mensurar quanto ela perde com qualidade de dados Isso dá mensurado né mas subjetivo é bilhões geralmente uma empresa né de porte que ela perde envi enviar um um e-mail errado enviar uma correspondência enfim retrabalho seja tomar uma decisão errada com dados que estão corretos então assim é que as empresas não mensuram isso mas se isso fosse mensurável com certeza seria uma prioridade número um se o ce tá vendo que o dado confia menos de 20% dos ceos Confiam nos dados por que que não prioriza na agenda né Qual que é a ação que ele tá fazendo como CEO falar ó daqui para frente vamos investir Eu quero uma disciplina de eh qualidade de dados e todo o projeto que for entrar aqui em produção de mas Esso é uma questão porque se ou não Cou não é que é assim ao mesmo tempo que tem a pesquisa falando das pessoas dos executivos que não Confiam os executivos Não priorizam exatamente você não confia e continua não confiando Ah mas é que não não quer dar E aí não não dá o subsídio paraa governança de dados para poder avançar com com coisas de qualidade e aí a gente cai em duas questões até que você falou das 23 dimensões né E pode ser muito mais porque assim aí você falou da provocação né fazendo encontro com as dois as duas falas a gente tem dois cenários aí sabe o primeiro cenário é doas 23 dimensões eu como tecnologia o que que eu tenho de ideia para poder provocar o cara o que que eu eu não tenho comentar na cabeça do cara então às vezes as 23 eu não preciso aplicar entendeu porque não é essa necessidade necessária E aí a outro lado da da segunda questão é beleza eu não tô olhando para aquilo que tem que ser monitorado mas eu tenho necessidade de monitorar o qu e muitas vezes muitos clientes eles não sabem dizer o que que eles querem monitorar eu não sei o que o que eles só eles só olham para um CEP e falo tá errado entendeu porque não tem essa essa base da qualidade na veia que é pensar vamos olhar para vamos monitorar ser numérico vamos olhar se vai ter letra vamos olhar formato o formato Poxa Teve um caso muito muito engraçado que aconteceu comigo que eu nunca esqueço isso alguns anos atrás a gente tava com um um caso de monetização e o dado tava todo mundo reclamando na plataforma vários clientes reclamando né externos que já pagavam pelo dado aí eu fui Dei uma de arquiteta vamos vamos atrás vamos atrás vamos começar comecei a pesquisar dentro do sistema né e fiz o meu selects também um pouquinho técnica eu sou fiz meu select fui encontrando fui encontrando achei a tabela dos CPS Sabe quantas linhas tinha a tabela de CP 114 linha só que daí 114 linha pelo menos 60 tava com erro e essas 60 transformavam em Milhões de outras linhas posteriores então uma tabela né de de que tinha Cent e poucas linhas que era só 60 o erro Teoricamente um pouco mais da metade o que que o que que a gente pode est tá olhando para isso o que que a gente pode estar fazendo a minha orientação foi ah eu fui ver que tinha uma bagunça daí esse é um outro problema porque a camada Roll mandava direto pra camada métrica não tinha uma camada de transformação aí passava sabe então assim existe também essa bagunça interna os sistemas né Às vezes eu conheço empresas de saúde não vou citar nomes mas que consome udar direto com m RW olha olha o problema isso para o negócio Olha o problema isso pra tecnologia muita dor de cabeça então porque não tem o básico Ah mas o ideal é aqui para que a pessoa quer ter o dado mais próximo mas a gente não pode dar esse tipo de acesso na cabada RW sim o dado nem foi transformado ainda como é que você já tá aí gera outros dores de cabeça e aí Ju tem um ponto que eh também me vem em mente que é nós estamos falando aqui amente de grandes empresas né que tem estrutura tem Engenheiro de dado tem cientia de dado tem arquiteto e quando você olhar da camada de médias vou nem falar o pequeno mas a média empresa onde o cara talvez tenha um bi O Bi é o cara que faz tudo cara o cenário é muito mais desafiador eu diria a gente fez um projeto para um cliente também e uns anos atrás que era um projeto de datalake montou datalake e quem minha gerenci era o o cara de bi eu falei pro cliente você precisa ter esse profissional de engenheiro de dado esse cara tem que fazer ess ele não tinha ele não tinha a menor ideia falou você precisa ter preocupação de atualização do dado qualidade do dado para que você eh primeiro obviamente tem o dado acurado e segundo que você pague esse investimento que você tá fazendo nesse trabalho ele obviamente volte para você porque se não tiver essa esse time você vai jogar dinheiro fora eu acho que na na nas empresas médias a gente tem ainda um desafio maior que geralmente você tem plataformas prontas que você tem pouca flexibilidade de comod dado gerado na ponta n né E aí a tua camada R literalmente camada t é isso que a Ju comentou zona é exato pessoal consome o dado direto e vira uma Z terceirizado também captura de dados e vem muito ruim exatamente e o pessoal começa a montar Le já vi também isso e falar não projeto não funciona o projeto atrasa é ruim e vai descobrir que o problema tá na captura de dados lá na origem terizado isso isso também tem muito problema em aquisição de dados né existem empresas que compram dado existem empresas que tem muitas empresas eu eu sou uma empresa Central tenho outras pequenas empresas que comprei ao longo da minha história e aí começa e aí querem colocar tudo para dentro do mesmo ambiente vamos unificar porque tem que democratizar porque essa palavra fala ass muito democratizar verdade todo mundo tem que ter acesso só que aí é tudo feito a qualidade é útimo sim e saber que acesso é uma dimensão da qualidade cada hora tragou uma aqui hein sim gestão foi aquilo que a gente falou gestão eu contei umas 10 ainda tem 13 até o final tem mais usabilidad né sabiam o que acess usabilidade também não tá na literatura não tá entendeu então assim acesso não tá lgpd não tá lgpd tem que ser tem que tá também anonimização endeu anonimização então assim não tem na literatura eu ainda falo aqui aqui nesse podcast agora vou contar para vocês que eu vou escrever um livro Um dia ainda um livro vou escrever um livro sobre essa essa essa questão porque assim ó tem a literatura né sambuca e a literatura fala algo que não é da nossa realidade verdade ele fala ele te dá umas pinceladas de um desenho entendeu porque a real realidade da prática da qualidade não é conto de falas né então a gente sabe que tem vários problemas E esses E essas dimensões são aplicadas conforme a necessidade de cada negócio que nem eu falei área disciplina né Será que eu faço uma área ou cada área vai tem que ter que nem ele falou até você falou do engenheiro ele falou do arquiteto eu fui numa empresa que não tinha arquiteto eu falei mas quem que faz oep ah é o pessoal de projetos com engenheiro com não sei quem junto tá mas o arquiteto Qual a ferramenta que vocês fazem modelagem a gente dá um jeito entendeu então assim Falta muitas cadeiras ainda eu tenho visto surgir umas cadeiras novas também no mercado que são a sre que se não tô enganada alguma coisa assim sim uhum que tem muito a ver com reabilitação do ambiente tá muito na moda agora disponibilidade isso disponibilidade que tem correlação com com o pessoal sempre confunde né a curá versus curadoria uma coisa diferente da outra né E aí eh o pessoal acha que é a mesma coisa não é né então assim em muitas situações eh a gente coloca essa reabilitação do ambiente para essas responsabilidades que vai contra a qualidade de dade Isso é ótimo que tenha né então a gente vive esse cenário agora e a tendência é que aumente essa necessidade da qualidade porque vai chegar um momento que vai ficar insustentável nas empresas porque tá todo mundo girando dado e guardando ninguém tá fazendo gosar ninguém tá fazendo nada ninguém sabe o que que é daqui dois anos saiu uma pessoa entrou outra turnover e problema de dado e aplicabilidade virou o famoso data Pântano e Pântano de dados eu sempre digo isso muito é muit né É E aí foi algo que o Samuca falou já hoje né e as empresas querem fazer mas daí quando começam não querem fazer o legado querem fazer o novo né ah deixa o legado para lá não o legado existe ele tem que ser utilizado em algum momento tem que ser reciclado Em algum momento quando necessário né mas e não quer dizer que você vai usar o seu legado Mas a partir de hoje você faça certo então você não vai conseguir talvez Ah eu tenho aqui zilhões de teras zerby zilhões de berbes sei lá quantos bites tem lá e vai chegar o momento que você vai dizer tem que virar a página dizer a partir de agora a gente vai começar a monitorar o que é passado monitora para necessidade de negócio de do que aparece comp compli lgpd é muito muito importante porque eu vou eu posso afirmar aqui sem medo de ser feliz pelo menos 80% das empresas do país is Hoje não tem essa adequação não tem não sabe Para que serve eu sou de governança eu sei o que eu tô dizendo não sabe como é que traz a área de negócio junto com a área jurídica junto com a área sabe técnica né E aí o pessoal não sabe de quem que é responsabilidade de anonimizar Ah eu sei que você p vou anonimizar mas pera aí não é você Você não estudou para isso não é sua função anonimizar como você vai afirmar né tem que ser uma pessoa da Lei e isso o pessoal não consegue distinguir muito né porque não sabe qual a finalidade não sabe qual a iniciativa E aí cai muito na Prisma do quê da gente olhar para todo esse cenário e não conseguir resolver os problemas tanto de qualidade como das outras áreas não e aí entra aquele ponto das outras da das disciplinas correlatas que a gente sempre diz né como é que você vai anonimizar o dado num determinado ponto se você não tem um lineid efetivo isso lá na ponta você sobrescreve o dado e e a outra áa o sistema quer usar e não tá anonimizado e não tá anonimizado ou quebra ou né então tem tem tem tem que ter um um desafio de fazer essas disciplinas de dados né que eu acho que é bom porque a área de dados ganhando mais destaque tipo não tem mais só o cara que ficava fazendo etl e o cara do bi sim e a gente começa a explodir para essas outras disciplinas né Samuel é isso aí e e que elas têm que funcionar em conjunto Eu acho que só fato a gente tá gravando um episódio que é específico sobre qualidade de dados e não tá discutindo as outras já é esquisito não é sim sim é verdade são são disciplinas totalmente interdependentes vamos dizer assim mas e pegando o gancho que você falou agora de de de italin a gente acabou aprofundando na pergunta que você fez lá no início de o loop eu acho que na perspectiva de arquitetura técnica tem algumas opções que você pode ter para tentar essar isso né Por exemplo fazer um mdm Master Data Management do sistemas de origem antes doare House ou do datalake ou depois né dependendo da camada gera no ra depois faz tem algumas formas de você conso para ter uma resposta mais operacional mas também projeto de mdm é um projeto que exige investimento exige tempo exige era de negócio você vai fazer mdm de cliente de produto e também são coisas diferentes e também exige eh não é alguma coisa que você faz em um mês e já sai o resultado né definir regras então e isso leva tempo mas se você fizer isso bem feito por exemplo consir uma visão trans do cliente uma visão robusta e depois habilitar uma ap que o sistema tradicional se se retroalimenta no sistema analítico Nossa fica sensacional estado da arte disso é digamos assim não tem fim é uma jornada né qualidade de dados você não faz fiz o projeto de qualidade temos qualidade agora não é ente né É Vivo é contnua um ciclo que não para mas e existe Alguns milestones alguns pontos chave que você atingir vai para outro patamar né Eh implementar regr de qualidade de dados antes de carregar o dador uma camada Raw ou depois de uma camada Raw no mínimo colocar sempre chave primária chave primária garantir que você tem e no mínimo monitoramento dessa dessa camada porque se você tornou só você é um dono de um domnio se você colocar pelo menos o que tá entrando aqui eu se que tá entrando você já garante pelo menos na sua casinha ali o o seu trabalho razente bem feito ah quantos quantas linhas costuma entrar nessa tabela ah 10.000 linhas por dia ah um dia Entrou 10 alguma coisa aconteceu né liga pro Nok lá porque o sistema transacional parou sei lá ah não não eh pararam para fazer balanço Ah tudo bem então não foi um problema algo do negócio ah não o sistema parou ah pegamos aqui o cara de negócio não vai acordar amanhã de manhã e olhar o sistema e falar poxa que que tá acontecendo Então já consegui proativamente tomar uma ação evitar tempo estess então assim coisas básicas dá para ser monitorada mas eh tem soluções que dá para você fazer para pensar mais corporativo na Nível corporativo e eu acho que muita assim pegando o gancho que a gente falou que o novo tem que começar bem quantas Startup não estão começando do jeito que uma empresa deveria enterprise começou ano passado e não deu certo então assim a Startup deveria começar certo né sim obviamente ela tem menos talvez capital para investir mas é mais simples também então assim sim tem menos processo process burocracia tem o sistema tá começando eu tenho muito porque eu vejo começando errado depois vai fazer um scale e ou vai para um IPO alguma coisa e depois Putz começa a fazer um monte de coisa de última hora então assim e startups também deveriam ter um olhar mais cuidadoso com isso também cuidos é que vivemos a era do MVP também tem esse ponto aí é que a galera esquece que o o MVP ele tem um v de viável é mas pula do MP ele não é só MP e E agora vocês de dados estão sentindo um pouquinho do gosto do veneno ali da á de arquitetura que a gente sempre briga inclusive quando a gente tá falando de modernização de aplicações de trabal trabalhar estrangulamento por exemplo começar já numa arquitetura nova enquanto você convive com legado e e e vai estrangulando aos poucos uma te bimodal ali com uma arquitetura de convivência arquitetura de transição Eu gosto da arquitetura por evento conversei com arquiteto que me ensinou muito sobre arquitetura de evento eu t apaixon esse cara aqui muito e ele me ensinou muito eu participei de um projeto de arquitetura por evento e sou sou a favor bandeirinha da arquitetura por evento porque ela evita muita coisa e e e esse trabalho de modernizar e e e que tem muito a ver com o trabalho que a gente tá falando aqui de criar um dado já no mundo novo com qualidade com todas as premissas etc e conviver com o legado né são duas coisas que tem que caminhar juntas e a gente sempre em arquitetura a realidade ela é sempre cruel né porque você tem prazo apertado você começar a fazer direito custa mais né você vai ter tem uma m um pouco maior demora mais e aí dependendo do contexto ah bota aí nesse monolito mesmo depois a gente vê o que faz o que eu vejo é assim qualidade de dados e pelo menos na parte de dat Lake n House geralmente tem uma um custo maior na hora de e iniciar a disciplina você começar a fazer seja por uma ferramenta seja codando tá Obviamente codificando você tem mais flexibilidade né mas vai exigir que o turnov seja um pouco menor né mas no começo é um pouco mais difícil depois que entrou cara as regras começam a aparecer de um jeito muito mais rápido entendeu E aí gera valor muito rápido porque você começa a pegar problemas e convencer executivo então assim Acho que existe uma curva no começo mas depois ela se paga né mas o custo que aparece na decisão é sempre a do raio do começo entendeu né geralmente e principalmente quando a gente tá falando no mundo com de de scr de ágil etc a o horizonte de visão é sempre a próxima Sprint né não não não como uma crítical método não me entendam mal mas eu acho que a gente tem que ter outras cadeiras que olhe mais pro estratégico sim que olha Além disso né o cara tá fazendo o papel dele ele tem que entregar o pãozinho de amanhã e beleza mas alguém tem que olhar o estratégico de como coordenar tudo isso para que essa que essa estratégi se encontrem lá na frente né pensando no produto eu acho que é o data product owner junto com que vai pensar nas releases então assim na release atual não entrou essa feature de qualidade mas na outra vai entrar uma de comp que que é a prioridade né Eu acho que essa visão de release porque o engenheiro de dados vai conseguir falar bota uma feature agora de qualidade que eu quero eu acho legal não E outra ele sozinho só com o aspecto técnico ele não consegue definir tem que partir do produto ele vai olhar o dado intrínseco no máximo né se a gente pensar no todo né E outra coisa que eu nunca vi na muito nas empresas pouquíssimo uma empresa que na verdade fez isso é fazer uma apenta de qualidade da informação aí então já mudando um pouco a perspectiva mas sem querer jogar bola para isso mas é como é que você avalia a perspectiva do usuário né que a Ju comentou de eh área de TI área de negócio e tal Quem faz o mapeamento de falar o que que é mais importante o que que é relevante para esses usuários ah tudo é relevante tudo é notado aí quero tudo quero atualidade eu quero consistência precisa Então mas existe um certo limite da física né sim então assim uma hora existe liite fí Mas você comentou já hoje sobre completude né e é legal a gente falar também um ponto sobre completude que me chama Mita atenção nas empresas é porque a gente fala de completude nas reuniões as pessoas fic com boiando tá literalmente porque o uma coisa que aprendi muito em qualidade há muitos anos é que a gente tem que ser um pouco mais profundo e e tirar um pouco a completude de cena porque quando você fala completude pode ser tanta coisa você não consegue ser preciso que que você quer ser porque pode ser completude o que é completude é uma coluna completa é um conjunto de colunas perfeito entendeu É é conjunto de regra o que que então assim isso é uma coisa que a gente é uma da quando a gente foi aplicar a qualidade de muitas empresas né a gente sempre se preocupou em colocar ó preenchimento de linhas preenchimento para qu porque o usuário entenda o que que ele tá vendo Às vezes a gente tá querendo mostrar algo para ele de qualidade e ele não tá entendendo o que que é né pela questão da da da própria forma de de se expressar ali pro negócio a parte técnica né E aí alguns momentos você eh eu já vi empresas que tratam completude como um conjunto de endereços preenchidos se tiver eh número endereço CEP etc ó a completude é 90% essa visão do usuário é mais baseada na qualidade da informação é isso que você tá Você tá colocando né inform que complementa a qualidade de dados que vai ser a parte mais técnica geralmente mais intrínseca sim um um dado de qualidade por consequência gera uma informação de qualidade tem a Gerar Mas pode ser que eu não tenha uma informação de qualidade por exemplo é o dado não tá acessível tem o dado lá mas o time de segurança demora 20 dias para dar o acesso Uhum Então assim né a informação nem existe nesse caso é então tá atualizado tá com precisão tá completo mas não tem acesso eh como é que a gente consegue dar um acesso mais ágil mas com governança que o dono também valide e tal né o completude igual a falou ã tem quantos nulos tem informação simples de você avaliar né você roda uma regra simples né quantos nulos veio na base quantos nulos por coluna Será que isso gera um alerta se tiver Geralmente eu recebo Geralmente as empresas não sabem dizer aí geralmente a gente começa a dizer começa a fazer avaliação de desvio olha Geralmente vem 90% aqui completo 10% de nulo se tiver um desvio padrão acima de sei lá dois desvios três aí gera um alerta então assim às vezes é uma forma de você começar que às vezes que quantos por você tem que ter Ah não sei é que às vezes o usuário às vezes é um usuário que olha 90% preenchido aceita e tá bom e para outro não aceita para outro não ex Então são dois fatores é bem curioso por isso que esse mapeamento de você valiar é a importância geralmente é feito uma um questionário envia para vários usuários aí aí você consegue abitar uma percepção e falar ó essa aqui é uma estatística essa aqui é a média do que você quer essa dimensão tá maior que essa porque existe um tradeoff n algum momento né Eu quero a informação completa ou quero ela mais rápida uhum né Porque quanto mais completa ela quiser mais mais regras vão rodar mais tempo vai demorar no dat Lake né tende a demorar Ah eu quero rodar realtime vai vai pedir pro home lá bota o CFC aí bota o confluent aí aumenta a Instância lá então assim vai aumentando o custo então se você tem uma prioridade maior em completude e do que o tempo talvez você possa esperar um d-1 para para esperar mais completo e de repente tomar uma decisão Real Time ou Real Time você toma com dado menos completo Então existe alguns tradeoffs que vão acontecer existe o limite da física do do dado porque pra gente gerar informação exige um processo então uma hora a gente vai encontrar esses limites e e é curioso que numa empresa que eu trabalhei eles estavam disparando isso que você falou né eles chamaram formulário data produ né Eh ó você quer solicitar algo novo vai ter que responder um questionário legal entendeu E aí tudo que entrava de novo era tinha participação de um uma pessoa de qualidade de dados um governante um arquiteto e um engenheiro eram cinco mãos que a gente falava e aí fazia i a partir do data pro gente começava a rodar né E aí já já saia com várias perguntas né Na época eu falei cadê o pessoal de lgpd aqui não tinha ninguém daí traz a pessoa e daí foi melhorando né com o tempo você vai adaptando também a sua realidade né isso que você falou é interessante porque você consegue entender também a finalidade do uso isso do uso difícil diferença né fina aí entra naquilo que a gente falou no começo né Às vezes você tem um subset de dados que Para uma determinada informação gera uma informação de baixa qualidade mas para determinada informação não pode gerar uma informação de qualidade ou simplesmente um dado ok né sim Exatamente é é que ele falou que segurança libera muito hoje em dia a o dado né A gestão do acesso do dado Mas se for para para pensar quem tem que liberar é o data owner ele que é o dono do dado ele sabe aquele dado serve el tem sim então vees pass responsabilidade Ah é do pessoal jurídico não é Ah é de segurança da informação não é não é obrigatório né Cada empresa faz conforme a sua empresa cresceu tem tem empresa que não tem área de segurança tem informação não e quem tem que quem tem que saber quem pode consumir e o e e quem pode ter acesso determinado é quem sabe o valor dele como é que uma única área de segurança por exemplo vai entender as consequências o valor de cada dado né isso tem tem que ok em um determinado nível de aprovação você pode até ter uma camada de segurança privacidade e falar não pô você tal o área você não vaiar acessar a base de cliente que é explícito né mas para casos mais e de nuances de negócio ninguém consegue avaliar além do que o próprio dono do dado né Sim Isso é dinâmico também né muitas vezes as áreas têm um dado privado que é só dela e out que ela quer expor para outras áreas vira pública isso uhum o datam vem pegando muito também por causa disso para dar mais autonomia habilitar as áreas né Eh mas também não é trivial implementar a questão da da governança como todo né eu gosto do dataplex por causa da datam que a gente consegue fazer gestão de acesso lá dentro sem axend no iam eu gosto isso é uma coisa positiva que foi implantada ao longo do tempo e porque querendo não a grande Pergunta do Milhão é quem é quem que é quem que faz a gestão do dado é e na verdade é um comitê porque você precisa ter várias disciplinas é uma esteira né tem que validar se a segurança de informação tá ciente de que os sistemas vão se usar para aquela pessoa tá ok se tem algum dado pessoal ou não pessoal jurídico se tá ok se governança viu que todo mundo tá dentro da né se foi feita uma engenharia adequada se foi feita uma arquitetura adequada Então tem que ser tipo uma esteira né às vezes não AB chamar de var N1 n2 tem que ser um N1 n2 Talvez sim geralmente assim esse processo ele começa com esse você falou da esteira do mas para ele escalar notame ele tem que automatizar sem 100% praticamente 100% né E aí vem o desafio né como é que se automatiza H alguns processos que estão há anos lá e uma pessoa sempre olha o relatório Aperta o botão e decide Então acho que eh existe também um trabalho de área de dados acaba pegando essa carga de eh rever parte de acesso ponta a ponta na empresa para conseguir habilitar o Nat mecha às vezes né então eu vou levantar uma bandeira aqui que eu vou deixar um rabo para a gente grava um outro episódio que a gente já tá é que é uma uma outra um outro assunto polêmico que é gestão de acesso que tá muito ligado à privacidade e e datam como um todo porque eu acho que a gente tem um grande dilema aqui né a gente tem que proteger tem que ter os processos só que eles tem que ser eficientes né e o que a gente vê hoje no mercado pelo menos como arquiteto que eu reparo É são dois extremos a gente tem um que não tem governança nenhuma tudo não tem acesso a tudo né ou ou o cara de segurança que pede tem acesso e é uma é e é uma vár Ou você tem um processo tão engessado e tão e tão super governado que Ina o negócio Lead time é uma bosta você não consegue entregar nada porque não tem velocidade para isso E pior que é um processo de que 90% das pessoas que aprovam só clicam no aprovar porque não tem condições de entender o contexto do que ela mesmo tá provando porque geralmente é baseado em hierarquia aí passa pro gerente diretor o diretor sabe nem o que tem naquela tabela sabe ele tem que aprovar is isso não faz sentido né então exatamente Então os processo eles têm que ter tem que ter razão de existir n de existir exatamente e e eu quero discutir isso com vocês numa próxima uma boa discussão também posso jogar mais uma então joga mais uma gasolina uma gasolina eh como é a qualidade de dados e a governança para dados não estruturados agora com DNI imagem e áudio sido estruturada no estruturado era esse ponto que ia colocar chegar aessa daí agora tá nesse tá nesse né nesse nesse entusiasmo agora tudo é de Nar todo mundo querer olhar quer quer implementar mas cara tem dado de qualidade para usar é vamos pegar os milhares de áudios Aí começar o Samuca falou uma coisa que eu gostei demais se a gente não tá nem conseguindo fazer o estruturado pois estrutur Mas é isso o que eu tô vendo agora é que agora a bola da vez é jni agora é a bola da vez todo mundo quer fazer só que de novo eu tô vendo que não tem um arroz que fezão básico que é dado de qualidade dado estruturado dado Centralizado dado Limpo eh não vejo eu escrevi um artigo esses dias sobre isso sabe Qual o impacto pessoal Procurei meu liquidinho mas tá lá o impacto que a qualidade Depois deixa o link na descrição Qual o impacto que a qualidade a governança tem em relação à Inteligência Artificial né Eu escrevi um artigo curtinho dois minutinhos eh falando sobre isso mesmo tipo a gente tá arrumando os dados estruturados a gente tá fazendo iniciativa tá descobrindo como que a gente vai fazer a qualidade do nosso ambiente porque sempre evolui todo dia evolui e a gente tá entrando numa era que num lugar que a gente não conhece ainda entendeu lugar que a gente não conhece um lugar que a gente não sabe como a gente vai aplicar ainda os modelos de qualidade né eu tenho uma ideia mais ou menos como seria mas eu ainda não vi nada funcionando ainda ao viv a cores mas eu sei que isso vai ser um novo debate aí para discutir no futuro que o Samuca comentou porque vai ter muitas muitas dores de porque assim você vai treinar um modelo é outro livro você vai treinar um modelo só que o modelo não vai vir com qualidade que ele aprendeu já aprendeu errado é tipo educar uma criança com livro faltando página exato então é bota lá no primário para aprender tudo que os livros tipo uns T página outros não entendeu esses daqui vocês vão ajudar a gente escrever a professora fala na aula isso é mas você vai aprender o quê você vai aprender aquilo que te ensinaram não é você aprende certo e errado com criança ex Qual que é o resultado de uma criança que te fosse educada a primeira a quarta série com os livros faltando página Esse é o teu modelo com depois de treinado com com dados de baixa qualidade Mas é isso que vai acontecer a ia vai ter baixa qualidade também eu tenho essa essa essa coisa bem forte na minha mente certeza E aí vai entrar na mesma questão que a gente falou no início da falta de confiança dos ceos e presidentes e diretores executivos por não vão ter confiança na Ia sim e aí vai voltar aí o problema é a tecnologia é aí é problema é tecnologia é só que aí tem todo um histórico para trás que ninguém nem olhou pro básico nem o básico a nem as estruturas a gente viu a gente quer ensinar o modelo a fazer o não estruturado se nem o estruturado a gente tá olhando então isso vai dar muita dor de cabeça sim eu acho que assim todo o projeto de DNI deveria vir com Pilar de governança e e governança de dados e com certeza qualidade de dados a curadoria do dado não dá para ignorar né e na mais agora por exemplo áudio né fazer speit text tá muito prático tal mas eh quem que o que tem nesse áudio né O que vocês vocês fizeram de alização às vezes não se separa nem que quem é o cliente Quem que é o sim o atendente então assim é um trabalho difícil às vezes de de gente avançar Mas vai ter uma disciplina aí com certeza para dar no estruturado que vai surgir aí e e me surpreende que a gente esteja ficando mais preocupado agora com a gni em relação a isso sendo que o problema ele é tão crítico até pior pela pela pela não flexibilidade quando a gente tava avançando até uns anos atrás com machine learning de modelo classificatório sim no Você montar um um modelo classificatório de de machine learning e com com baixa qualidade de dados também vai ter um modelo com péssima acurácia né É que agora a gente tá na moda falar de de A generativa então e aí tem aí os grandes escândalos de de uso de dado do chat GPT o assunto subiu à tona de novo mas é é é um problema tanto quanto a tecnologia que a gente tinha antes os médicos já não estão confiando na ia esses dias eu ouvi um amigo meu falando né médico ele falou assim nós da classe médica não confiamos na EA porque os dados que foram olha olha isso os dados que foi aprendido não são de qualidade são de baixa qualidade ou de má qualidade então acaba caindo uma presisa o que eu não consigo criar confiança no negócio de novo para usará você vai conseguir fazer o básico eu digo em negócios que não vão tem impactos mas negócio de saúde vai ser mais delicado e digo que a saúde é muito preocupada com o dado correto né que no início da minha carreira a gente TR por mais que ela não cuide tão bem do dado mas ela ela se preocupa prea porque eles querem treinar modelos porque assim e falando agora né cons da área da saúde também uma uma agulha né Vamos dar um exemplo equipo um equipo o que que é aquele que coloca no braço e tal e existem alguns que são fotossensível que é para medicamentos que não podem pegar luz tá e praticamente são iguais só o que muda é que um é laranjinha né e o outro não é e ele custa muito mais caro né e existem casos hoje que eu já vi né acontecer que chega no ponto de Socorro a pessoa é atendida e colocado na conta que ela foi atendida com equipa fotossensível e fez uma inalação e não foi esse tipo de equipa que foi utilizado então se você coloca numa conta que é e depois você vai ensinar o modelo Isso tá errado né Isso também funciona em situações de agulha se eu coloco uma agulha maior ou menor ou se eu ensino medicamento com uma dosagem diferente eu posso matar uma pessoa então isso vai ser um impacto muito maior na indústria Sem dúvida questão qualidade é muito mais Sens então é vai vai ter muito esse receio com a questão de saúde né da qualidade para ser implantada com ia né que é o que o Samuca tava comentando vai R eh muitos desafios na área de dados muitas disciplinas muitos Pilares que tenho certeza que se tiver algum CDO ou um cio ouv na gente ele tá pulando da janela agora nesse momento né como é que a Tech home pode ajudar esse cara olha Eh Acho que primeiro ponto a gente pode primeiro entender o entender o cenário de uso entender que pergunta que Quais são as perguntas que ele quer responder com base aos dados e a partir disso entender eh começar a entender se tem dado suficiente como é que tem esses dados como é que tem a estrutura se tá na nuvem se tá dentro de casa enfim E então é mais assessment da vida do cara né aí porque mas acho que acho que o mais importante é primeiro que que para que que eu quero para que que eu quero implementar né Que pergunta eu quero porque de novo e muito que eu vejo também é [ __ ] quero implementar porque quero implementar cara mas tá mas que problema de negócio tambm querendo resolver porque né sen não vai gastar um dinheiro Desnecessário né então acho que é muito nesse sentido que a gente procura orientar conversar entender antes de falar de qualquer coisa porque tecnologia cara bem é o de menos é agora entender o problema que eu quero resolver isso é é fundamental né sim então se você quiser entender exatamente qual a sua evolução aí com com com o sistema com seu sistema de dados com o seu processo de dados data Quality eh arquitetura orientada eventos quiser conhecer melhor o serviço da Tech home vamos deixar aqui embaixo na descrição né ROM o o site o Instagram o Linkedin e o contato do rom para que você tem aí a melhor orientação possível certo sim com certeza beleza e o e-mail se o pessoal já quiser mandar agora é home @te chrome.co fechou é isso meus amigos muito obrigado pelo Episódio pô já acabou eu poderia ficar aqui até de madrugada aprendendo discutindo mais umas Du horas mas eu vou deixar um gancho aqui pra gente continuar esse papo numa próxima porque não parece mas já estamos há quase Du horas falando de dados passou rápido passou voando né assunto bom pô e ainda tinha muita coisa para falar de S eu trouxe a coisa aqui que achei Fantástico cara nem falando de dado não estruturado [ __ ] isso é um outro outro Episódio falei vamos falar desse assunto um podcast só pro dado não estruturado isso isso aí vai ter que ler mais Pou Liv escrever depois Samuca Obrigado cara pela presença obrigado você é Wellington e r ã Ju também pelo tempo e toda a equipe aí também obrigado pelo pelo apoio pelo convite espero que a gente possa aí em breve fazer novos episódios e estô à disposição e acho que é isso não sei se Me apresento aqui também ou depois como a gente faz depois bom eu tenho que agradecer ao convite aí dos meninos do R do Muito bom conhecer Samu conheci ele hoje adorei conversar ali por trás dos bastidores nota 10 muito bom Espero poder voltar mais vezes né Obrigada toda essa produção maravilhosa que tá aí atrás nos ajudando também que eu sei que aí tem uma estrutura aí por trás disso né E espero que a gente consiga aí melhorar sempre né ajudar com temas aqui dentro do canal de vocês né sigam quem não tá seguindo aproveita siga aciona o Sininho né notificação canal infer é o Sininho e siga esse canal porque eu comecei a segui-los por causa de um podcast também estou aqui hoje quem diria né então muito bacana e a gratidão mesmo que fica e muito obrigada aí pelo convite pelo papo que a gente teve hoje à noite ag foi um prazer conhecê-la também e Espero te ver aqui mais vezes obrigada eu show de bola R mais um de muitos hein cara mais um de muit obrigado novamente pela oportunidade Hoje eu aprendi muito não que eu não nos outros também não tenha aprendido mas hoje foi um tema particular porque é um tema que eu é o meu dia a dia né e é legal ter outras visões é legal ter outras opiniões é legal trazer outras perspectivas porque super enriquece o tema que hoje todo mundo fala é dado é ouro né é o petróleo mas na prática ele não é cuidado como deveria ser né então foi muito bom obrigado novamente obrigado você que acompanhou até aqui muito obrigado pela audiência de vocês faça como AJ recomendou eh encaminha esse episódio para alguém que não conhece ainda o PPT inscreve no canal ativa o Sininho manda DM pra gente comenta aqui o o o episódio eh na base de comentários aqui do Spotify ou do YouTube e agora se você entende que o PPT contribui com a sua vida profissional de alguma forma e você pode nos apoiar você pode ser membro do nosso canal sa viom agora o cara pode ser membro já é po o cara pode ser membro E pior se esse cara for membro ele corre corre o risco de vir assistir o episódio aqui um dia você acredita nisso legal pois é vai ver que isso aqui é uma bagunça vai ver F organizada Ah mas bem legal bem legal que a experiência de tá aqui ver o estúdio aqui é fantástica então se você pode contribuir conosco senão você já contribui demais curtindo e compartilhando esse episódio para que a gente cresça a nossa comunidade ainda mais obrigado pela audiência de vocês e valeu [Música] [Aplausos] [Música] [Aplausos] ah
Episódios Relacionados
1h 37minInteligência Artificial vs Maturidade de Dados
Luis Rudi
2 de abr. de 2025
1h 49minINTELIGÊNCIA ARTIFICIAL DO GOOGLE LaMDA CRIOU CONSCIÊNCIA?
Leandro Romualdo, Luis Quiles Ardila
29 de jun. de 2022
1h 29minIA na Prática: Estratégias e Desafios na Vida Real
Fernando Tavares De Campos Filho, Paulo Daniel Ferreira Franco
8 de out. de 2025
1h 37minO Impacto da Inteligência Artificial nos Investimentos Financeiros
Marcos Brigante
6 de ago. de 2025
