Apache Kafka: Transformando Ecossistemas de Dados e Desenvolvimento de Software | PPTNC Podcast
Convidados
Pedro Busko
Cloud Staff Solution Engineer @ Confluent
Romulo Barbosa
Techrom
Explore o episódio
🔍 Neste episódio aprofundado, exploramos o impacto e a evolução do Apache Kafka no cenário da tecnologia de dados e desenvolvimento de software. Discutimos como o Kafka se expandiu de uma solução para um problema de dados específico para se tornar uma plataforma versátil e essencial em várias aplicações. Abordamos os desafios enfrentados no campo, como a governança e a qualidade dos dados, e como isso afeta diferentes cenários de negócios e tecnológicos. 🗣️ Contamos com a presença de Pedro Busko, da Confluent, e Romulo Barbosa, da Techrom. Eles trazem suas experiências e perspectivas no uso do Kafka, focando na integração de dados e no desenvolvimento de produtos. Eles enfatizam a importância da colaboração entre as equipes de dados e de desenvolvimento de produtos, e como uma compreensão aprofundada dos ecossistemas de dados modernos é crucial. 💬 Junte-se a nós nesta conversa envolvente que promete fornecer insights valiosos para profissionais e entusiastas de tecnologia. Deixe suas perguntas e comentários abaixo para se juntar à discussão! #ApacheKafka #DataManagement #SoftwareDevelopment #TechDialogue #DataSolutions Convidados: Pedro Busko: https://www.linkedin.com/in/pedrobusko/ Romulo Barbosa: https://www.linkedin.com/in/r%C3%B4mulo-barbosa/ Spotify: https://spoti.fi/3Iz0OYj Youtube: https://youtu.be/59Sad3BhURQ Outras plataformas: https://linktr.ee/pptnaocompila Acompanhe nas redes Instagram e Twitter: @pptnaocompila LinkedIn: https://www.linkedin.com/company/pptnaocompila Produção: Voz e conteúdo | https://www.vozeconteudo.com.br - @estudiosvoz
- Complexidade da Integração de Dados
- Introdução ao Podcast e Tema
- Apresentação do Convidado
- Agenda do Episódio sobre Kafka
- Chamada para Ação e Apoio ao Podcast
- Música de Transição
- Episódios Mais Ouvidos e Relevância de Event-Driven
- Versatilidade e Casos de Uso do Kafka
- Desafios de Operação do Kafka Auto-Gerenciado
- Complexidade Operacional e Subutilização do Kafka
- Evolução da Stack de Dados e Conceito Shift Left
- Desafios Organizacionais e Segregação de Times
- Exemplo Prático de Arquitetura Corporativa com Kafka
- Evolução do Processamento de Streams: ksqlDB para Flink
- Anúncio do Patrocinador (Clever)
- Gestão de Esquemas e Contratos de Dados no Kafka
- Evolução de Esquemas para Contratos de Dados
- Governança de Streaming e Ferramentas Confluent
- Organização de Times e Propriedade da Plataforma Kafka
- Kafka como Banco de Dados: Discussão e Conceitos
- Modernização de Legados e Migração para Nuvem
- Estratégia da Confluent para Modernização Híbrida e Custos da Nuvem
- Flink vs. Spark e Transformação de Dados em Movimento
- Anúncio do Patrocinador (VMB)
- Futuro da Arquitetura de Dados: Dados em Movimento e Metadados
- Relatórios em Tempo Real vs. Batch e Economia de Pipelines
- Kafka na Modernização de Mainframes
- Desafios na Estrangulamento de Monolitos
- Conexão Direta de Aplicações ao Kafka e Modelagem de Eventos
- Uso de Kafka para Máquinas de Estado em Microsserviços
- Conselhos Finais sobre Implementação de Kafka (Esquemas)
- Monitoramento de Ambientes Kafka (On-Premise vs. Cloud)
- Contato e Agradecimentos
eu no que eu faço no dia a dia Muitas vezes é explicar pro pessoal que existe essa junção entre do entre esses dois mundos né E como essa junção acontece Olha a quantidade de coisas e componentes na sua stack que você precisa um contratar tem gente que sabe mexer manter fica bem complicado time de analític de não pode ser uma entidade separada ali que vai ver de tudo não faz parte daali da do do do produto aí você tem múltiplos produtos cada um sabe o que que é você já viu quão é caro para você tirar o dado de um provedor de nuvem é absurdamente caro muito bem muito bem meus amigos do PPT no compil estamos aqui para o Episódio número 119 ROM Que legal cara e esse aqui promete ser um bate-papo muito muito bacana é um dos mais esperados aqui da da dos pedidos da galera a gente já fez um episódio parecido no passado n né show show e esse aqui é um dos dos Mais Mais aguardados Hoje é dia de pauta técnica né você que acompanhou a gente aqui tivemos alguns Episódios executivos né falamos sobre alguns assuntos interessantes de tecnologia hoje a gente volta ao bit bite vamos falar sobre tecnologia na veia Hoje a gente vai falar na nossa boa e velha prataforma CAF Caron é é o tema que tá no no Hype né Muito cliente mas no Hype no bom sentido porque de fato eh tem diversos casos de uso no Brasil né nos últimos anos e de fato resolvendo grandes problemas né de dados de performance de gestão de dados assim por diante e quem foi que largou o churrasco texano para vir falar com a gente aqui hoje cara bom é um amigo Eh parceiro e tá virando amigo né Eh o Pedro da conflent tá aqui conosco Eh o cara veio especialmente para vir pro PPT não compila então cara estamos ficando estamos aqui presença internacional Pedro busco da confluent Cloud stff Solution engineer é muito chique fala pessoal obrigado aí obrigado Wellington Valeu ROM pela pelo convite aí ah Estamos aqui hoje aqui falar umas bobagens aqui né É É o que a gente faz toda semana cara cer certo tá certo obrigado pela presença cara bom esse é um dos episódios que o pessoal tem aguardado aí para falar especificamente sobre cafca e um pouquinho aqui também da da plataforma confluent para Como pode mudar o cenário de muitos desenvolvedores e muito muito pessoal do time de dados Então vamos lá que o o o episódio tá muito bom a gente vai falar desde o comecinho ali das vontades de ter um cafca gerenciado de ter um cafca eh na tua própria estrutura como que isso evoluiu problemas de governança aplicabilidade do Cica enfim tem muita coisa interessante aqui que a gente não discutiu no episódio que a gente vai deixar aqui no no no card e que a gente vai falar bastante nesse Episódio Então vamos lá que o episódio está muito bom mas antes não esqueça de deixar o seu like Não esqueça de se de se inscrever no canal Compartilhar esse episódio com quem possa interessar por esse assunto E caso você ache que nós somos legais o suficiente você pode ser membro do PPT no compila lá no YouTube olha aí você pode ir lá se inscrever como membro deixar uma pequena contribuição mensal aqui para esse Modesto podcast e você corre o risco de ser um convidado aqui no estúdio para assistir uma gravação ao vivo tomar uma cerveja com a gente e em breve nós teremos também pequenos eu não falei ainda né mas a gente vai pegar pequenos trechos aqui Segredos dos nossos convidados e vamos publicar no YouTube só para os membros então se você pode pode contribuir por favor seja nosso membro Caso não você já contribui muito deixando o seu like e compartilhando comentando e tirando suas dúvidas aqui no Spotify e no YouTube vamos lá que o episódio tá muito bom [Música] bora depend [Música] Cil ROM você tem duas chances para para chutar dois dos episódios mais ouvidos do PPT no compila Bom eh me parece que um foi sob data eh devops se não tô enganado e outro me parece que foi foi foi do tema de arquitetura volar de eventos Eu não tô enganado exatamente a gente tem um tem tem um episódio disparado na frente que é de spring boot Spring boot A galera gosta muito de spring boot vou deixar o Card aqui boa e e no top cinco ali na meuca tá arquitetura orientada eventos que foi Acho que foi um dos primeiros episódios que você gravou com a gente não foi sim sim sim foi foi bem interessante e é um de fato é um tema interessante né ainda hoje eh conversando com os clientes ainda e eventuais clientes tem muito essa preocupação esse interesse Mas ainda enfim tem um um um uma falta de conhecimento um pouco ainda de ter que repensar a o ambiente atual enfim tem seus desafios É eu gosto bastante desse desse assunto inclusive já passando aqui pro Pedrão porque é um assun assunto que liga Dois Mundos que eu gosto muito que é o mundo de dados com o mundo de arquitetura uhum n ele tem um pezinho em cada um ali né Uhum Então é um assunto que que me entusiasma muito por causa disso e outra Porque como executivo eu tendo olhar paraas soluções de de arquitetura com viés de entrega pro negócio e eu acho que as plataformas de streaming e a boas arquiteturas orientadas a eventos vira o jogo para muita empresa né você ter a o dado na mão no na hora que você precisa e você poder olhar para seu Parque de tecnologia não tem mais aquele monte de job rodando a noite é uma coisa muito bonita de ver né cara é é e você falou uma coisa interessante de dessa união desses dois mundos e eu no que eu faço no dia a dia Muitas vezes é explicar pro pessoal que existe essa junção entre os dois Entre esses dois mundos né né E como essa junção acontece porque muitas vezes você fala com o pessoal de de desenvolvimento mesmo com engenharia acha ah arquitetura orientada eventos a el cfca E aí que cfca é um barramento de fila primeira sim erro aí que a gente pode endereçar aí ou eu falo só com o pessoal de dados E aí acho que é só uma pipeline ali para eu mandar os dados sendo que a uma das grandes vantagens muito falar que é a grande de vantagem mas um dos grandes objetiv é exatamente a junção deudo né você ter os seus dados transnacionais ali nessa comunicação usando um o o um barramento de streaming ali e esse mesmo dado tá disponibilizado pro seu time de Analytics né Sem precisa sem ser duas coisas separadas aí dá para estender essa conversa em relação a como que times de dados são segregados dos times de produto e como isso não necessariamente é bom hoje em dia e etc etc dá para dá para ir longe nessa nessa conversa assim para várias várias direções é uma hora de Podcast não vai ser suficiente para filosofar sobre tudo isso mas eu eu acho curioso porque a gente vê que quando uma uma ferramenta de ti ela é versátil quando você eh consegue ter visões sobre ela tão distintas em times diferentes e e você falando me lembrou que realmente quando você conversa com com Dev sobre um barramento de eventos geralmente ele pensa que é um pubs ele trata como um pubs um barramento de fila tão simplesmente E aí você começa conversa com o engenheiro de dados ou com cientista de dados você vê que a visão dele do deum barramento de eventos é muito mais parecida com um banco de dados não relacional uhum que ele vai acessar ali aquele aquele monte de eventos como um document driven Database uhum do que Como como o desenvolvedor no no pups né Uhum E e você vê que são características bem diferentes né mas que eh fala muito sobre a a a versatilidade da plataforma da completude que ela tem né Uhum exato exato e e dando nome aos bois né ah o lance é o Kafka é isso é é é é o diferencial do Kafka não só pela arquitetura de base dele mas da flexibilidade que que acaba se tornando todo o ecossistema que foi construído ao redor do Kafka também né que ele foi criado Originalmente para resolver um problema mas essa flexibilidade toda o o o poder da solução ali se acaba resolvendo uma infinidade de de de cenários uma infinidade de casos de uso mais técnicos ou de negócio H numa única plataforma né E aí fazendo trazendo de volta pro início da da da do assunto essa junção entre de diversas áreas né então você resolve coisa de pessoal que tá precisando coisa extremamente em tempo real ali ah eh até comunicação de de microsserviço para tá ali persistido etc eh detecção de fraude ET até ajudar a fazer modernização de arquitetura eh digitalização ida pra nuvem ET fazer essa ponte também tem uma infinidade de cenários que o cafca e todo seu é ecossistema ao redor eh acabam resolvendo né ô Pedro agora uma dúvida eh eu tenho uma impressão que a grande parte dos casos de uso do cafc ainda tá muito voltado à questão de usar como um Pub sub ou seja eh da sua forma mais primitiva vamos dizer assim do que usar o potencial que o cfca proporciona Uhum aí aí a minha pergunta é a tua visão como você olha vários projetos tá em vários clientes eu queria ver a tua opão porque eu tenho um pouco dessa minha visão dos casos que eu tenho discutido e conversado ainda muito ainda V no CF ainda como um Pub sub sim tem bastante isso eu eu vejo por diversos motivos né um que se a gente tiver falando do a par Cica só ele sozinho a solução são open source e etc um é enrolado de administrar é é difícil requer muito recurso a sempre tem coisa com disco com memória etc é enrolado então você foca ali naquela implementação e naquele endereçamento para você endereçar os cenários de dados por exemplo assim com o cafca você precisa do que tem ao redor ali do do cafca core que seriam ali só os tópicos etc que já tem muito benefício só ali né pela escalabilidade do CFC alta performance etc resiliência só arquitetura base dele ali já traz muito benefício mas enrolado para você tirar vantagem começar a explorar esses outros casos jos você precisa expandir um pouquinho mais do ecossistema você precisa começar a falar mais de conectores aí é mais um cara para você subir e administrar você precisa começar a falar de processamento desses dados em tempo real ali então você precisa começar a falar de streaming aí é um outro componente Ah pô que que é o stream dentro do Kafka ah Kafka streams ah Kafka streams Pô eu só consigo implementar isso em Java ou Scala pô Dá Uma segurada também para você implementar isso então você pô vou usar o cafca só para jogar o dado do ponto a pro ponto b usando os benefícios dele mas dali pra frente vai ser eu vou utilizar outra tecnologia outro recurso para para para utilizar isso aí você muda a stack aí o pessoal de dados já não tá falando contigo ali só do CF né então Então vem aí Tem Você Tem que quando você começa as empresas começam a utilizar outras soluções que vão facilitando a vida a utilização do CFC né para você conseguir ter a utilização desse ecossistema ao redor soluções gerenciadas parcialmente gerenciadas etc vai facilitando aí vai destravando um pouco desses casos de uso por bloqueio muitas vezes de infra da dificuldade de operar o cafca em si né modo que eu enxergo isso conversando com o pessoal por aí né E aí é o que traz um pouco dessas soluções gerenciadas etc como da confl por exemplo que ajudam nesse sentido né para destravar esses outros cenários pela facilidade de uso e a e a velocidade que entrega valor ali então é essa esse teu ponto de vista é bem interessante assim Porque de fato eu não consigo imaginar como como gestor de de arquitetura e infraestrutura por exemplo o o concebeu uma plataforma de cafca com uma operação própria sabe é um overhead de operação gigantesco né que é o que você falou você gerenciar disco Por mais que você tenha isso facilmente gerenciável numa nuvem pela criticidade de negócio que você vai ter geralmente em workloads que dependem disso é muito arriscado né Eh pô não quero o noc sendo ativado porque eu tô com problema de disco num cluster do cafca até porque eh e essa visão que você colocou R é muito boa Eu já conversei com vários arquitetos que optam por uma solução baseada em cafc meramente porque o pessoal vê meio que como um uma plataforma de fila com esteroides Ah eu tenho janela de retenção e do replay se precisar entendeu então Eh são características não funcionais ali que você traz de resiliência paraa solução mas que não necessariamente faz uso de todo o ecossistema que você tem em volta do do cfca né eh e e esse ponto da operação que você colocou de não ser uma plataforma gerenciada era é muito complicada porque até quando eu falo de um caso base de uso desse como colocate você tá usando ele simplesmente como um uma uma plataforma de fila com esteroides pô tive um problema no disco minha janela de persistência meu replay já tá comprometido né Uhum Então é eh é muito complicado manter uma operação como essa né e mas eu vejo também Pedro um pouco de falta de conhecimento sobre isso acho que tem tem uma janela uma uma uma curva de aprendizado do ecossistema do cafca que muita gente acaba parando por ali pelo streaming né pelo pelo pelo Pub sub do dos Tópicos e segue por ali né Eh o eu não posso reclamar muito disso porque do ponto de vista de arquitetura ISO já dá uma um salto absurdo de você ter transações em tempo real com uma confiança né Eh mas quando você começa a aprender de fato o potencial que você tem eh olhando pro ecossistema como um todo Você tira muito mais valor pro negócio do que simplesmente aspectos que não são funcionais como resiliência escalabilidade disponibilidade né Uhum não sem dúvida eh eh não tem coisas básicas assim Quando você vai ver o pessoal rodando cluster CAF assim na mão sem entrar muito no detalhe mas do tipo eu tentar conversar com o pessoal perguntar assim ah qual que é a sua política de retenção aqui pensando na no requisito do negócio ali né quanto tempo você precisa disso etc Ah não eu calculei o quanto que eu tenho de disco aguenta por e olha da onde assim como é que as decisões são tomadas né Eh mas mas a gente vê o pessoal fazendo o uma muitas vezes uma transição aos poucos né Então usa só o básico aí depois o segundo passo que você vê o pessoal começando a utilizar conectores para facilitar né que esse já ajuda aí você pluga conectar e começa a começa a conversar sobre CDC você começa para ajudar a trazer e coisa do legado para dentro do cafca para uma coisa de modernização porque você pô pluga ali no banco aí já já começa a trabalhar por ali já começa tirar vantagem dessa parte do do do ecossistema que aí já ajuda H aí conectores pro outro lado faz de sim que aí você Ah pô vou jogar um conector ali pro S3 jogar esse dado para lá e aí depois o meu time de dados que tá lá do outro lado lá sei lá que eu nem sei quem é se vira para tratar aquele dado Não beleza aí é uma etapa aí e muito do que eu faço no meu dia a dia também é ajudar o pessoal a entender que dá para fazer mais que você consegue jogar esse processamento desse dado mais é o que a gente chama de shift left né mais próximo da fonte desse dado e de uma forma que você já ter o streaming enriquecido Você já consegue ter esse dado processado em tempo real então o dado que já vai sair ali já sai do jeito que você precisa né não jogar para aquele time de dados que você nem sabe aí eles vão processar uma vez vão fazer uma outra coisa vão começar E aí acaba gerando um um um overhead absurdo um custo complicando demais a sua stack né né hoje eu tenho um um material que eu que eu que eu apresento às vezes que fala né da tal da da como que ele cham da stack de dados moderna aí você olha ali aí o você tem um um cara que aí você vai fazer a extração aí você tem um produto aí você tem um outro cara que é só para transformação aí você tem um outro cara aí você faz esse load em outro lugar aí você começa a visualizar esse dado aí um outro sistema seu aí você contratou um SAS ali alguma coisa que aí precisa desse dado Aí você faz o etl reverso daquele dado para não sei o quê Olha a quantidade de coisas e componentes na sua stec que você precisa um contratar tem gente que sabe mexer manter fica bem complicado então se você consegue simplificar isso e jogar dentro da tua do teu ecossistema de streaming ali da plataforma dentro caso você simplifica elimina uma série de camadas ali e o valor pro negócio o dado ali já vai tá é aquela história de transformar dado em informação né vocês até falaram sobre isso outro dia a informação já sai ali né Então você já consegue tirar o valor com uma stack bem mais moderna né Muito mais simples mas é interessante isso que você acabou de falar vamos dizer olhando dessa Perspectiva da engenharia de dados né Uhum porque realmente é é o que eu também tenho visto em algumas conversas com clientes e exatamente o cara tem quro c seis ferramentas di para fazer e para fazer a a ingestão do dado depois vai pro repositório depois faz a transformação depois faz a orquestração depois faz o DW depois exibe isso em algum algum aí depois tem que reverter tudo porque a outra aplicação nova precisa desse dado que já tá E é muito complexo isso porque de fato é isso são stacks diferentes e cara como é que você gerencia tudo isso no final do dia né e obviamente e isso consome bem como você colocou um tempo preciosíssimo custo né em vez de o pessoal tá mais focado no negócio e cara você ter plataformas que te te suportam né te D mais autonomia e e e te otimize isso tudo num único lugar né n o tem um desafio que é o que a gente comentou mais ou menos em cima disso essa segregação muitas vezes entre time de produto barra Engenharia e time de dados e Analytics né porque para ter essa conversa para chegar isso tudo você precisa juntar essa galera né e o que a gente o que eu tenho visto em muitas situações é times de produto ter tem que ter o pessoal de dados ali tem que ter o seu seu pessoal de analíticas junto com o pessoal de produto time de Analytics de não pode ser uma entidade separ ali que vai ver de tudo não faz parte daali da do do produto aí você tem múltiplos produtos cada um sabe o que que é né aquela história de começar a ter o o não só você tem o po né mas você ter o product data owner junto do po ali né e e a parte do da engenharia do produto do transacional vamos chamar assim junto dessa galera aí você começa a conseguir aplicar e e e e e e trazer esse valor isso vem muito da da Cultura a gente começou a falar muito sobre trabalho de dados lá do Big Data né Uhum o pessoal éa no transacional carregava aquela montanha de dados fazia um DW e parece que ali é outro mundo aí é só o pessoal do analítico que trabalha etc existia um grande muro entre transacional e o analítico né e a gente carrega um pouco dessa herança n até hoje por causa disso né Uhum E E você falou dessa desse uso dessa curva de uso eh sobre a plataforma Pedro eu eu tenho um caso testemunho próprio aqui né a gente teve um projeto numa numa empresa que eu trabalhei eu tinha um plano meio ambicioso ali porque eu sempre fui muito eu sempre fui muito entusiasta dos bancos não relacionais né então eh a gente começou a a substituir alguns job por transações em em tempo real já com CFC etc acho que todo mundo começa por aí né principalmente pela demanda que a gente teve nos últimos anos de transformação em microsserviços Então você precisava ter uma comunicação assíncrona entre serviços E aí acho que todo mundo começa pelo menos na arquitetura a falar de cafca por ali né E aí eu pensei numa forma que a gente conseguisse ter isso de forma estruturada e que não tivesse esse monte de dependência que você falou de ter reverso uma aplicação agora precisa consumir um dado que já foi pro analítico etc então a gente fez primeiro um trabalho de arquitetura corporativa de mapear as principais grandes entidades da da companhia né então Eh vou trocar as entidades aqui os nomes para descaracterizar Mas vamos supor se eu tô numa empresa de de comércio eletrônico eu tenho eh pedido produto e sei lá entrega né E aí eu tenho uma grande entidade ali que são entidades de interesses corporativos que todas as cadeias de valor precisam né Então a nossa ideia era vamos integrar tudo isso num barramento de evento corporativo onde eu vou ter um documento não relacional que descreva essa entidade com isso a gente acelera a integração né Uhum e começa a a a substituir esses legados esses Jobs etc consumo essa entidade prod produzo essa né aí entra o segundo step no aprendizado que você colocou pô mas como é que eu vou pro essas entidades pluga na basee do legado vamos fazer CDC né aí começa o primeiro desafio que você começa a ver que você precisa entender um pouco mais de dados para trabalhar com cafca de fato como ele precisa uhum beleza tá fazendo CDC de um monte de tabela relacional você tá subindo cada tabela num tópico como é que eu leio esses tópicos estão chegando em tempos diferentes para criar esses documentos não relacionais que tem informação de vários tópicos uhum Foi a que a gente começou descobrimos o que cicb né inclusive com a plataforma da da da conflent né E aí começa essa escala de você ter um aprendizado né sobre isso e começa eles começa a perceber que talvez o mundo não é tão colorido como tu parece né É É não isso aí é esse você Você viu que você falou exatamente a trajetória que eu tinha falado antes né Sem combinar eh vocês chegaram lá na parte do streaming né ver essa necessidade aí falando né que eu falei só do CF streams algumas dificuldades deumas Barreiras de implementação que às vezes a gente tem isso né aí o pessoal da conf desenvolveu o KB né que ele é básicamente um rapper em cima do do cams para você fazer essa manipulação usando sintaxe skl legal muito legal aí agora tem o próximo passo disso né que é o flink que traz essa mesma ah resolve esse mesmo problema vamos dizer assim só que numa escala absurdamente maior com uma flexibilidade e escalabilidade absurdamente maior o flink é evolução do que CIC DB é isso não é um produto diferente ele tem uma é uma é um outro projeto apaste uma coisa completamente separada eu eu digo a evolução do conceito Ah tá entendi entendeu porque ele é muito mais poderoso entendi entendeu resolve o mesmo problema mas ele é muito mais poderoso então é é a direção que o mercado tá indo né Tem um um um um gráfico de adoção do Kafka e adoção do flink tirado da da fundação apach com três ou 4 anos de diferença é absurdo é o exatamente igual ele segue a mesma linha eles trabalham muito juntos e aí você usa o cafca como file Store pro flink né Tem um gente faz eu faço um paralelo assim sim sistemas tradicionais F System mas você tem precisa ter um um gerenciador de banco de dados ali e aí você tem suas aplicações beleza três camadinhas ali pensa isso no mundo do dos dados em movimento né isso no mundo do dado em descanso no mundo dos dados em movimentos a gente pensa no cafca sendo a o sua camada de Storage o flink sendo a sua camada computacional E aí as aplicações que você produz em cima disso usando o flink E aí o flink tem bastante flexibilidade de diferentes apis tem Inclusive a parte DLink SQL se faz com ap com SQL então tem essa essa facilidade de adoção E aí com com arquitetura que é infinitamente escalável assim escala um infinito se você precisar mas é bem interessante mas é puxando voltando pra parte técnica é a evolução dessa dessa desse processo aí né que você tava falando quero falar com você agora quem ainda não conhece é Clever Clever é uma empresa que já tem mais de 3 milhões de usuários em 30 países com 30 idiomas diferentes que tem trazido Soluções em blockchain criptomoedas e ativos digitais o objetivo da Clever é te dar liberdade financeira para operar nesse mercado de cripto então se você acredita nisso se você acredita nessa Liberdade você já Pensa como a Clever vai conhecer os caras é Clever estão contratando também pessoal para trabalhar com cripto com blockchain então se você tem interesse se você tem conhecimento nessa área procura Clever se você gosta de criptomoedas se você opera no mercado você precisa conhecer a Clever precisa conhecer as soluções da Clever então o endereço tá aqui embaixo no vídeo para quem não tá no YouTube é Clever pai vai lá vai conhecer que realmente é um mercado sensacional Ô um ponto que eu tenho notado também e é um um desafio de quem usa Cica que é a questão da gestão de esquim uhum porque tal Eu ainda acho como a gente comentou aqui uma falta de enfim de conhecimento sobre o mundo CFC então o cara vai lá usa o cfca põe o cfca Lá começa a trazer dado via de banco Banco CDC tal e aí não tem uma gestão de esquim alguém muda coloca um campo acrescenta tira E aí isso num médio longo prazo num volume de mensagens Isso torna um grande de um problema né como é que você tem olhado isso de novo como você tem um olhar mais amplo né eu olho muito o universo pequeno mas olha posso complementar porque acho que tem a ver com uma pergunta como que você vê no mercado hoje a o modelo de governança da plataforma no mundo mais corporativo mais enterprise porque Ach tem a ver com isso sim né Então como que eu faço essa governança para dar agilidade pros times só que o cara vai lá ele olha Pô que bacana tem aqui um tópico que já tá jogando no barramento a informação que eu preciso vou pegar em tempo real amanhã o cara decide não mandar mais o campo e quebra a aplicação dele né é Não isso é é é bem interessante que a gente continua amarrando os assuntos né então assim quando eu vou falar com o pessoal de dados eu falo de esquim é natural beleza tá tudo certo não precisa ter a estrutura Beleza quando eu vou falar com o pessoal de desenvolvimento tem que ter um trabalho de convencimento e a explicação do que é o esquim para que que ele serve Por que ele é bom por que ele precisa colocar aquela etapa adicional ali de Pois é né e sabe o que é esse mais esquisito Porque esse mesmo cara ele não pergunta porque que ele tem que ter um sweger da pei dele e por que que no no no no no evento tem tem né porque não entende o conceito inteiro do ecossistema porque tá olhando o tópico como se fosse uma fila com esteroides mas tá olhando o tópico como se fosse uma fila que ele só vai usar para levar o dado pro a mensagem do ponto a pro ponto b como se ele tivesse Domínio das duas pontas né exato E a e aí é isso que você tem o esquema definido eh é uma assinatura de um contrato aí você garante um a qualidade do dado a qualidade daquele evento que tá sendo ah ah processado e o desacoplamento entre produtor e consumidor essa que é a parada não interessa quem produziu aquele evento se ele seguiu o contrato eu vou conseguir consumir que que no no nível máximo de administração mesmo conceito de uma pi É isso aí né eu não não preciso só preciso documentar quem vai consumir eu não preciso saber quem é né e e e chegando no nível agora que a gente tá tendo uma evolução do do termo a gente esima agora ele é uma parte só do que eles chamam de data contracts de contrato de dados dentro do do pacote do do esquema rist todo o pacote de governança falando específico da conflent né O que você já consegue fazer agora o esima o avro protobuf ali o tradicional ele é uma parte desse contrato de dados que você tem ali você consegue incluir tags ali tags de negócio informação sobre eh Business metadata que você coloque ali você consegue colocar regras ali dentro do esquema na verdade do contrato de dados regras condicionais regras de transformação aí quando o cara vai produzir o evento seguindo aquele contrato de dados na hora que ele vai tentar vai serializar ele vai serializar seguindo aquele esquema e vai executar aquelas regras um exemplo ã você vai metir um evento lá em um dos Campos e CPF Ok é um campo obrigatório e o CPF ele tem que seguir um formato certo aí você tem o você pode colocar seu número o formato que se você adotou na sua empresa etc se vamos lá validar o número de dígitos Ok eu coloco no meu contrato de dados que aquele Campo CPF ele precisa ter x dígitos nem lembro Quantos dígitos tem o CPF Acho que são ele precisa ter 11 ali se não contar pontinho o traço se não tiver o produtor nem consegue serializar o evento nem vai pro broker nem vai pro tópico ele já alista já trata entendeu então não te gera assim te economiza em rede porque você nem mandou esse dado te economiza em processamento te economiza do tempo lá do Consumidor que vai tentar processar aquele Car cara vai ter que tratar aquele erro voltar pedir Então você esse conceito do esquema já tá evoluindo para essa história do contrato de não tá evoluindo já evoluiu isso já existe na plataforma tá então você pode já fazer esse tipo de coisa um aí a gente tá falando do contrato de dados a você trouxe a história da governança desses caras né então para você gerir isso você tem o o esqua registre que basicamente é o repositório ali desses esimas E aí você tem Ah você pode colocar também nesse contrato de dados outras coisas por exemplo regra e de compatibilidade da evolução desse skem então você pode gerar novas versões desse subject e colocar Ah esse cara é backward comparable ou esse cara é forward compatible aí na hora que quem for serializar ou desserializar vai seguir essas regras vai conseguir por exemplo ã serializar com a desserializar com a versão antiga daquele esquema aí você consegue trabalhar isso a sua estratégia para e a atualização do Produtor versus o consumidor e aí você precisa ter uma ferramenta você precisa ter uma solução isso aí principalmente esse cara que é o esquema rist para você gerenciar os contratos de dados e os esquemas mas aí não só isso PR expandindo nessa parte de governança e quando a gente tá falando das coisas de ecossistema né aí por exemplo a solução da Conflict hoje eles e não tem só o esquema regist a gente chama tem todo um pacote da governança de streaming lá dentro que tem o busquim registre aí a gente tem o por exemplo um catálogo que qualquer entidade dentro do ecossistema conflent ele gera metadados para dentro de um repositório que é esse catálogo aí esse cara se torna
buscávamos eh você consegue fazer essa integração você tem Ahã aí toda essa parte de de tagueamento da da da da da dos metadados de negócio que você consegue introduzir etc eh que mais que é mais interessante nessa parte do governança É acho que esses são são os principais aí tem tem algumas outras coisas na solução que que englobam aí por exemplo tem o stream Lineage para você fazer ver a a lineagem do seu stream das suas pipelines faz parte desse pacote de governança Então você consegue olhar ver ah da onde o dado tá vindo quem tá processando ele no meio quem tá consumindo para onde esse dado tá indo etc você consegue visualmente olhar isso aí né Então tudo isso engloba nessa toda essa história de governança para você saber o que que aquele o que que aquele dado significa aquele dado que tá percorrendo e qual que é o contrato que quem vai produzir e consumir concordou em seguir como eu encontro esse dado aí informações extras ali nos metadados para saber quem tá usando o que que significa etc Então tudo isso são componentes que os dão recursos para para fazer essa governança né e ainda sobre governança Pedro aí não tanto sobre produto mas processo Ok como que você tem visto no mercado os times se organizando para isso porque eh com com os times cada vez mais segmentados como produto né dificilmente você tem essa visão horizontal de por exemplo teus eventos corporativos e e e como que eu evito por exemplo de que eu tenha ol que eu olhe lá no no no meu Lineage de dados que tá indo pro barramento que sei lá eu tenho dois produtos streamando dados de clientes Porque eles estão com contratos diferentes por exemplo como que eu que eu faço isso ainda ver muito modelo de S de excelência é um coi que cuida disso Como que como que as pessoas têm se organizado isso que você tem visto no mercado é Normalmente quando você fala de um mesmo dado você deu o exemplo do do do cliente ali normalmente esse mesmo dado ele vai tá pertencente a a um produto Então você tem aquela de repente aquela história do Product daa owner que a gente comentou antes né então ele vai est vai fazer parte de um domínio se você tem esse mesmo dado no outro não não esse dado não deveria estar naquele outro domínio aquele outro domínio deveria est tirando vantagem desse dado que já existe como que ele descobre que esse dado existe antes de criar o novo ou de duplicar essa solução é tendo uma solução de governança aí né uma Plata que tem disponibilizado aí você vê é o lance da da plataformização né que a gente faz então você tem que ter uma ferramenta para times de Engenharia e times de produto etc ser self service para ele olhar antes de eu criar eu vou olhar lá olhar se já existe Ah eu procuro vejo o nome vejo o que que é tenho acesso não tenho acesso solicito acesso e você tem que ter essa estabelecer essa Cultura né de reutilização quando você tem é uma plataforma moderna e para isso não é só produto né tem que ter uma cultura e tem que ter dono dessa plataforma né E aí forçar eh eh essa reutilização essa cultura mas com o suporte da plataforma Mas normalmente Você tem o time que cuida dessa plataforma e é engraçado que H falando de confluence né Tem diversos perfis que eu vejo que quem toma conta dessa plataforma e É engraçado como que a solução fica depois Dependendo de quem cuida né Tem lugar que é só o o bom e velho admin lá que hoje sre chama de um nome mas cuida dali o cara assim eu sou infra beleza essa é uma coisa tem lugar que eu já vi aí ah aí tem o DB sre que muitas vezes o CFC cai com o pessoal de DB sre hum né que é um negócio interessante trazendo pro quando eu comecei a estudar mais CF o conceitual etc e aí por isso que eu insisto com a história de pessoal vê tópico cá fica como fila um tópico cafc é muito mais uma tabela de banco do que uma fila então o dado tá persistido ali então o pessoal precisa entender isso então muitas vezes o a sustentação do cafca Cai com o time de dbsr isso eu já vi casos que é o time de corporativo entre aspas de dados que cuida da plataforma aí aí você tem toda uma cultura mais voltada para dados mesmo transacional usando ali o Kafka Então depende da cultura da empresa Quem que é o dono da plataforma de dados né ou da plataforma de streaming ali no caso né e a plataforma fic com a carinha do dono né É É o filho sempre fica com a cara do pai né ô ô Pedro at até um um você trouxe aqui um essa questão eh que você citou ali que o flink né Eh o Kafka sendo o o banco na verdade e o flink consumindo dado do Kafka como você fosse um banco Car fica sendo o Storage mes al Storage perdão perdão Storage não banco mas eu eu eu tem uma já li lá fora inclusive até acho que tem o o J crabs eu acho que até escreveu um artigo algum tempo atrás sobre essa questão do KFC ser um banco né E aí obviamente já tem aí tem é eu já até vi Acho que se não me engano o New York Times se eu não estou enganado o New York Times usa o Kafka como um banco Tod você vai consumi uma uma notícia dos anos 60 quem tá entregando é o cfca não é o o banco e nada né a bela gênera de retenção é é assunto polêmico é é um assunto polêmico exatamente mas vira e mexe essa ess esse tema vem à tona pô mas o o CFC é um banco na minha opinião acho que não mas eu não sei como é que como você olha como é que você tem visto essa discussão se cara enfim eu eu eu pessoalmente não tenho opinião formada eu eu gosto desse eu gosto dessa conversa interessante Agora você me fala o que que é o binlog de um banco o que que é o ridol de um banco ele não é um streaming de dados é é um é é é não tá não tem como dizer que ele é um log imutável o que que é um tópico cfca ele é um log mutável Exatamente é isso entendeu então aí você começa a pirar na brincadeira entendeu Aí o o tópico fica ali como ele se fosse o binlog Red log cada banco chama de um jeito né É do banco e aí você tem que ter aí quando você bota o flink na jogada em cima aí você olha a a o Api do flink esql você bota em cima nem é é que aí sendo entrando bem bem bem mas é mas assim aí você tem outras discussões de tipo de como é a manutenção de uma arquitetura de um cfca que é isso quando você tá falando de componente você gerenciando Isso trabalheira que dá e etc aí você fala de custos e vai embora mas os conceitos é uma conversa interessante conceitualmente sim sim é minha acabeça já explodiu aqui porque quando a gente fala do do do log lá do do banco ele é um um stream em mim de de um log mutável Mas ele tem um formato muito mais parecido com a lista ligada porque ele tem dependência de sequência do que um streaming né Eh e acho que mas assim de de questão de de de log e de persistência não tem muita diferença é né é o o assim aí o o detalhe ali é é acabada de cima ali né então mas aí dá para dá para ir eu já eh no antes até de eu de eu est na confluent quando eu tava na IBM ainda eu vi o pessoal de de de serviços lá fazendo um projeto para um banco médio porte lá indo nessa direção modernizando tudo tirando coisa de mainframe tirando coisas de outras coisas e jogando tudo no cafca não parece meio sim eu não sei se eu faria eu provavelmente não faria eu quero polemizar agora isso que vai virar um corte não é meio esquisito você fazer uma consulta para pegar uma mensagem cfca lá daquele meinho ali não é mais bonito usar um nocio para fazer isso polêmica por quê não sei cara pode ser paradigma meu né assim é assim o por E aí voltando do que a gente falou lá no começo o Kafka é flexível suficiente poderoso suficiente pra gente tá tendo essa conversa é is exato É o que a gente falou lá no começo da versatilidade né ele não foi não foi desenhado para isso não foi pensado nisso mas olha onde chegou ó o nível da conversa para onde vai né claro o banco Qualquer que seja você pode fazer o mesmo argumento para um banco relacional também tipo ele foi desenhado para isso foi para você extrair o dado daquele jeito né é eu eu falei o no Cico mais pelo pelo formato semelhante né sim sim mas e eh eh não foi desenhado para isso então nas minhas convicções arquiteturais eu provavelmente não faria dessa forma por esse motivo né mas tem gente que que que vê dessa forma e que acha que o cafca tem capacidade para isso para para fazer essa função ã ter tem né mas eu eu provavelmente pessoalmente não faria mas é é é que entra naquele velho nem tudo que é possível você precisa fazer né como arquiteto sempre disse ah mas D fazer Tá mas nem sempre deve né mas mas você tem toda a razão Pedro se se a gente tá discutindo isso é porque alguma coisa tem né então o outro ponto que eu queria trazer aqui Pedro e falando aí de de ecossistema e plataforma e claro que quando você pega as digital natives que já nascem né pensando nuvem É um cenário Agora você tem ainda muitas empresas que tem um legado né tem o ainda tem banco que tá no on primes e e tá fazendo migração pra nuvem ou que até o híbrido banco monolítico com dado da empresa inteira exato exato e obviamente isso o desafio é potencialmente maior né porque você tem que ter um legado ali que tem né informação que você precisa reter por por questões regulatórias e ao mesmo tempo você tem que ser ágil porque você tem uma aplicação que você quer lançar rapidamente aí você já pensa novamente na nuvem para para isso só que você tem como é que você gerencia isso que é o grande desafio né E aí eu acredito que plataformas nesse sentido e obviamente a conflent podem ajudar muito esse processo né eh e aí eu queria ver que que você tem visto no mercado como é que como é que as empresas têm olhado nesse sentido como é que tem da adução enfim uhum botar o chapeuzinho um pouco de confluent aqui né para falar e como um pouquinho do do que que a confluent face e aí meio nessa nessa nessa jornada aí né porque aí lá depois do car fica sendo criado etc confluent Eles fizeram a a versão eh confluent platform que seria a versão autogerenciada que você instala lá se quiser rodar no kubernetes você gerencia isso pode estar no bermet ou no seu Data Center ou jogar nas suas vem kubernetes na sua Claudia etc você vai gerenciar esse cara uma outra coisa que eles fizeram foi fazer o conflent cloud que não é simplesmente pegar o apach CFC e botar como um serviço gerenciado não o pessoal rearquitetura tudo para ser um serviço Cloud Native E aí o o o te questionou uma coisa falou assim ah o pessoal vai pra nuvem que que é esse ir pra nuvem é tu fazer um lift and Shift do seu dos das suas coisas ou você modernizar para ter as suas soluções seguindo ali os oito paradigmas lá as oito regras do de ser um serviço nativo da nuvem né são coisas distintas que a gente sempre usa de termo aqui no podcast é a nuvem Como data center de luxo é isso é isso então e ali é só um parêntese só pegar um gancho rápido nessa questão eu tenho escutado muito mas muito cliente reclamando do custo da nuvem muito muito n né e eu acho que em partes são cenários como esse o cara fez um lift tem vista e aí obviamente ficou muito mais caro é você você tinha uma casa sua eu sempre uso esse esse esse exemplo você tinha uma casa sua aí Alguém te falou que morar no hotel era mais legal e você não se adaptou você pegou todas as suas coisas e foi morar no hotel e agora você tá reclamando que a conta do hotel tá cara é isso entendeu é é uma ótima analogia e é não mas aí por por que que eu trago isso porque a história da fazendo a ponte com a solução da do confluent Cloud que exatamente não é um lift and shift tem toda foi feito todo um trabalho de arquitetura e aí para ser um sistema realmente nativo na nuvem multitenant etc etc que aí eles eh Colocaram um nome disso que é Cora aí lançaram sai um White Paper ano passado explicando toda a arquitetura e etc quem quiser conhecer mais a fundo É bem interessante arquitetura né E aí essa história de como que a confluent a visão da gente dessa dessa de ajudar as empresas modernização um é ter essas duas ofertas para ajudar nessa ponte e ter essas duas ofertas de uma forma que a experiência entre elas seja muito parecida eles gostam de falar que é igual mas é parecida que aí que Rode em qualquer lugar então você pode rodar lá no no teu data center ali no teu quintal aí você pode est no se você fez o lift and Shift para PR PR sua nuvem você pode estar ali e aí você pode também ter o o confluent cloud que eu gosto de falar que é se o mais próximo de um Cica SAS uhum né E aí você e provê mecanismos de você facilitar a comunicação Entre esses caras então você ajuda nessa ponte para essa modernização de você sair de uma do do teu legado ali com os conectores aí esses conectores também você pode gerenciar o a gente também oferece os conectores gerenciados para você jogar pro de repente para um um outro sistema intermediário ali que aí você ainda gerencia mas que você não tá preparado ainda para de culturalmente etc para utilizar uma solução dessa como serviço E aí depois você seguir nesse esp passo né então você tem eh essas etapas de mod você pode segir Dessa forma não precisa ser uma mudança muito radical que às vezes a a a empresa não tá nem preparada para usar um um SAS né usar um serviço 100% gerenciado não tem ferramentas de observabilidade que são necessárias ali não sabe fazer observabilidade de um sistema 100% gerenciado porque são outras coisas a a confer Cloud não fala quanto que tá a CPU do broker lá no conf Cloud não vai falar entendeu são outras métricas outras coisas outros alarmes que você fica precisa ficar de olho aí falou a história do custo né Alguém falou a história do custo Então você tem que ficar de onho em outras coisas para você não ser pego de surpresa de custo de confluent do do custo do seu Cloud provider tem que ter Observar isso daí a gente V é um outro paradigma n outro paradigma você não vai mais monitorar a máquinas vai monitorar a transação isso que é isso que que vai afetar o teu negócio do ponto de vista de observabilidade e é o que vai gerar o teu né não e tem tem um umas métricas o pessoal que vai falando de de custo ainda 70% se eu não me engano acho que o número é mais ou menos esse que fala de custo de número rede uau não sabia disso rede rede porque aí o pessoal vai ah não faço lift and shift de meia dúzia de coisa umas coisas ainda eu deixo de fora você já viu quão é caro para você tirar o dado de de nuvem é absurdamente caro então o cara lá você tem uma área lá que os caras querem ser moderninhos fazem o lifting shift Joga lá PR para umas VM Sei lá onde ISO aí sobe e desce o conteúdo do banco todo dia é para jogar para jogar o dado para para um provedor de nuvem beleza é baratinho ele fala assim manda manda agora vai tirar Aí você faz aí você também não tem o planejamento em relação à região não sei o que um tá aqui o outro tá lá muda de o seu dado para você ver quanto que custa você vai assim e às vezes demora para entender essa conta aí aquilo fala assim pô tá caro nuvem é caro aí vai sai da água pro vinho né da mesma forma que ele foi sem critério sai sem critério exato né É E aí tem tem Eh você tá comendo um outro ponto também que eu achei interessante Pedro e aí voltando aquela questão do processamento eh você acha que o o o flink ele pode ser um potencial substituto do Spark Ou você acha quees são polmico são são complementares você já falou já perguntou se o cafc é banco agora você tá colocando uma camada de processamento de banco com lado flink você tá arrumando Pedrão as coisas sempre podem ser complementares e aí tem 1 motivos a gente não vai falar só de produto né você tem que falar eu eu eu gosto de pensar assim você tem que falar da da cultura da empresa qual tipo de profissional que você tem da empresa então não vou chegar a tomar uma decisão arbitrária dentro de um cenário e trocar seis por meia dúa e e eu não tenho gente para operar aquilo não tenho gente que sabe a tecnologia então não dá então todas essas decisões todas essas coisas fazem parte desse tipo decisão mas agora pensando ã conceitualmente e até um pouco Tecnicamente assim o soluções como o Spark você faz a transformação no downstream lá perto do destino do dado quando você usa uma transformação não vou nem ficar falando exatamente do Spark mas quando você faz uma transformação lá no downstream você tem o seu dado transacional exemplo você tem o seu dado transacional circulando no cafca eu quero jogar esse dado para PR para um Analytics aí beleza esse cenário Aí você faz essa transformação lá bonitinha lá faz seu Medal B Ok legal aí você tem um segundo caso de uso que agora eu preciso pegar esse meu dado do do do meu transacional e fazer uma transformação muitas vezes muito parecida ou até a mesma para fazer uma integração com um outro SAS que eu criei aí você já duplicou a história e sobe emar sobe máquina lá do spar aí você precisa de um terceiro e aí isso vai crescendo aí você vai gerando aumentando a complexidade aumentando a duplicidade da transformação muitas do dado aumentando o custo etc a ideia do do do de trazer o o do do stream processing aí é isso muito possível pela capacidade de ferramenta com flink é você fazer o shift left que eu falei um pouquinho no início é trazer essa transformação esse enriquecimento do dado mais próximo da fonte desse dado porque aí esses streams de dados Eles já vão est saindo mais próximo de informação já vão est saindo esquecidos Então na hora que eu vou mandar para Analytics que eu vou mandar para aquele SAS que eu dei de exemplo etc os Car vão plugar no mesmo tópico ali aí eu boto um conector que pode fazer o Sink direto no destino isso aí você po botar TRS qu C conectores naquele mesmo tópico então é um o dado já tá ali você e a transformação já tá feita então é um lugar é uma transformação que eu tive que que implementar que eu vou ter que administrar que eu vou ter que tomar conta e aí eu já entrego esse dado Rico já entrego a informação ali para onde quer que seja o destino Então essa é mais ou menos o o a direção que que que que a gente tá vendo ou seja isso num num cenário de dado em movimento Cara isso pode ser um pode trazer um valor interessante né claro que não se aplica a todos os casos mas eu imagino que cenários específico pode pode ser muito interessante isso E aí pensando no flink específico o flink roda em modo stream e você pode fazer o Bet também o mesmo cara que você escreveu entendeu E e esse é o o lance do streaming é o Core do flink é o processo principal eu posso fazer Bet utilizando o flink em cima de sources que são o streaming desde que eu esteja na minha janela de retenção mais mais ou menos o flink você consegue não só ler do cfca você consegue ler de outras fontes também Ah entendi eu posso então PIS Você tá mais maravilhoso ainda que eu posso enriquecer o dado de que tá vindo por streaming com outros sources e entregar outp aí vai depender de qual api do flink que você tá utilizando etc tem outros fatores mas de de forma geral sim né aí aí Spark Você tem o Spark streaming e e o Spark aí você também pode fazer streaming com Spark só que o streaming do Spark não é streaming é microbat aí você tem algumas diferenças aí E aquela história que eu falei você vai est fazendo isso no downstream lá na frente né Depois que você tirou o dado da plataforma depois que você tirou o dado do CAF por exemplo né então tem algumas coisas da tem bastante conversa mas claro cada cenário É um cenário né você tem que que que avaliar bom você que tá vendo esse podcast da hora tá vendo um monte de problema aqui que a gente tá colocando né e Quer uma ajuda aí na sua empresa faz o seguinte entra no site aqui da VMB que a gente pode te ajudar vb. I nós somos uma empresa relacionada à arquitetura de soluções a modernizações de aplicações também atuamos no na fente devops para ajudar vocês a serem extremamente ágeis então dá uma olhada no nosso site que vai tá aqui embaixo vb. i e lá você vai poder ver um pouquinho da nossa história dos nossos profissionais e aproveitando se você for um profissional da área de tecnologia que tá Aim de trabalhar uma empresa legal um monte de colega gente boa e tecnologia de ponta manda o e-mail para people care@gmail.com [Música]
[Música]
etc eh é uma tendência que a gente trabalhe somente com dados em movimentos e as bases de produtos transacionais seja minha única fonte de dados estáticos ali por que que eu tô falando isso porque a gente fala muito agora por exemplo até em Analytics essa substituição de data Lake House eh e próprio Big Data que a gente falava antes por cada vez mais plataformas que não vão acumular dado vai ser metadado então o cara vai fazer análise sempre baseada em metadado e e que isso pode vir ele pode fazer ISO tudo no metadado e usando uma estrutura de dados em movimento por exemplo ter esses insights em tempo real economizando Storage e etc você acha que o caminho a evolução natural de uma arquitetura de dados tanto transacional e analítica vai por aí a resposta clássica da arquitetura né Depende não me decepcionou eu tava esperando isso assim eh gosto gosto de dizer que sim gostaria adoraria dizer que sim é isso aí é tudo dado em movimento afinal de contas eu trabalho na conflent mas ã Por que eu vou fazer um relatório por exemplo um um dashboard que eu preciso de dados de uma semana ali para tomar uma decisão por que eu vou precisar fazer ess streaming né Tem situações de negócio que que é isso eu não preciso ficar acompanhando a evolução do meu dashboard durante uma semana para saber qual que a decisão vai ser tomada muitas vezes Tem situações que sim eu quero acompanhar a curva que tá acontecendo ali durante essa uma semana e ali tomando decisões do onfly para entendeu Aí é aí é movimento Mas se eu vou tirar o meu relatório de vendas do consolidado de X Não precisa não precisa entendeu então tem depende casos e casos mas o que acontece é o seguinte e hoje independente do do do da indústria etc todo mundo espera o que a gente chama de experiência Netflix né Netflix você mal você mal clicou em um seriado o negócio já mudou já te tá te dando sugestões baseado naquele um clique que você fez e junto com outros cliques e seu histórico e já vai mudando ali e já vai te dando hoje todo mundo quer isso Netflix Car fica com flink e tem inclusive o time de dados dele tem eles tem umas umas uns vídeos no YouTube bem bacanas do como eles fazem e Mas independente do negócio tá todo mundo assim ah o banco você olhou um tipo de produto avaliou um empréstimo ali você aquela sequência que você fez ali o aplicativo já tem que te sugerir uma outra coisa na hora entendeu o que que é isso é o streaming eu fazendo um Analytics em tempo real e devolvendo essa experiência rica para usuário ou tendo uma tomada de decisão rápida em tempo real isso é o streaming com o mas só complementando R é que eu tô pensando mais na nossa cozinha de ti Ok do que exatamente no caso de uso de negócio o caso de uso de negócio é não tem não tem como refutar o teu argumento que pô por que eu vou ter um stream para fazer um um relatório que eu vou precisar dele uma vez por semana Uhum mas quando a gente olha pra nossa cozinha de ti esse relatório que é gerado uma vez por semana geralmente por trás das da das Cortinas Eu tenho um Bet noturno que pega todo dia esse dado da base transacional leva para um dat Lake pra camada Hall que vai ter um outro processo que no outro dia vai enriquecer esse dado E aí depois de uma semana oou D mais c o cara vai lá e pega o relatório plugado no D tá leake com um monte de processo que rodou por trás para fazer isso e que de repente eu poderia economizar toda essa catraca aqui tendo uma janela de retenção num Cica plugado da minha base transacional coloco um flink como você falou e o cara usa uma janela de retenção de sete dias e tenho e beleza eu resolvi o problema do cara matando 10 pipelines de dados que geralmente eu tenho para conseguir fazer só a entrega de um relatório de sete dias pro cara entendeu então é é interessante esse questionamento eu tenho cliente que fez isso eles faziam lá todo usava al cafca todo dado transacional e tudo eles jogavam para um S3 e aí do S3 tinha toda uma pipeline para tirar tratar esse dado e etc manter ali uma série de camadas até aí paraar as coisas com head shift etc um monte de coisa eles falaram assim hum não eu tenho ferr tal aqui que eu consigo ler direto do Kafka aqui então eu vou aumentar o meu tempo de retenção os meus tópicos e é muito mais simples de eu conseguir ler lá do cafc eles fizeram isso quantidade o o o tanto de grana que eles economizaram com o resto da conta deles na Cloud versus o que eles começaram a gastar a mais no caso da conflent Cloud porque eles começaram a gastar mais com Storage ali né Por causa desse tipo de retenção Foi ridículo eles economizaram muita grana nisso mas assim porque tem que botar na Conta essa história toda e você tem que ter ferramental e capacidade técnica no time para conseguir fazer tirar esse dado do car ficar de forma eficiente né aí aquilo que a gente falou na tomada de decisão você tem várias coisas que não é só produto ali para fazer essa tomada de decisão né do que vai entregar mas eu não vou dizer que é uma tendência mas eu digo que tem gente fazendo com sucesso isso chegamos a um consenso R depende mesmo e cara um outro ponto que você comentou aqui e é que me veio na memória uns anos atrás eh a gente tava trabalhando num projeto e um C determinado cliente que usava mainframe acho que ainda usa mainframe obviamente a gente sabe que mainframe M Page do mainframe é é um é é muito alto caro né E esse cliente tava querendo usar o Cica uhum para diminuir a m pagem mas obviamente né o pessoal que gerenciava o mainframe botou todas as barreiras né todas as condições ali e não teve alguém que peitou o projeto e a gente uhum enfim o projeto não andou pra frente mas eu entendo pelo que você falou também tamb que cara isso poderia ser muito interessante num cenário que ainda tem muito cliente grande que usa mainframe né sim e o Car fica ser ser um uma uma forma de além de acelerar o acesso aqu aquele dado você trazer um uma redução de custo gigantesca num cenário como esse né sim Eu particularmente mas por questões de de território onde eu cubro tipo de cliente que faço eu não trabalho diretamente muito com modernização de bfin cenários mas H tem a gente tem lá dentro da conflent mesmo esse cenário você tira por exemplo você joga lá um conector do MQ lá no mainframe conector cfca do MQ lá no mainframe que aí tira esse dado de lá e aí você processa esse dado fora cuade tem tem conector CDC para db2 toquei no toquei no ponto profundo agora hein é nativo das da suportado pela confluent não tá aí tem alguns parceiros que desenvolveram né Então aí tem algumas soluções aí eh vou tem alguns que vêm à mente aqui mas que que que que conseguem extrair o dado tá mas aí aí tem s400 mas temq por exemplo que eu posso fazer esse desenvolvimento lá dentro jogar no MQ e levar o o do MQ tem o próprio do do Pr próprio da IBM para para funcionar no no mainframe se eu não me engano tem que ser a versão da IBM porque a conflent tem um suportado também da conflent prmq mas eu acho que não funciona no m frame agora eu não vou lembrar de cabeça tá acho que aí tem que ser o da IBM E aí mas aí você o lan é você tira esse dado de lá e aí processa fora em vez de ficar fazendo query lá no mainframe e gastando mip como o Ron tava falando né Então esse é um cenário de modernização aí que é bem comum de de utilizar o cafc para assim Acho que a gente falou às vezes de fazer essa essa ponte de legado para para uma solução mais moderna etc é bem comum de usar a a o cafca E aí a soluções da confl junto por causa disso por quê Porque aí você não precisa fazer os Big Bang da vida você coloca isso aí você começa a tirar esse dado ali do legado ah a gente falou do mainframe mas é o o o caso do de você usar CDC tá você falou você falou do mon Litão ali do banco é é eu eu conheço casos eu já inclusive já trabalhei com casos parecido de empresas que T lá um grande monolito no db2 e ela via o CDC da própria IBM ela cria uma base de leitura numa baixa plataforma sim sim né e a partir dali você aí você destrava a conexão com o mundo né você faz um CDC direto com uma baixa né E aí você só ganha o problema de persistir o dado de volta depois de direto no eb2 Mas você consegue tirar o dado de lá de dentro de uma maneira muito mais fácil trabalhando com a baixa né sim sim sim enfim mas é é é mas o o pensando nesse cenário de modernização muitas vezes você nem quer mandar o d de volta né A ideia é quem tá produzindo esse dado lá no mainframe também é é o é o teu cobalzan lá né Às vezes sim sim mas mas cara esse é um problema eu eu sei na na empresa que eu trabalhei anteriormente tinha que lidar com com com esse monstro lá que que era o mainframe deb2 né e o maior problema de você estrangular um monolito um RP gigante por exemplo tá rodando no no mainframe é a volta do dado porque você não consegue fazer o Big Bang e modernizar o o mainframe inteiro Então você fala não vou pegar o módulo de compras e vou fazer ele na nuvem bonitinho moderno etc eu tiro o dado de lá Gero o a informação de compras só que eu tenho um outro módulo do rp dentro lá que depende do que foi processado fora depende é né Então esse é o maior problema que você tem PR PR estrangular é mas faz parte do processo né a cada vez menos menos informações menos dados você vai ter que mandar de volta deveria ser assim conforme vai estrangulando menos né Exatamente exatamente essa um mundo feliz né cara é o é o paraíso do arquiteto outra coisa e pro num cenário que o cliente quer plugar aplicação direto no CF em vez de ter o como tem um cenário que o cara tem lá o banco lá que faz o CDC mas tem cenário que o cara quer plugar aplicação direto no CFC uhum enfim para pegar o stream e tal nesse cenário tem tem muita complexidade do ponto de vista do cara adaptar aplicação para falar com CFC ou cara ou também bom você aplica a velha Pergunta a velha resposta depende né depende não brincadeira é é é porque muitas vezes precisa vai ter que mudar conceitos arquiteturais mais amplos para você chegar a isso porque aí não é só em vez de eu colocar no no mandar uma mensagem para uma fila do Rabbit ou fazer um insert no banco Ah eu vou colocar no num tópico CF não o que que é aquele evento aquele evento representa aquela es porque não é uma mensagem qualquer que eu vou jogar não você precisa entender se aquela parte que tá produzindo aquele evento o que que é a estrutura daquele evento aí de forma ideal ter o seu esqueminha definido e etc então muitas vezes você tem que ter esse trabalho de de mudar às vezes aquele módulo Ou aquele microsserviço para ser orientado ao evento né não é só ele jogar o uma mensagem numa fila não é isso que ele tá fazendo né pode fazer pode né vai ter um um um certo esforço ali de de de desenvolvimento beleza mas o ideal é você dar um passinho para trás e entender o que que aquele pedaço de código que ah ou tá fazendo um insert no banco ou tá jogando num fila se faz sentido aquele cara ir para um tópico CF quiser fazer direito né dizer é Eu costumava dizer tem que ter um trabalho de arquitetura e não é nem só arquitetura de solução mas arquitetura corporativa para para dar um pouco desse direcionamento sabe S dizer que você tem que pensar muito eue tinha acordado com com esse meu time anterior que cara você vai usar o o o o cafca para para um tópico que é de interesse corporativo então é o resultado o processamento aquela entidade Uhum que foi produzida como resultado daquela aplicação E aí sim bom beleza agora isso pode ir pro financeiro ISO pode ir para tal lugar tal então isso vai para lá né se você vai usar isso para gerar fila dentro da tua própria aplicação usa por MQ usa um pubsub etc né Mas você falou um negocinho eh é a entidade que aquela aplicação gerou isso tem que ser baseado na entidade naquele dado não na aplicação que gerou tem que ser completamente independente da da de que aplicação gerou ex exat até porque você pode ter a mesma entidade sendo gerada por Outras aplicações eventualmente né É por isso o lance do esquema é importante e por isso que às vezes padrão de nomenclatura do tópico é importante sim e por isso que tem gente que gosta o argumenta do lance de colocar diferentes tipos de eventos no mesmo tópico mas eu pessoalmente falo assim não a prática um evento um tipo de evento né um esquim um tópico é isso imagina uma situação de omnichannel por exemplo onde você tem vários canais produzindo pedidos de compra por exemplo né Uhum Então você você não o o espelho da tua entidade que você tá produzindo para colocar naquele tópico de pedidos não pode ter a cara de quem produziu tem que ter a cara do pedido né Você pode até ter um tópico lá que é o Source um um Flag para que você saiba de quem produziu dentro dentro do teu esquema você falou que você fala quem que é a sorce porque isso é importante para teu negócio beleza mas o pedido é o pedido e ele tem que produzir daquele pedido Independente de quem produziu porque amanhã você pode trocar o seu o pdv você pode mudar a coisa ter mais mais canais etc e isso não tem que alterar quem tá processando o pedido do outro lado né Exatamente é isso aí e aí entra mais uma decisão arquitetural do que simplesmente gravo ou não gravo no tópico né E aí entra aquela governança não cara isso vai pro cfca ou não isso aqui beleza isso aqui você põe no MQ isso aqui é comunicação do teus microsserviço por uma demanda da tua cadeia de valor uhum a outra cadeia de valor não precisa saber que você tá mandando uma mensagem de um microsserviço pro outro mas o processamento total da tua aplicação na tua cadeia de valor vai gerar um pedido isso pode ir pro cfca né E e essa visão estratégica cultural que é difícil da Galera entender Cara isso é muito difícil é nessa de comunicação de de microsserviço o que eu vejo bastante o pessoal usando E aí eu acho bem interessante a utilização É usar os tópicos como um um controle vamos dier um canal de comunicação entre a boa e velha máquina de estado sim então você tem o seu tópico eh pedido iniciado aí você tem o seu tópico pedido em análise aí você tem o seu tópico pedido processado você tem o seu tópico pedido enviado E aí de cada ponta você tem microsserviços que lidam com cada estado da sua transação de negócio legal legal aí o pessoal começa a plugar conectores em cada um desses tópicos E aí você consegue fazer um dashboard de controle de ponta a ponta de como que tá as suas transações um Pipe de fato você consegue monitorar ali a tua Aonde que tá meu gargalo Ah tá entrando muito pedido iniciado e tem muito pedido sendo rejeitado aqui sei lá qual o motivo aí se começa ter essa visualização desse juntando aí voltando dando a volta de novo lá pro início da conversa o transacional e o analítico trabalhando junto sim mas eu gosto muito dessa dessa dessa discussão da modelagem do do dado e dos Tópicos né que da mesma forma você poderia ter também um tópico único de pedido com a Flag de estado sim e aí eu poderia ter vários microserviços olhando pro mesmo estado filtrando pelo estado pelo por essa Flag isso só que a aí cada microsserviço ia ter que ler todos os estados aí tem over de processamento lei descarto lei descarto Ah aqui esse é o meu isso e velho é então dependendo Então depende depende depende muito bom muito bom cara eu infelizmente a gente tá chegando no fim do nosso tempo aqui talvez já parece que cara Pois é foi foi rápid foi foi muito rápido mas porque foi muito produtivo ainda tinha mais umas 10 perguntas esta só no início ainda só aqui tava empolgado aqui porque tinha um monte de pergunta aqui na cabeça Pois é eu queria que você pra gente fechar bem Pedrão desce o O que que você dá de de aconselhamento para quem tá se interessando pelo assunto CFC ou tá lá naquele iniciozinho que a gente falou que é natural não não não não se sinta eh mal pelo nosso bullying que a gente fez sobre as más utilizações do cfca se você está usando assim faz parte todo mundo passa por essa escala de aprendizado né S que que você diria aí de de recomendações para quem tá nos ouvindo falando de CFC até não vou nem explorar muito a história do do do flink de processamento stream os esquemas Invista nesse trabalho antes dá um passinho para trás avalia ali defina seus esquim como que vai ser o trabalho de en forçar os esquemas desde o início é é muito importante pô um esforço nisso eh vai parecer chato trabalhoso eh mas vai valer a pena assim quando o negócio escalar quando ficar você vai ver que que vale a pena assim vai garantir uma qualidade do do do teus eventos a qualidade do teu dado vai te ajudar com desacoplamento entre produtor e consumidor de um problema que hoje você pode não enxergar mas que vai vir lá na frente na hora que mudar a a estrutura do teu dado e esse problema vai vir lá na frente na hora que quebrar o primeiro consumidor o negócio parar você vai ver ah não vou ter que achar quem que é o cara lá que produz esse assim eh gasta um gasta um tempinho planejando isso assim eu acho que isso é uma uma boa mensagem para deixar aí boa R alguma pergunta final pro nosso convidado mega especial eh uma só uma só o o Ron é fã da história dos esimas eraa a pergunta que ele ia fazer eu já entreguei aqui né roubei Pois é Pedro acho que é um ponto um ponto interessante de questão de monitoria do ambiente cfca porque isso também eu acho que é um um ponto que eu viro e mexo também é são Desafios que eu escuto de cliente [ __ ] Mas e o que que eu tenho que ver se acontece isso aqui que decisão tem que tomar que que você também daria de sugestão também olhando para essa Ótica faz tudo saç acabou o problema Fala aí vou te convidar responder mas mas mesmo aí tu vai ter vai ter que vai ter que monitorar esse cara todo né são muitas vezes outras coisas eh eu posso falar mais pessoalmente da de conflent cloud né porque é bem diferente as tem Claro tem um monte em paralelo mas as métricas jmx que você vai monitorar quando você tá rodando o seu apach k fica lá na mão versus as métricas que estão disponibilizadas na confluent Cloud Ô falando em algum Em algum momento aí do tipo de coisa que você vai olhar se eu não vou olhar CPU do meu broker não eu vou precisar olhar quanto de byte tá entrando quanto que tá saindo quanto trup assim e trup latência são são as coisas que você precisa monitorar porque é aquela história e eu terceirizei o gerenciamento da solução então o que que eu preciso monitorar como eu tô produzindo E como eu tô consumindo se eu tô produzindo direito se eu tô consumindo direito se tá estável legal então é isso truputi latência quando você tá falando de solução que você de SAS Que você estão onde você precisa olhar porque se se o produtor tá com problema você vai ver alteração no seu no seu no seu trupo se o seu consumidor tá com problema você vai ver alteração no seu trupo e e na latência e daí vai te ajudar se o sistema tá saudável ou não se você precisa escalar teu consumidor não precisa são são essas coisas Claro tem mais uma porrada de métrica que é importante mas eu acho que esses caras eh eh eh seria o principal aí para você Bente é você monitorar o que tá do teu lado que pode ofender a plataforma né então é cuidar do teu lado para que a plataforma não se ofenda então é é um outro tipo de monitoramento né Muito bom ex r e conta pra gente cara quem ouviu tudo isso aqui do cafca percebeu eh o potencial que que que a gente pode utilizar da plataforma eh seja do ponto de vista de dados seja do ponto de vista da modernização do do transacional ETC como é que ele pode entrar em contato com a Tech home e com a confluent para ter um suporte e acelerar essa jornada cara bom eh vamos colocar depois aqui os links eh da da tecron eh acho que vale só fazer um rápido overview mas a tecron é uma empresa que surgiu 100% focada na na tecnologia Cica e também nós já somos bom desde o início também parceiros da conflent no Brasil Então a gente tem ajudado muitas empresas eh na adoção na concepção e obviamente no entendimento do melhor uso do cafca aqui no Brasil então eh a gente pode obviamente conversar quem tiver interesse aqui a gente pode estressar depois mais o tema isso aí vamos deixar os links aqui embaixo contato do rom também contato do Pedro também quiser conhecer mais sobre a plataforma aí entra lá na confluent.io ponio euon iio moderno você vê que pega com ded dura idade JEM jovem ded dura idade quando o cara fala produto.com é tudo ver dura pegou o host nessa né meus amigos obrigado pela presença de vocês foi uma aula de cfca aqui cara hoje pô Eu que agradeço aí o convite Obrigado R Obrigado Wellington Valeu a oportunidade aí abrir o espaço aqui pra gente foi bem bem bacana eh agradecer de novo o r aí o pessoal da Tecon que ajuda bastante acho aqui na presença no BR aqui no Brasil né Eh eu tô longe então quando sempre tem essa ponte eu venho aqui a gente Você mora onde mesmo eu moro no Texas em Austin cara presença internacional aqui pois é ilustre ilustre Exatamente é não tô de lá a gente tá de longe trabalho cubro o território do Brasil Mas aí tem o o Ron um dos braços aqui para ajudar a gente aqui local aí quando a gente vem estamos junto aí sempre show de bola quando a próxima vez você vier traz um brisket pra gente fica tranquilo caprichado beleza você que curtiu o episódio até agora não esqueça de deixar o like se inscrever no canal caso você não seja inscrito deixa seu comentário aqui também se você ficou com alguma dúvida a gente pega exatamente o ponto ali que você ficou com a dúvida Repassa aqui pro ROM Repassa aqui pro Pedro e se você entende que pode colaborar colaborar com o PPT no compila você pode agora ser membro do nosso canal né olha só é agora você pode ser membro chegar lá se inscrever e e colaborar aqui com a gente de alguma forma com o nosso trabalho que dá trabalho fazer essa paga assa viu R não é é certeza dá trabalho então celente colabora com você e você pode vir aqui um dia ver como é uma bagunça isso aqui pessoalmente aqui no estúdio vai vir aqui isso isso deve ser muito legal pode você corre esse risco tá se você não não pode contribuir dessa forma com a gente você já contribui muito divulgando o episódio compartilhando nos seus grupos deixando seu like deixando seu comentário já ajuda muito o canal Muito obrigado pela audiência de vocês espero que tenha sido o conteúdo levante obrigado e até o próximo episódio
[Música] [Aplausos] [Música] valeu
Episódios Relacionados
1h 28minSQL vs NoSQL: Tudo o que você precisa saber | PPT Não Compila Podcast
Valdir Scarin
27 de ago. de 2025
1h 23minQuarkus: Java além da JVM | PPT Não Compila Podcast
Luiz Pais, Valdir Scarin
19 de fev. de 2025
1h 26minEstratégias na Adoção de Plataformas de Desenvolvimento | PPT Não Compila Podcast
Elcio Abrahão, Luis Rogerio de Souza
8 de mai. de 2024
1h 21minSpring Boot Parte 3 - Avançado: Threads, Promisses e Starters | PPT Não Compila Podcast
Marcello Ribeiro, Valdir Scarin
18 de out. de 2023
