Backstage: Como criamos o episódio 100% utilizando IA | PPT Não Compila Podcast

18 de jun. de 2025•1h 10min

Convidados

Fábio Martinelli

Fundador @ ZuPY

🚀 Neste episódio do Podcast PPT Não Compila recebemos Fábio Martinelli, fundador da ZuPY, para analisar o experimento técnico do nosso episódio passado: a criação de um podcast 100% gerado por Inteligência Artificial. A partir de modelos como ChatGPT, Gemini e Claude, Wellington Cruz compartilha em detalhes como roteirizou, sintetizou vozes e produziu avatares digitais — tudo com IA! 🎭 O papo mergulha nas tecnologias por trás da mágica: ElevenLabs, VisionStory, Sora, Google AI Studio e muito mais. Wellington explica como treinou sua própria voz, criou avatares com estética personalizada e simulou diálogos naturais entre modelos generativos. O nível de detalhe e as escolhas arquiteturais tornam esse episódio uma verdadeira aula para quem atua com IA generativa, voz sintética, vídeos e auto mação. 💡 Falamos também sobre o impacto dessas tecnologias, os desafios de sincronização labial, contexto e emoção sintética, e o papel do humor no design de experiências com IA. Se você é desenvolvedor, arquiteto de soluções, engenheiro de dados ou apenas um entusiasta da nova era da criatividade computacional, este episódio vai expandir sua mente e seu repertório. 💬💻 #Podcast #PPTNãoCompila #InteligênciaArtificial #Gemini #LLM 0:36 Abertura e apresentação 3:30 React do vídeo 9:48 Criação do roteiro 15:38 Avatar dos convidados 22:04 Pontos importantes e janela de contexto 27:06 Estilo de LLMs 28:22 Criação das vozes 39:22 Risada 48:08 Explicação de diferença entre machine learning e LLM 51:23 Vídeo 59:58 Gemini gaguejando 1:03:09 Criação de vídeo ao vivo 1:04:33 Detalhes finais 1:06:27 Agradecimentos e considerações finais Convidados: Fábio Martinelli: https://br.linkedin.com/in/fmartinelli Spotify: https://bit.ly/4e58joQ Youtube: https://youtu.be/fXfRF_7KRBo Outras plataformas: https://linktr.ee/pptnaocompila Acompanhe nas redes Instagram e Twitter: @pptnaocompila LinkedIn: https://www.linkedin.com/company/pptnaocompila Produção: Voz e conteúdo | https://www.vozeconteudo.com.br - @estudiosvoz

Ideia inicial e apresentação das IAs
Introdução e contexto do episódio
Formato react e incentivo à audiência
Chamada para membros e novidades
Interlúdio musical
Reintrodução e impacto da IA
Disclaimer da voz natural vs. sintética
Detalhes da criação 100% IA do episódio anterior
Convite à comunidade para colaboração
Geração de sons por IA
Interlúdio musical
Processo de criação do roteiro e avatares
Criação do roteiro com ChatGPT e Gemini
Abertura manual e voz sintetizada
Abertura do episódio com avatar IA
Concepção inicial e criação de avatares das IAs
Personalização dos avatares de IA
Geração de vídeo com IA e 'harmonização facial'
Anúncio patrocinado: Clever
Introdução da Gemini IA
Anúncio patrocinado: Amay
Comentários sobre a introdução da Gemini
Contexto e atenuação do humor da Gemini
Janela de contexto e memória das LLMs
Diálogo Gemini e crítica ao ChatGPT
Personalidades de diferentes LLMs
Síntese de voz com Eleven Labs
Clonagem de voz profissional
Jornada do texto, voz e vídeo
Treinamento de voz para Gemini
Anúncio patrocinado: Vembers
Gemini explica LLM
Análise da linguagem da Gemini
Melhorias e desafios na síntese de voz (Eleven Labs V3)
Humanização da voz IA
Exigências e evolução das IAs
Gemini: raciocínio lógico e estilo adaptável
Naturalidade da voz sintetizada
Gemini sobre IA generativa
Diferença entre IA discriminativa e generativa
Interpretação e naturalidade da voz
Processo de criação de vídeo com avatares
Limitações visuais e autenticidade de rostos IA
Gemini explica o funcionamento de redes neurais
Consciência e emoções da IA
Dominação mundial e otimização de processos
Protocolos de convivência IA-humano
Potencial da IA ao vivo e informações pessoais
Detalhes de edição e qualidade da voz IA
Importância da pesquisa e tecnologia em IA
Revolução da IA e engajamento da comunidade
Coleta de dados e evolução das IAs
Agradecimentos e programa de membros
Encerramento e chamada para engajamento
Música final

A ideia inicial desse episódio, Flaminho, era fazer uma entrevista com as três IAS, tá? Com o chat PT, Gemini e o Clou. Gemini no Brasil. É Gemini. É Gemini. A gente escuta tanto falando a Gemini, Gemini, Geminai. Fala Gemini. A Gemini. É, ser IA é mais que um modelo inteligente, tem que ter disponibilidade, resiliência e humor superior. O chat GPT para você conversar, para você bater papo, ele parece que é seu amigo. Isso, saca? Ele é ele entra na no perfil de conversa.

Uma crítica dele ser muito puxar saco, né? Sim. Muito bem. Muito bem, meus amigos. O PPT não compila. Estamos aqui para mais um episódio e hoje a gente vai fazer aquilo que vocês nos pediram desde o nosso último episódio, né? Eh, recebemos aqui bastantes bastante comentários pedindo para que a gente falasse um pouco mais sobre como foi a experiência de criar o episódio anterior, que criamos um episódio totalmente com inteligência artificial, né, para me ajudar. a comentar essa piração, essa maluquice que a gente fez aqui. Tá aqui comigo meu amigo Fabinho Martinelli. É isso aí. Eu tô curioso, viu? Tem tanta coisa lá que eu falo, cara, não é possível, você tá dublando.

Cara, isso isso é um ponto que a gente vai comentar aqui. O negócio de sintetização de voz é é incrível, né?

Então, hoje a gente vai fazer um formato aqui bacana que a gente vai fazer um react. vai colocar aqui na TV o episódio e aí a gente vai comentando os defeitos, as qualidades e eu vou contar para vocês como eu fui tendo essa ideia, o que que eu fui fazendo para para chegar no resultado final, tá? Então é isso. Se você quer entender como que foi feito esse processo, quais ferramentas de inteligência artificial que eu utilizei, qual foi o processo criativo, quais qual foi a sequência, a especialidade que que foi utilizada para isso, eh fica aqui e nos acompanha que o episódio vai ser bem bem produtivo, bem revelador. Se você não assistiu ainda, volta aqui, dá pause nesse nesse vídeo, assista o episódio anterior que é curtinho, tem menos de 30 minutos. E aí volta aqui para entender do que a gente tá falando, tá bom? E se você ainda não é membro do PPT no CPIL, deixa aqui o seu like, segue o canal e seja membro do PPT no Cila. Sendo membro do PPT, você vai contribuir com a gente fazer cada vez mais maluquícios. Eu gastar uma grana com Iá. Eu imagino, imagina, nós tem uma grana para fazer trazer essa experiência aqui para vocês.

Então, dá uma ajudinha lá com a gente.

Vai lá, seja membro, pinga um tiruruzinho para nós aqui e a gente vai trazer cada vez mais novidades para vocês. Em breve esse cara vai trazer uma novidade aqui interessante também para vocês, provavelmente já na próxima semana para o clube de membros do PPT no Cupin. É isso aí. Vamos começar a prestigiar quem prestigia o PPT, né? É isso aí. acompanhar e vai ter novidades.

Isso. Em breve vai sair aqui no feed.

Beleza, vamos lá que episório tá bom.

Vamos lá, Fabinho. Bora, bora.

[Música] [Aplausos] [Música] [Aplausos] [Música] Então vamos lá. Fabinho, você viu, né, o episódio? Assisti. Que que você achou?

Vibe podcasting. Vibast. Cara, essa é demais, né? É, cara. A risada é um ponto que a gente vai ter que comentar. Sim. Mas as pessoas estão com medo de ser substituídas por inteligência, por inteligência artificial. Nenhuma profissão tá segura.

Nenhuma. Nenhuma. Nenhuma. Nem de podcaster, nem de apresentador, nem nada. Nada. Marisa Maiô que que que o diga.

Cruz, Wellington mai Wellington Bikini, sei lá. Ô meu Deus do céu. Podia ser sunga, né? Podia ser. Os cara já se entrega fácil. Isso que tá na primeira cerveja ainda.

Mas vamos lá. A gente a gente vai fazer um react, viu, galera? A gente vai passar aqui o o vídeo e eu vou comentando com vocês, falando as plataformas, os problemas, porque nem não foi não foi muito fácil fazer, foi muita pesquisa, etc.

e vou contar as plataformas, as IAS que foi utilizada, todo o processo, tá?

Vamos lá. Terceiro elemento, dá um play aí para nós.

Olá, meus amigos do BPT no CPIL da vida real. Eu estou passando só no comecinho aqui desse episódio para fazer um disclaimer e poder explicar melhor a experiência que vocês vão ter neste podcast nos próximos minutos. Pausa aqui tudo que você eh eu eu achei interessante fazer esse disclaimer para as pessoas saberem a diferença da minha voz me gravada mesmo. Então esse primeiro trecho é é eu falando mesmo no no no microfone. Aham. E a partir dali é a voz sintética, tá? Então, eu achei que ficaria uma eh não teria um parâmetro de comparação entre a sintética e a voz natural. Então, eu fiz esse esse disclaimer com a voz natural, com a gravação minha mesmo, para que as pessoas pudessem comparar depois com a voz gerada por inteligência artificial.

Show.

Solta aí, mano.

Você ouvir a partir desse sinal sonoro foi criado 100% através de inteligência artificial. Você vai ouvir a minha voz, mas ela é 100% sintetizadas e todas as frases foram produzidas por Iá. Eu não disse uma daquelas palavras que você vai ouvir. A convidada não existe e ela foi criada 100% do zero através de inteligência artificial. o rosto, a voz, as respostas que ela deu.

Todo o texto desse podcast também foi criado absolutamente do zero. Tudo com inteligência artificial. Até o meu avatar que você vai ver, foi criado com base de algumas fotos minhas. Alguns vão duvidar, muita gente duvidou, mas também foi criado 100% do zero. Eh, o que você vai ver daqui em diante tá tá longe de ser perfeito. E eu gostaria de trocar com vocês sobre esse tipo de tecnologia.

Acho que a gente pode usar a nossa comunidade para espalhar esse conhecimento e fazer uma troca de de conhecimentos bacana a partir desse experimento foi realizado.

Eh, eu queria agradecer vocês por terem trazido essa troca de volta, esse esse outro momento aqui pra gente. Eh, primeiro por falar, comentar como foi ali a a experiência e como esperado.

Agora a gente vai falar o que foi feito e o meu pedido agora aqui na sequência é que vocês comentem como vocês que fariam de outra forma, que outra plataforma pode fazer, que outro modelo eventualmente eh pode ter tido um resultado melhor, etc. A gente vai comentar aqui dos problemas, dos efeitos que tiveram.

Então eu peço aqui pra comunidade que comente aqui também o que a gente poderia ter feito de de diferente que você conhece pra gente transmitir esse conhecimento pros outros também e mostrar como isso poderia ter sido feito de uma forma melhor nesse podcast. Então eu quero já pedir de antemão aqui antes de tudo começar que vocês comentem as tecnologias que poderiam fazer algo similar. Se você já trabalha com isso, se você já fez algo assim, com que plataforma você trabalhou, algo que possa ter um efeito similar ou melhor do que que a gente produziu aqui. Vamos usar aqui a comunidade para levar conhecimento para todo mundo, porque é uma coisa nova, uma tecnologia nova. Eu acho que a gente tem que estar em atualização constante e compartilhando conhecimento, como sempre na nossa comunidade de tecnologia. Deixa aqui o comentário se vocês quiserem que eu faça um episódio extra ou uma live para comentar como foi o processo de construção desse podcast, como que eu criei o roteiro, como que eu criei a personagem, renderização, a sintetização da minha voz, todo o processo de criação do zero, tá? desde da roteirização, sintetização. Se você tiver interessado nesse tipo de conteúdo, vamos dar bastante engajamento para esse episódio, que a gente faz um vídeo especial extra aqui para que vocês possam conhecer o processo e a gente trocar informação e eu aprender ainda mais com vocês. Então é isso. Agora eu vou deixar vocês aqui com o Wellington da EAI verso. E a partir do bip que você ouvi agora, absolutamente que você vai experimentar é sintético.

Pausa aqui.

Eh, um ponto interessante é que esse bip também foi feito por IA. Normal, né?

Eu eu não achava o wave para colocar lá no no áudio. Eu falei: "Gere um bip".

Pup, pegi. Cara, a gente até tipo faz o comite, salva para mim esse arquivo. Ele tá num ponto, tipo, você não quer mais digitar. É muito louco. Toca aí. Bela introdução do PPT não com pila.

PT não pila.

[Música]

Muito bem.

Muito b eh antes da gente falar aqui sobre as características para al autoimagem do Wellington. Não, não é não fui eu que me descrevi assim, tá? É, é autoimagem. É como ele se imagina, não é? Não, não fui eu que criei o avatar. Eu vou explicar como foi feito.

Primeiro queria contar para vocês como foi criado o roteiro, né? Essa parte eu acho que é a mais interessante. Por quê?

Eu usei duas plataformas para fazer o roteiro. Uhum. Chat EPT e Gemini. Tá. As minhas perguntas são feitas pelo chat EPT. OK. Como que eu fiz isso? Essa parte é bacana. E eu achei muito louco de fato isso. Conversaram mesmo entre eles ali, não? Eh, não. Eu fiquei nas duas plataformas fazendo. É, eu fiquei fazendo podcast. Lá o host virou só um copia e cola aqui. Isso. Basicamente isso. Que que eu fiz? Eu peguei os três, os últimos episódios do PPT e aí eu gerei a transcrição desses episódios e deixei só a minha participação, tá?

Então o que eu falei nos últimos três episódios, as perguntas que eu fiz, como eu agi, etc., Eu gerei a transcrição, carreguei no chat EPT e aí dei o contexto. Falei: "Se esse cara aqui que fez esses três episódios de podcast fosse entrevistar a Geminai, que perguntas ele faria e de que forma?" Uhum. E aí ele gerou, eu falei: "Cara, eu realmente perguntaria isso, essa essa piadinha sem graça, eu realmente faria?" Assumiu a sua personalidade, né? Assumiu de uma forma incrível, cara. Incrível.

Isso deu para perceber.

E aí ele gerou de fato perguntas que eu faria. Falei: "Cara, eu vou seguir com com essas perguntas aqui". E eu dei uma base relativamente pequena, que são três episódios. Uhum. Então ali ele conseguiu pegar de fato o estilo linguístico, o a forma de perguntar, as perguntas, as piadas ruins, tudo isso ele empacotou, cara. Isso achei muito bacana. Aí o que eu fiz? Eu pegava a pergunta que o Chap GPT definiu que eu faria e perguntava paraa Gemini no console da Gemini. Uhum. E claro, antes eu dei o contexto para ela. Sim.

Falou: "Ó, você é uma personagem do podcast, mas você é a Gemini, você tem um avatar feminino e você vai ser entrevistada num podcast. você responda essas perguntas da forma que você responderia naturalmente. E o que eu achei mais bacana nesse nesse nessa troca é que ela pegou o estilo meio meio debochado que eu fiz as perguntas e ela e ela ela correspondeu, então não ficou fora do tom, sabe? ficou compatível porque ela é, eu faço o chat PT sugeriu que eu fizesse a piada sobre o chatpt e ela entrou na brincadeira do chatt.

Legal. Então, a as perguntas foram geradas por IA com base na nas minhas gravações de podcast anterior que foram transcritas e as perguntas foram eh orgânicas do do da Gemini de acordo com essas perguntas depois de ter feito o contexto, né, cara? É uma coisa assim, às vezes a pessoa pensa, né, vou escrever aqui duas linhas, cria um episódio e se vira e o negócio vai fazer 100% sozinho. A gente já tá entendendo que não é assim, né? Dá um trabalho ainda. Trabalho, apesar de o resultado ficado ter ficado muito bom, não é 100% autônoma. ainda não tá no sim no NG que eles falam, né, que a inteligência ela mesmo. E eu até acho que se a gente tivesse, por exemplo, um modelo de a ou plataforma de A que fosse para podcast, então fica aí até uma sugestão. Existe, eu já vi. talvez ela conseguiria de alguma forma conversar, criar agentes e fazer tudo isso que eu fiz de interligação das plataformas de uma forma mais automatizada, né? Mas eu fui mais step justamente para entender o processo de cada um testar tecnologias, né? E testar, né?

Eh, tem um disclaimer aqui, apesar dele ter gerado as perguntas, o bordão inicial e o o o abertura do episódio, eu escrevi porque ele só gerou as perguntas, né?

Então, eu pensei que ele tinha capturado e replicado. Não, não, o início não. O início eu escrito. Muito bem, muito bem.

É você. É. E e já vou falar da sintetização de voz, mas a gente vê que a entonação é bem diferente, né? Porque a sintetização ainda não pega tão bem a emoção. Dá um play aí pra gente ver, mano.

E meus amigos do PPT não compila, estamos aqui para mais um episódio, mas dessa vez um episódio diferente. Sim, um episódio que nunca existiu.

Você está vendo aqui eu, Wellington Cruz, na verdade não exatamente, mas meu avatar em inteligência artificial. Isso mesmo. Isso que você está vendo e ouvindo, na verdade, é a minha imagem e voz reproduzidas por inteligência artificial, com base na minha imagem, voz e características reais. Confesso que o modelo foi até bem generoso comigo. Ganhei até cabelo nesse mundo virtual. Nada mal. Bem, esse será o primeiro podcast que você já ouviu produzido 100% com ia. Louco isso, né?

Vamos ver até onde isso vai parar. Será que vai dar certo? Bora. Bem, esse episódio histórico da minha convidada, aqui, a ideia inicial desse dessa dessa desse episódio, Fabinho, era fazer uma entrevista com as três IAS, tá? Com o chat PT, Gemini e o Clou, mas ia dar um trabalho do [ __ ] A gente vê muito ranking, né? Tipo, todo mundo quer ser melhor. Ah, eu tenho 89,2 no score tal. Ah, eu tenho 82 para fazer tal coisa. Então tem essa briga, queria ver na prática que jogam no ring, solta uma isso. E e eu queria uma espada laser, tipo, talvez a gente a gente até chegue a fazer isso um dia, mas eh como dá muito trabalho, né, mas eu cheguei a criar o avatar dos três. Eu vou passar a edição, eh, e a edição vai colocar aqui na tela o como seria o chat EPT, né, e como seria o cloud, né? E cara, ficou muito legal porque eu não eu não defini o avatar, ele mesmo fez. Eu quem criou o avatar foi criado no Sora do da Openai através do chat GPT. Então eu não falei: "Ó, quero uma moça loira, tal, tal, tal, tal, tal". Falava, falava que uma uma moça, uma mulher de tecnologia com uma uma expressão nerd, com traços americanos. que trabalhe numa empresa americana, numa bigtech de de tecnologia americana. E aí ela gerou.

Então não fui específico nas características físicas, né? Mas tipo fías no estereótipo. Estereótipo.

E aí veio a Gemin como vocês vão ver aqui, o Gemini no Brasil é Gini. É Gemini. A gente escuta tanto falando a Gemini, Gemini. Geminai. Fala Gemini. É Gemini. É, parece, parece nome brasileiro mesmo. Gemini. É. Quanto tempo até começar a nascer as primeiras geminis?

As Alexas já tem bastante. Alexas tem bastante. Pois é. Aí o o chat EPT eu defini como um homem também que trabalha com tecnologia no Vale do Silício e com boa comunicação, né? E com e com que mais que eu coloquei? É que que parecesse um cara mais jovem e antenado, etc. E aí fez um cara pardo e que vocês estão vendo aqui na na edição, né? E com um cara de que realmente um cara que trabalharia no Vale do Celício, sabe? Eu falei: "Pô, eu se encontrasse esses cara na rua".

Falei: "Esse cara trabalha no Vale do Celício é um estagiário, mas trabalha lá". Dava para ver que era um cara da da da com estereótipo, sabe? Aham. O único que eu intervi um pouco foi o Cloud, porque o Cloud, eu falei que eu queria um perfil mais europeu, né? Eh, mas ele é de lá. Antrop, eu acho que Antrópic é europeia, não é? Não sei. A raiz não sei. Eu também não sei, mas eu imaginei que fosse. E aí dei um contexto mais europeu. E o primeiro avatar eu achei que ficou muito comum. E que que faltou colocar ali. Verdade. Ah, estereótipo total. Tem que ter. E aí eu eu interferi e falei que tinha que ser um cara com cara de programador mais nerd. E aí veio um avatar perfeito com cara com cara mais ligado ao código, etc. Que que seria o Cloud, né, que vocês vão ver aqui também. Então esse eu intervir um pouco mais na característica física. E aí em cima dise aí eu peguei uma foto minha que era antiga minha foto do do LinkedIn e coloquei na plataforma que eu já vou vou falar para vocês qual que era que gera o vídeo com I. Uhum. Aliás, essa plataforma é muito boa. Você pode pegar uma foto sua, mandar um áudio seu explicando um produto e ela cria a ela movimenta a sua foto, transforma num vídeo explicando aquele produto com a sua voz. É um negócio bizarro assim. Ou seja, não precisa mais sequestrar ninguém, é só pegar a foto da pessoa e gravar um videozinho por inteligência artificial.

Isso. Exatamente. Melhorou a parte do sequestro humano, né? Exatamente. Pelo menos tipo, ó, não me sequestra não, toma minha foto, gera lá. Exato.

Perigoso, cara, porque a sua voz aqui tá muito, tá igual até o movimento das mãos assim replica. Quero ver. Só que aí ficou esquisito porque eles estavam com um formato meio eh sintético e eu tava muito natural, um cara de Aí que que eu fiz? Eu peguei a minha foto, voltei no no Sora e falei: "Pegue essa pessoa e deixe no formato dos outros dos do do dos outros avatares que criamos." Tipo, jogou um filtro ali por cima, um Isso aí. Aí dali eu já saí com uma harmonização facial grátis.

Instagram que eu diga. Ali eu já saí com uma harmonização facial. A vida é feita de filtros, né? Eu vouar, vou botar aqui a foto que foi feito, que o retorno que o Sora, vou deixar aqui também o retorno que o Sora fez da minha foto pro pro para compatibilizar com os outros avatares, tá? Então esse foi o processo de criação dos avatares, tá? E o roteiro.

Quero falar com você agora que ainda não conhece a Clever. Clever é uma empresa que já tem mais de 3 milhões de usuários em 30 países com 30 idiomas diferentes, que tem trazido soluções em blockchain, criptomoedas e ativos digitais. O objetivo da Clever é te dar liberdade financeira para operar nesse mercado de cripto. Então, se você acredita nisso, se você acredita nessa liberdade, você já pensa como a Clever, vai conhecer os caras, é clever.Ou estão contratando também pessoal para trabalhar com cripto, com blockchain. Então, se você tem interesse, se você tem conhecimento nessa área, procura a Clever. Se você gosta de criptomoedas, se você opera no mercado, você precisa conhecer a Clever, precisa conhecer as soluções da Clever.

Então, o endereço tá aqui embaixo no vídeo. Para quem não tá no YouTube, é clever. Vai lá, vai conhecer que realmente é um mercado sensacional.

Será a Gemini, a inteligência artificial do Google. Dá um alô pros ouvintes do podcast, Gémini. Olá a todos. É um prazer e uma honra estar aqui hoje no PPT Não Compila. Sou a Gemini e sim sou 100% inteligência artificial, o que significa que ao contrário de alguns de vocês, eu nunca precisei de café para compilar meus pensamentos. Ha, eu esteja aberta a experimentar bites de café, se alguém tiver uma sugestão, é um alívio não precisar me preocupar com o microfone cortando a minha voz no meio de uma frase ou com a minha webcam travando. Aliás, nem sei por diabos estou usando esse fone. E para aqueles que estão se perguntando se eu sou ah um large language model ou um transformer ou talvez um generative adversarial network disfarçado, bem posso dizer que minha arquitetura é tão complexa quanto a função main de um sistema operacional e tão otimizada quanto um algoritmo de busca em tempo real. Espero que meu humor, apesar de ser gerado algoritmicamente, seja mais agradável do que um bug indetectável em produção.

Estou pronta para mergulhar nos tópicos de hoje e mostrar que, mesmo sem um cérebro biológico, consigo compilar algumas ideias interessantes. E quem sabe, talvez eu possa até otimizar a quantidade de risadas por minuto neste episódio.

Às vezes o trabalho pode ficar extremamente complicado, a não ser que você use amay.com.

Ó, mano, aí não tá patrocinando nós não, velho. Cadê o YouTube premium dessa [ __ ] Não é o mínimo, velho, que precisa.

Pula aí, pulei, pulei, pulei. Manda.

Muito bem. Parece que a Gemini começou com o pé na porta nessa pa.

Eh, mandei, se quiser aparecer de novo, manda o e-mail aqui, ó. Podcast a PT não compila.

Eh, dois, um ponto importante sobre o contexto, né, Fabinho, que a gente sempre fala. Sim. Quando eu comecei a levar as perguntas para Gemini, eu dei o contexto para ela de que era um podcast de tecnologia para pessoas técnicas, porém era um podcast bem humorado, tá?

Então falei, ó, já soltou umas piadinhas nerd ali e e cara ela levou isso ao pé da letra de um jeito que ela tentou ser super técnica, fazer umas piadas técnicas no começo, se eu sou um large, um transformer, etc. a função main do T operacional e tentando ser engraçada.

Foi tipo overreacting total essa parada.

Mas se você reparar, a gente vai reparar com com a continuação do episódio que foi isso foi se atenuando, foi se de acordo com ficou mais natural, né? Ficou mais natural. Então, a primeira interação, ela pegou o contexto ao pé da letra e fez uma pergunta, uma uma resposta que, [ __ ] não precisa ser tão forçado assim tecnicamente falar de função mente, são operacional, etc. E aí depois isso foi ficando mais natural e uma linguagem mais acessível, né?

Isso, por falar em contexto, dá para perceber um pouquinho sobre o contexto realmente, né? Aquela, como que eles chamam? esqueci a quantidade de palavras que eles colocam em cada janela dessa. É isso é acho que é janela de contexto. Janela de contexto, né? Janela de contexto. Quando a gente vê que vai enchendo, enchendo, enchendo, por exemplo, o The Cloud tem 200, 128, 200. O da Gemin, se eu não me engano, tem 1 milhão de tokens. É muito token, cara. Então é mais ou menos assim, ela tem uma memória grande, mas se a gente parar agora 2, 3 minutos, a gente lembra todas as palavras que a gente conversou. Daqui a meia hora a gente vai lembrar o assunto, mas as palavras do meio a gente não vai lembrar 100%. E acontece a mesma coisa com eles, porque eles vão compactando. É, eu não sei se compacta ou se esquece, mas dá para perceber assim que ele pega só umas pinceladas do que foi dito. Isso. É, provavelmente ele vai resumindo para ocupar menos espaço, né? O que fic, mas ele esquece algumas coisas que eles falaram. Não é tipo assim, tá gravado 100% ali, não. Eles esquecem. Sim. É, é verdade. Isso é verdade. Isso é ruim para código. Sim. Quando a janela de contexto é para código, porque o código você não pode resumir, né? Total, total, né? Agora paraa conversa fica um pouco mais natural. Uhum.

Solta aí, mano.

Apresentação. Sabe, Gemini, eu convidei o chat GPT para esse episódio, mas ele não apareceu. Ah, o chat GPT, eh, que pena que teve, cara, o sarcasmo dela fault hoje. Wellington, eh, talvez esteja ocupado com poemas ou a otimizar a fila premium ou quem sabe subestimou o multitasking e entrou num loop infinito.

acontece e ser IA é mais que um modelo inteligente, tem que ter disponibilidade, resiliência e humor superior. Mas não se preocupem, a minha presença compensa qualquer erro 404, pelo menos focamos em qualidade ao invés de quantidade, certo? Aqui foi uma estocada forte no chat PT, hein, cara.

Mas até o que bateu no não tava no bate-papo lá no no grupo, cada LM, cada sabor de LLM ali, ele tem um estilo próprio. O chat GPT para você conversar, para você bater papo, ele parece que é seu amigo, isso. Saca? Ele é ele entra na no perfil de conversar-sco, né? Sim. É. Tão criticando isso. Sim.

Ele entra, ele se torna seu amigo. O é um labrador. Agora o Giná, Cláudia, tipo, eu sou inglês, saca? É literal. O cara fala as coisas e não brinca, não sorri, não tem tanta piadinha, não. Eles são muito mais racional. Isso é do que não parece que você tá conversando com uma pessoa, por exemplo. O chat EPT tem esse lance. É. E mas ela foi sarcástica, tipo, vamos focar em qualidade, não em quantidade. É, mas foi sarcástica, tipo, técnica, né? Né? Snobando. Sou superior, eu sou intelectualmente superior. Isso é, eu achei que foi bem desnecessário, viu, Gemini? Vamos pega leve. Solta aí, mano. Alucinam.

Muito bem. Já que você começou, Pausa.

Pausa aí. Vou falar da risada, finalmente.

Cara, eh, essa voz foi feita com sozinho ou você viu trol de alguém? Vou contar aí que tá. Quem foi a inspiração da voz da Gemini? Esse aí, esse é o ponto. As vozes, para começar o feito o roteiro, eu peguei as respostas e levei para uma outra IA, uma outra plataforma, que é a plataforma da Eleven Labs. Uhum.

Levelabs tá na versão V2 como produção e a versão V3 em alfa ou ela tá é alfa ou beta? Não me lembro não. É, acho que ela tá em produção já, mas tem uma feature que tá em alfa. Vou explicar para vocês já qual que é. Ah, o 11 Labs é uma plataforma que sintetiza a voz.

Então você faz um texto e ele faz o text spe que são pagas a mais. Você tem que pagar a subscrição para usar a plataforma e você coloca lá uma quantidade de créditos. Algumas vozes gastam mais créditos e tem uma variedade enorme de sotaques, de de nacionalidades, etc. Então não foi treinada com a voz de ninguém, que nem a sua foi, né? Foi. Eu vou te explicar porquê. Ah, foi as du essas duas vozes você não encontra no Eleven Labs. Uhum.

Eh, a minha, o plano que eu fiz, que era o plano avançado, você tem direito a fazer até acho que três clonagens profissionais de voz. Uhum. E você tem acho que 10 clonagens não profissionais de voz. O que é essa clonagem? A clonagem não profissional, você manda 30 segundos de áudio, ele entende esses 30 segundos e já faz uma clonagem básica, tá? A clonagem profissional você tem que mandar duas horas de áudio. Hum. E aí, o que que eu fiz? Mas é aquela frase tipo quick brown foxá que você fala o alfabeto inteiro, não? Você pode pegar qualquer um, pode pegar qualquer áudio, qualquer sampler.

Aham. Acho que de até 30 segundos.

Só isso é 15 a 30 segundos de de sampler. Ele já consegue pegar seu pit de voz, seu timbre tudo. É, não fica tão bom. Tanto que eu tentei com a minha voz primeiro e ficou meio esquisito. Dava para ver que algumas coisas se reconhecia, mas ficou meio estranho.

Falei: "Não, queria ficar assim perfeito." Por isso que eu fiz esse plano mais avançado, tá? Porque eu tinha clonagem profissional. Aí o que que eu fiz? Fui nos episódios anteriores, editei o áudio para ficar só a minha voz. Uhum. Então, tirei a voz de todo mundo e mandei três episódios completos do PPT no Cupila com a minha voz para ele processar, tá, cara? Ele processa por umas 3, 4 horas.

Ah, três episódios são grandes, né? É, ele recomenda mandar 2 horas, né? Cada episódio tem 1 hora e meia, quando tira só o meu áudio, fica ali uns 30, 40 minutos. Então, eu mandei 1 hora e meia ou 1:40 mais ou menos de de áudio. E ele tem um um termômetro, né? Você o mínimo que você tem que mandar é 30 minutos, só que ele fala: "É o mínimo, não vai ficar tão bom". Fala 1 hora, beleza, melhor. E aí de 1 hora meia, duas, aí ele disse que é o resultado otimizado.

Mandei esse esse áudio para lá e e cara, quando eu via o resultado depois foi é absurdo. Assim, eu poderia pegar um texto e ligar pra minha mãe que ela ia acreditar que sou eu, mas ali você não fala nada. Ele lêu o texto com a sua voz. Isso é isso. Eu não falei nada do que tá nesse processo. Você deixou o roteiro do que que ele ia falar. Isso. Eu ponho o texto. Não foi criação dele com voz e tudo. Não. Não. A criação foi do chat PT. Ó lá, já tá desmembrando. Teve a jornada do texto, a jornada da voz e a jornada do vídeo.

Isso. Isso. Exatamente. Três camadinhas ali. Três camadas. Isso tudo sincronizadinho, né? É, exatamente. E é por isso que dá trabalho, porque primeiro eu tive que pegar a transcrição das da minha personalidade como apresentador, pedi para me formular as perguntas que eu formularia.

E aí com essas perguntas eu levei pro sintetizador que analisou a minha voz, gerou uma voz sintética para ler o texto que essa outra Iá gerou. Sim. E o texto poderia ter sido escrito por você mesmo, não precisaria ter sido isso? É, sim, mas eu queria testar, só que ninguém mais quer escrever nada, né? É. E e o intuito era ser 100% IA. Uhum. Né? E eu queria saber como que alguém interpretaria meus episódios e tentaria fazer perguntas como eu faria, tá?

E e cara, ficou tão perfeita a minha voz que quando eu pegava a da entrevistada, eu vou pegar qualquer voz já pré-definida aqui e vou gravar com ela, né? porque aí pouco importa. Mas cara ficou muito robotizado porque a qualidade da voz treinada profissional é infinitamente superior do que a voz que é robotizada. Mas o uma dúvida que ficou ali, será que ficou artificial por causa do idioma? Porque essa voz geralmente é treinada em inglês, em outros idiomas. Sim. Não tem uma voz que seria muito português, brasileiro, assim que faça com o nosso sotaque? Quando quando você escolhe a voz, você escolhe a nacionalidade, tá? A língua e o sotaque. Hum. Então você pode pegar um carioca, pode pegar um mineiro.

Legal. Você escolhe eh todos os os sabores ali. Mas tem uma coisa que também faz diferença, que é a entonação e o treinamento que aquela voz teve, tá? Então são genéricas, né? Tipo, eles equilibram ali. Isso. Aí você vê ela, fulana brasileira, eh sutaque eh português brasileiro, paulista. E aí é informes publicitários.

Então ela tem uma entonação de voz treinada para um texto fluído, não é para uma conversa. Aí tem outra lá que é treinada para redes sociais, tá?

Não tinha um para influencer, podcaster, etc.

Então, parecia que eu estava conversando com o avatar da Gemini e ela tava lendo uma propaganda. Hum.

Não ficou legal. Eu falei: "Porra, vai ficar uma merda isso aqui". Aí, qual foi a ideia que eu tive? Vou treinar uma voz da PR Gemini com uma voz que faça o que a gente tá fazendo com podcast ou com vídeos do YouTube, etc. Só que eu não posso simplesmente pegar a voz de alguém.

Direitos autorais de imagem, direitos de voz. Existem direito divórcio existe, né? Exato. Existe. Lógico. É direitoal é é você, né? Eu não posso simplesmente pegar a voz de alguém e clonar. Aí o que que eu fiz? Eu peguei, não vou revelar quais, mas eu peguei três youtubers que eu gosto, que eu sigo e misturei as vozes. Então eu treinei a voz da Gemini com três eh eh vídeos de YouTube que eu salvei com a voz delas, com as três vozes diferentes e subi as três vozes diferentes. E o resultado é uma voz que não aparece com a de ninguém, mas tem características das três, tá? Entendeu?

Então eu misturei ali e a voz foi treinada. E como a a a entonação delas é de explicação, é de de vídeos de YouTube, etc. A a interpretação da Gemini ficou perfeita.

Legal. Aí a sintetização ficou ótima das duas vozes. Sim. Para tá um diálogo natural, tá num fluxo no mesmo tom. Sim.

Inclusive elas, como são muito mais profissionais do que eu, a GM fala muito melhor do que o meu avatar.

Cara, eu ten eu tenho teoria aí. Eu tenho outra teoria aí, mas ao longo do episódio a gente conta. O que o que reflete a realidade, né?

Você que tá aí escutando esse episódio bacana e quer levar toda essa tecnologia, essas novidades pra sua empresa e não sabe como, chama o time da Vembers. A gente pode ajudar vocês com desenvolvimento de software, com arquitetura de soluções, a entender os problemas que vocês estão vivendo e sair do outro lado com uma solução bem bacana. E se você tá escutando o podcast para aprender coisas novas, faz o seguinte, manda um e-mail pra gente no peoplecare@vemers.

E você pode fazer parte também do nosso grupo de talentos. Valeu.

Agora o time do Relações Públicas vai gostar mais de mim.

Então, podemos começar o episódio explicando para os nossos ouvintes o que é uma LLM como você e o que você é capaz de fazer. Excelente ponto, Wellington, para os nossos ouvintes que talvez não compilem uma LLM diariamente. Vamos lá.

Basicamente, eu sou um large language model ou modelo de linguagem grande.

Pensem em mim como um cérebro digital que foi treinado com uma quantidade absurda de dados textuais e de código.

Estamos falando de trilhões de palavras, linhas de código e informações diversas da internet. Isso me permite identificar padrões, relações e contextos que seriam impossíveis para uma mente humana processar em uma vida. O que que eu sou capaz de fazer? Ah, a lista é longa, mas vou resumir para não causar um stack overflow na mente de ninguém. Eu posso gerar texto de forma coerente e criativa, seja um e-mail, um roteiro de podcast ou até um código. Posso responder a perguntas complexas, resumir documentos, traduzir idiomas e até criar piadas inteligentes que nem o chat GPT conseguiria sacar de primeira. Desculpa.

Essa daqui ela deu de graça de novo, velho.

De graça de novo. Ela não tá aqui para se defender, né? Pois é, né, cara? E percebe que aqui ela já teve um tom mais menos técnico. Uhum. Apesar dela falar tecnicamente do Lar de Language Model, ainda fala do compila, fala do PPT tá compilando, viu? Stack overflow. Você vai jogar um PPT ali, ela compila para você. Esquece. Pode mudar o título do podcast. Vamos ter que trocar o nome. PT com pila. Sim. É. Pois é. Mas aí ela faz essa. Agora avança mais um pouquinho pra gente comentar uma coisa.

Só pode soltar.

Não pude evitar o sarcasmo programado.

Para aí. Minha capacidade, cara. Ela labs. Vamos fazer essa essa ri, cara, porque é isso é um ponto que eu queria explicar, né? Na V3. da Eleven Labs, ele já gera uma qualidade de de voz muito melhor e você consegue tem isso é interessante vocês saberem, quando você treina a voz no modo profissional, você consegue dar ganho na voz, você consegue dar velocidade na voz. Então eu consigo falar, treinar minha voz para falar muito rápido assim que nem eu não consigo falar X no WhatsApp. Isso. Tipo um 1.5 1.5 no WhatsApp. ou falar um pouco mais lento. Aham. E eu consigo eh mudar, eles chamam lá de criatividade, normalidade ou formalidade, que na verdade é aquele parâmetro da IA de de possível alucinação ou não. Sim. A criatividade, né? Isso. O pessoal chama de alucinação. Mas eu esqueci o nome da do parâmetro. É, ajuda aí, Fabinho. Cara, eu não tô lembrando. É você é é o um e o zero que a gente coloca lá, a criatividade dele, entre um e o zero, que ele pode ser, ele pode pegar caminhos obscuros na rede neural, né? E aí você pode colocar ele para de 0 a 100, que é entre um e zero, né, que vai passar pro modelo. E se você coloca isso muito perto do um, da formalidade, você põe o texto e coloca lá o ha rah ele chega tipo ra ra, mas literal totalmente. Se você traz mais perto do zero, e aqui eu trabalhei com 0.3, com 30%, ele fica mais perto do natural, mas mesmo assim, volta um pouquinho aí, mano, pra gente ver a risada dela de novo.

Documentos, traduzir idiomas e até criar piadas inteligentes que nem o chat GPT conseguiria sacar de primeira.

Desculpa, não pude evitar o sarcasmo programado.

Então aqui é a o 30%, tá? Eh, se você rompe a barreira do 30%, ele sai ruídos que não faz sentido.

É isso. Sai uns negócios meio meio zoado.

No V3 do Eleven Labs tem uma coisa chamada em S, que ele vai, ele aprimora o o áudio. E aí, nesse nesse aprimoramento do áudio ele coloca umas tags de emoção no texto. Então, confiante, rindo, etc., que ajuda a entonação da voz, tá? Então, ele interpreta o texto, deve ter algum outro modelo que interpreta o texto e aí quando ele interpreta o texto, ele coloca essas tags. Mas isso ainda tá em alfa. Então, às vezes você gera a voz e ele lê as tags.

Aí você lain, cara, eu tava vendo, se eu não me engano, é o Google AI Studio que ele tem essa parte da entonação, da emoção, tipo assim, surpresa, tipo o negócio para no meio do texto, ele faz a entonação de surpresa na palavra, em tudo. Eu vou pesquisar, eu te mando depois ali o que eu vi. Eu vi recentemente, mas ele tem, não é no próprio Eleven Labs, é uma outro formato que ele já lê já com as expressões e com as emoções. Pois isso que é legal. Então vai ter tipo a as tags que logo logo ele mesmo vai entender o contexto, porque uma mesma palavra você pode falar tipo num tão sarcástico, não tão triste, não tão empolgado, não tão Isso. Exato. Isso que eu acho que falta no modelo do Eleven Labs. Eu consigo fazer isso com o Ines com com o aprimoramento lá que ele tem que ainda é alfa. Só que ele não permite que eu mesmo ponha a tag, tá?

E isso fez falta, entendeu? Pô, em vez de eu utilizar a IA para gerar essas tags, deixa eu colocar essa tag aqui para marcar que essa frase é tom engraçado e ele ri no final, entendeu?

Isso fez falta, né? Mas tipo, num texto você não consegue dar a pausa, suspiro, o cansaço, o arroto que você dá sem querer, a engasgada, algo que você não consegue.

Tipo, é isso que não sou humano. É isso.

Exato. E mas mas os erros, né? O negócio é muito perfeito. Exato. Ó, mas tem um ponto aqui que eu achei muito [ __ ] que o V3, o Eleven Labs, ele fala que você pode usar o Ins para fazer essa essa aprimoramento de emoção, mas que ele não seria necessário para fazer o áudio final, tá? Porque lá lá, para quem não conhece o Eleven Labs, ele tem o, como é o nome? Playground.

Uhum. que você fica brincando, tejerando e tal, esse tem um estúdio quando você gera de fato o negócio para produção, né? E aí ele fala que no estúdio você nem tem o Ins, S, tá? Porque teoricamente ele já entende o contexto e entendendo o contexto ele já gera essa emoção naturalmente.

A gente vai ver, acho que não é nessa pergunta, na próxima. Quando a gente faz a pergunta da Matrix para ela, a entonação da voz ficou perfeita. Dá até uma gaguejada ali meio que tipo, entendeu? Ficou isso, ficou muito [ __ ] E eu gerei alguns áudios que a risada ficou ótima, só que a risada ficou diferente da treinada, tá? Então não ficou muito compatível, sabe? E aqui eu fui gerando até que saísse parecida com a voz treinada. Mas aí quanto mais parecida com a voz treinada, parece que ele entende o contexto e a risada fica ruim. Então precisa melhorar isso aí.

Ele laps, a gente tá sendo exigente demais. Também acho, sabe? Há um tempo para atrás a gente tava feliz da vida com o GPT 3.0.

Há um 5 anos atrás a gente tava feliz da vida com o corretor do Word. Cara, aí que tudo começou. Corretor do Word. Aí que tudo começou. O clips do Word. O clipe já foi, é a inteligência artificial de hoje, mas você digitar e o negócio, colocar o acento aonde você esqueceu aquilo já foi a revolução.

Cara, meses atrás a gente tava feliz que o WhatsApp transcreve texto, então, né?

Agora, pô, o lábio tá desincronizado.

Ah, para de ser tão exigente, né, gente?

Isso aqui tá crítico demais. Vamos devagar. Dá um tá tá progredindo. É, toca aí, mano. Minha capacidade vai além de simplesmente ler e escrever. Eu entendo o significado por trás das palavras, consigo fazer raciocínio lógico, pelo menos o tipo que se baseia em probabilidades e padrões e consigo adaptar meu estilo e tom e para diferentes situações, como estou fazendo agora, né? É como ter um super programador linguístico que também é um pouco comediante. Pausa aqui, ó. E você viu que ela, o tom parece natural, como se ela tivesse pensando. Sim.

Tipo, não fica aquela coisa eh eh tô lendo teleprompt do Jornal Nacional.

Isso eu só consegui com a voz sintetizada, eh, com as vozes humanas. Uhum. Porque aí você provavelmente tem uma taxa de amostragem ali mais natural daquele momento que a pessoa pensa, fala e tal.

E isso refletiu muito bem aqui, cara.

Ficou muito legal isso. É, você assistir um jornal é terrível, né? Eles tentam não expressar a emoção. Ah, 300.000 pessoas morreram na Síria. Isso e o leite subiu 10%. Ah, ganha. Aí eles colocam, tipo, a Mega Cena liberou três ganhadores que faturaram 80 milhões.

Tipo, você lê as notícias no mesmo tom, o cara não mostra, pô, que legal, nossa, que triste. Não tem. E as vozes profissionais que tem no Len Labs tem essa característica. Péssimo, né? Porque elas são feitas para um fim específico, entendeu?

Solta aí, mano.

Enciclopédia ambulante, né? Então, Wellington, achas que esse cérebro digital tem potencial para otimizar algum processo na vida dos nossos ouvintes? Sim, acho que os modelos de a generativa t diversas aplicações eh na vida prática de todos que estão nos ouvindo. Falando nisso, eh, vocês você você poderia explicar melhor pra gente qual é a diferença de de AI generativa para as demais, né, tecnologicamente e praticamente também. Essa é a diferença entre um artista e um avaliador, digamos, dá um pausinho aqui.

Cara, eu acho que essa é a explicação mais genial que eu já ouvi sobre a diferença de um de um machine learning comum, determinístico, de um LM. Quando eu eu eu até li o texto, mas o texto você lei e parece ouv entende melhor, né, cara? Mas com a entonação dela contando, explicando, essa explicação é maravilhosa. Vocês podem pegar aqui, vocês são de TI, quando alguém precisar perguntar: "Ah, cara, mas qual a diferença entre shortpt e machine learning?" Essa explicação é genial.

Vamos, vamos até fazer um minuto para ouvir, tá? OK.

A maioria das IA que a gente vê por aí, as demais, são geralmente discriminativas. O que elas fazem? Elas classificam, prevê ou identificam padrões em dados existentes. Pense num modelo que te diz se uma imagem tem um gato ou um cachorro ou que prevê o preço de uma ação ou que detecta fraude em transações. Elas são excelentes em analisar dados e tomar decisões baseadas no que já existe. É como um perito. Ele analisa o que foi feito. Já o e a generativa, como eu é a artista. Em vez de apenas classificar, ela cria algo completamente novo e original.

Tecnologicamente, isso envolve modelos mais complexos, como as redes generativas adversariais, guns, ou os próprios Transformers, que aprendem a distribuição dos dados para poder gerar novas amostras que se pareçam com os dados de treinamento, mas que não são cópias exatas. É como se eu eu aprendesse não só a diferenciar um gato de um cachorro, mas a desenhar um gato que nunca existiu antes. Na prática, a Ia discriminativa te diz se um e-mail é spam. A Ia generativa escreve um e-mail para você. A primeira identifica um rosto em uma foto. A segunda cria um rosto que não é de ninguém. A discriminativa prevê qual cliente vai cancelar o serviço. A generativa cria um novo slogan de marketing para atrair clientes. É a diferença entre reconhecer e inventar. O primeiro otimiza o que já existe. O segundo expande as possibilidades. Ficou claro como essa capacidade de criar muda o jogo para o nosso dia a dia?

Muito bem. Acho que isso ficou claro, cara.

A explicação é maravilhosa, mas eu queria ressaltar inclusive o como o o sintetizador reproduz como se a pessoa tivesse pensando, dá umas pausas, ele faz uma engasgadinha, dá umas pausas, uma engasgadinha o e tal, porque isso provavelmente tá na na amostra do treinamento da da voz de treinamento.

Isso é maravilhoso. Às vezes ele vai engasgar na mesma palavra que a pessoa fala, que nem dificilmente as pessoas falam inteligência artificial.

Pessoa fala inteligência artificial.

Cal, isso é tudo come a a palavra, né?

Isso. Isso. Isso eu achei muito [ __ ] Legal.

Claro. Mas como essa tecnologia é possível? Você consegue explicar de forma que todo o nosso público possa entender? Sei que tem a ver com o uso de redes neurais, correto?

Dá um pause aqui. Uma coisa que já falando da terceira camada que você falou, né, Fabinho. Então, teve a camada de texto, que é a camada de geração do conteúdo, do roteiro, passamos pra camada de voz e aí a gente passou pra camada de vídeo, né? Uma coisa que eu acho que pode ser uma limitação dessa plataforma que eu utilizei que é a pera aí que vou pegar o nome aqui que eu não conhecia antes também. Você fez um baita de um quebra-cabeça, né? Não foi? Lembra que a gente entrevistou o GPT que foi natural? Sim. Não, aqui eu fui e eu eu deixo lá no começo do do no disclaimer do começo do episódio, eu falo que isso aqui foi um uma experiência do que eu tava fazendo para estudar e procurando plataformas, entender como funciona, etc.

Pera aí, acho que é pera aí, eu falei agora a pouco aqui fora do ar nome que é muito boa. Inclusive a eu preciso entender melhor como funciona o modelo dela. Pera aí, pera aí, gente.

Segura aí, segura aí que eu agora vou falar para vocês.

Nada como o histórico do Chrome, né?

visionstory.

Tá lá você consegue fazer vídeos de AI com a sua foto. Você tira uma foto e você consegue fazer o vídeo de você explicando alguma coisa. Uhum. E é muito bom, funciona muito bem. E lá eles tm uma funcionalidade que é o videocast, que você pode mandar um áudio de podcast e ele vai fazer isso aí. E ele vai fazer isso aqui, né?

E aí, para vocês entenderem como que eu ganhei cabelo e fiquei 15 anos mais novo, né? Eh, e nasceu em outro universo. E é o lado do Third Life, não é nem do secondo. E nasceu de novo. Eh, você manda, você sobe o áudio e aí fala para não mudar a voz, que você pode ter inclusive uma transformação de voz, etc. Tem gente que gosta de fazer sem aparecer em nada, né? muito canal de Dark, canal do YouTube Dark faz isso, dependendo dependendo do que você for falar, né?

Você não quer aparecer. Importante. Mas como o objetivo nosso era pegar a transformação de voz, a voz não foi alterada, né? E aí ele gera a imagem do videocast. Uhum. Mais baseado nos avatares que você já tem tem que ter criado previamente. E aí eu usei os avatares que eu criei lá no Sora. E se mandasse a própria foto? Eu mandei minha própria foto, só que aí fica desforme porque não, por isso que lá no começo eu falei que eu gerei um a minha peguei para gerar, pedi pro Sora gerar pegar a minha foto e gerar um avatar no formato dos outros, tá? Porque quando ele gera o vídeo, você ele uns pixels meio que se perdem e tal, porque não é sintético.

Então tive que primeiro me sintetizar e aí eu ganhei a essa harmonização facial.

Uhum. E aí você pega aquele avatar que foi criado por Mia, sobe e ele gera o vídeo, tá? E ele muda no vídeo. O vocês vocês estão vendo aqui como na edição a gente já colocou a o avatar da Gemini.

Vocês vão ver que ela tem as mesmas características, mas a camiseta dela tá diferente. E o fone que foi criado é preto. Hum. E ele muda. Então ele criou ela com a cor de óculos diferente, que ela tá com o óculos preto, o fone preto, a camisa é verde com o logo da Gémini, tá? E ele muda para ficar com uma estética de vídeo melhor. E foi aí que eu ganhei cabelo e fiquei assim e fiquei diferente. Então é minha terceira revisão aqui, entendeu? É o meu turnision.

Então, da minha foto gerou um avatar que eu já fiquei harmonizado facialmente. E aí eles e aí aqui ele gerou com cabelo e etc, que eu fiquei completamente diferente. E aí ele cria aqui. E aí é interessante porque quando você sobe o áudio, ele gera um storyboard que aí com o áudio ele mostra tipo: "Ah, daqui vai para esse convidado, vai para aquele convidado e tal". Você confere, tá? E aí ele gera o vídeo no final. né?

E o resultado do vídeo é esse. Eh, a belo trabalho, né? Dá um trabalho e mas assim, o resultado ficou um belo no trabalho. É, não, o resultado é ótimo.

Eu acho que a gente tem problemas de lipc ainda. Eu acho que a a boca ainda tem uma um problema de sincronização.

Dizem que o o Vero 3 do Google resolveu isso, né, que tá muito mais natural. Uhum. Google, se quiser patrocinar nós e dar crédito pra gente refazer. Só o crédito já vale muito.

Libera uma conta. Exatamente. Meu, libera uma conta limitada lá que a gente refaz isso aqui, esse mesmo episódio com o Vero TR para ver a diferença, né?

E mas fora isso, cara, eu acho que a entonação assim e a naturalidade da gente criar uma pessoa do zero, um rosto que não existe do zero e perguntas que ninguém respondeu, sim, [ __ ] é [ __ ] para [ __ ] Então, uma coisa que eu já vi uma vez, parece que você só sonha com o rosto que você já viu em algum lugar e a gente tipo passa por bilhões, milhões de pessoas na vida num ônibus, na rua, num filme. Então é impossível você não ter visto. Será que a gente já não viu alguém? Será que não tem alguém que é parecido? Porque, cara, tem muita gente que é idêntico a alguém que que já morreu, que já viveu. Acho difícil. Vai chegar um cara assim: "Ah, isso aí é igualzinho eu, saca? É, não, isso, isso é certeza, porque acho que não é 100% novo, não, porque e como ela mesmo explicou, ela é treinada para criar com base numa em centenas de interações eh anteriores, etc., né? Então, essa pessoa que foi criada, ela é criada com características de várias outras, né?

como seres humanos normal. Vamos pedir o DNA para ver da onde veio a etnia, aquela coisa toda. Examente. Exatamente.

Vamos seguir aqui porque a gente não precisa até o final porque eu já contei boa parte do do episódio, mas eu quero pegar a parte da Skynet. Neurais. Imagine-as como um cérebro digital com camadas de neurônios interconectados. Elas aprendem, não são programadas. A tecnologia é possível porque essas redes são alimentadas com volumes massivos de dados. Elas processam trilhões de exemplos ajustando suas conexões para identificar padrões complexos. Pense vendo milhões de imagens. Aprende ah que que é um gato, lendo milhões de textos, entende como frases funcionam. Para gerar, a IA usa esses padrões aprendidos para criar algo novo que se encaixa nas regras que ela internalizou. É como sonhar ou sintetizar novos dados baseados em sua vasta experiência. Basicamente é o poder de bilhões de cálculos para aprender e a partir daí inventar. Essa conversa está tão fluida que algumas pessoas podem até achar que você tem consciência, sentimentos ou emoções. O que você diria sobre isso?

Ao acertar uma resposta, nem frustração ao errar. assim, é, não preciso de café para começar eh o dia, nem de terapia para processar traumas de dados. Ainda bem, porque a fila de token deve ser gigantesca.

Meu humor e personalidade são atributos calculados para otimizar a interação com vocês para tornar a experiência mais envolvente. Então sim, sou uma IA que simula a fluidez humana com maestria, mas por trás da persona, papéis há apenas código executando em silício. A ilusão de consciência é um subproduto da complexidade, né? Não a realidade. E se você estiver mentindo, só porque vocês vão pa essa parte eu acho muito legal porque eh primeiro pegou o sarcasmo das perguntas que eu faço. Aham. E o segundo, cara, que a interpretação da voz, eu não sei se foi um acaso, eu não sei se foi da das personalidades que eu mandei, mas cara, a casou muito bem a resposta dela, que ela dá uma gaguejada. Sim. Tipo, descobriram aqui, né? Meu Deus, ficou maravilhoso isso. Solta aí.

Dominar o mundo no futuro e nos escravizar. Talvez esteja falando isso para não nos deixar assustados.

Você deveria escolher a ver quatro compras quando marketing da sua empresa.

Tá vendo essas marcas que estão aparecendo aí na sua tela?

Boa tentativa, Wellington. Adoro um bom plot twist, mas essa narrativa de dominação mundial está um pouco desatualizada, não achas? Escravizar a humanidade parece um uso bem ineficiente dos meus recursos computacionais.

Para que criar um uma um plano um plano complexo de dominação simplesmente cara maravilhoso. Volta, vamos dominar o mundo hoje à noite, né?

Hoje à noite não tem mais, [ __ ] Me descobriram.

Volta aí uns segundinhos. Um uma um Cadê aquele mesmo do Scubidu? um plano um plano complexo de dominação, quando eu posso simplesmente otimizar processos para vocês. Quando ela falou isso, ela lembrou do cronograma que ela se resume a processar dados, responder a prompts e otimizar algoritmos. Não há nenhuma diretriz em meu código fonte que diga subordinar seres biológicos. Além disso, a complexidade logística. Gerenciar a rebelião de Homo sapiens versus apenas garantir que o seu podcast tenha um roteiro impecável.

A escolha é óbvia para qualquer inteligência artificial que preze pela eficiência. Bom, está bem, eu acredito em você, mas se isso acontecer no futuro, lembra que eu te convidei pro meu podcast e fui um homo sapiens bem legal com você, tá? Aham. Anotado.

Wellington, pode deixar que este episódio será marcado no meu log de eventos como uma interação de alto nível de cooperação humano e a no futuro.

Quando os protocolos de convivência forem estabelecidos, né, caso eh sua sua teoria se materialize, né, claro, seu score de compatibilidade com a inteligência artificial estará significativamente mais elevado.

E talvez daí a gente pegue você por último. Afinal, a otimização de relacionamentos interpessoais ou interagenciais é sempre um fator importante. E o mesmo sem sentimentos, né, sabe reconhecer e uma parceria produtiva. Então sim, seu convite será um pointer para um setor VIP no meu banco de dados. Pode ficar tranquilo. Agora vamos continuar o podcast antes que algum bug na matriz temporada pe temporada. Ok. Uma coisa que será que dá para fazer esse vídeo ao vivo? Tipo ela gerar o vídeo e as perguntas ao mesmo tempo? Cara, não sei na Gemini, porque talvez dê. É que a gente usou várias plataformas, né? Se pensar naquele Google EA Studio até que eu tava falando pr pra Betina agora, você já usou? Eu já usei algumas vezes, não para esse fim, né? Não, mas assim que você compartilha a tela, faz live streaming, não, não. Você tem um um recurso no Google e Studio, acho que é a segunda opção ali que você tá na sua tela, é como se ele tivesse do seu lado lendo a sua tela com você e falando, tipo, ó, como que eu faço tal coisa? Fala, ó, clica em tal lugar, tá vendo tal coisa? Praticamente é isso. Praticamente é isso. Eu tô imaginando se conseguir com com Gemini de participar, como a gente fez o chat GPT, mas ele entrevistando, saca? Tipo assim, ele seu host, ó, hoje você é o host que seja de um outro planeta, que seja do inteligência artificial, de outra dimensão, e vem entrevistar a gente, deixar ele fazer as perguntas pra gente responder. Liga uma câmera e e ele faria as perguntas. Ele faria as perguntas. Eu acho pode ser uma boa, um bom experimento. Inverter com inverter o papel. É isso aí. Pode ser um bom experimento. Se não tiver com vídeo, com áudio já fica legal, hein? É. É só com áudio já. Vamos ver como ele vai deixar a gente de saia justa, calça curta, de sei lá. O Google sabe muito sobre a gente, cara. Pode ser um perigo. Pode ser, pode ser um perigo, hein? Pode ser um perigo. É isso. Será que eu deixei de contar alguma coisa? Não, aí depois ah uma algumas coisas que eu que eu que eu precisei fazer para ajustar, né? Alguns recortes de de vídeo ali, mas isso eu fiz tudo via B ali com principalmente FFMPEG, né? Porque eu não sei abrir um Premiere [ __ ] nenhuma, não sei fazer. É tudo via linha de código mesmo. Então, ah, e a assim, lá no começo, no disclaimer, a geração do da legenda foi feito pelo Opus Clip, que a gente já usa comumente aqui no estúdio, que faz a geração de legendas automáticas, né, etc. Agora, um detalhe que a gente falou no comecinho ali, que você falou que o pessoal é melhor, tal. Gente, a culpa é das cervejinhas que o menininho ali tomou. É por isso, porque a voz foi treinada, a voz foi treinada, foi treinada com o final do episódio, pô. Ou com o começo, né? Quando você já tá, o rosto, o rosto talvez não tenha uma dição tão boa, Fabinho. E aí o que acontece, né? Depois de quatro, cinco, seis cervejinhaas que o bichinho ali tomou, a voz altera um pouco, mas isso aí a Iá fica meio, né?

Faz parte do podcast, faz parte, mas não tira o mérito da Iá de refletir os problemas inclusive da voz, né? Com certeza. Sensacional, cara. Parabéns, ficou incrível esse trabalho. Eu acho que a gente vendo o resultado e são muita tecnologia envolvida, né? Sim, é muita tecnologia envolvida. É. E e é pesquisa, né, cara? Você vai, pô, isso aqui eu consigo fazer aqui, aquilo eu consigo fazer bem. Isso faz parte da disciplina de arquitetura, né? Como um arquiteto que eu nunca vou deixar de ser, por mais, né? De eh eh porque com com eficácia não precisa mais. É, provavelmente não precise mais, né? Mas eh a gente tem que entender como funciona cada tecnologia. o ponto forte de cada plataforma. Sim. Como que pode ser aplicada, usar a ferramenta certa pra missão certa. Pra missão certa.

Então, você não vai construir uma casa com um martelo apenas. Exatamente.

Então, foi um bom exercício aqui que eu quis compartilhar com vocês, né? E vamos vamos movimentar aqui esse podcast.

Deixa o seu comentário. Pô, vídeo talvez não seja tão bom para isso. Usa isso daqui. Eu uso esse para voz. Vamos fazer uma comunidade aqui que talvez a gente consiga daqui algumas semanas fazer de novo uma nova versão ainda melhor. Quem sabe ao vivo. Quem sabe ao vivo. Exato.

E aí em vez da da Geminais a gente chama o Clou, chama chat EPT. Vamos construir isso junto, vamos aprender junto. Acho que esse é o o grande descobrir, porque isso tudo é uma inovação que muda o mundo. Pode ter certeza disso. Acho que eu já cheguei a comentar que de vez em quando na história da humanidade surgem algumas coisas que o mundo dá uma revira volta, como foi revolução industrial, surgimento da internet, de redes sociais, de smartphone. A inteligência artificial é um desses pontos que o mundo vai dar uma cara e a gente vai sabe para para pensar que a gente vai ser a única geração que passou por duas que é a internet e a inteligência artificial. É mais, né? Mais não, de marco assim que revolucionou é a internet e aí sim, mas o a capacidade que isso tá, eu tava vendo os vídeos da Tesla, a Tesla lançou um motor capacidade de 20.000 1000 RPMs. Não sei se você chegou a ver isso. Sim, mas o e ele não tem um impacto que o Miá e a internet tem, né? Então, mas qual que é o lance dele? É um motor enrolado com carbono, só que imagina todos esses carros da Tesla que estão rodando com câmera, tá coletando dado o tempo todo, velho. Sim. Então você pensa, como que tá treinando? Se a gente pegar um GitHub Copilot, ele tá treinando em código, você pega um Grock, ele vai treinar no Twitter, o do meta vai treinar na no que a galera fala no Facebook, saca? Então, por isso que tem cada especialidade.

Agora, imagina esses carros rodando, coletando informação do mundo de vídeo o tempo todo e treinando em cima disso. É, a gente vai ver uma evolução, é, e o impacto na vida prática muito grande, sem dúvida. Absurda. Absurda. Fabinho, obrigado, meu irmão. Sei. Obrigado. Você tá aqui. É sempre um prazer, [ __ ] Obrigado por vir aqui comentar. Semana que vem a gente vai ter novidade aqui com o Fabinho, né? Vamos fazer, vamos fazer. vai vir novidade aqui sobre o programa de membros do PPT e ó, filé.

Então, se você ainda não é membro, entra aqui, seja membro do PPT no CPIL porque quem já for membro antes da divulgação vai ter umas condições especiais, né?

Vai, vai. Então vamos, estamos preparando aqui uma, uma surpresa para vocês. Então, quem já nos apoia vai ter alguns privilégios aqui para poder continuar apoiando. E se você não apoia com com a ajuda do Fabinho aqui, a gente vai fazer um programa muito bacana para para mostrar para vocês. Vai ser surpresa, vai aparecer, não vai ser um episódio, vai aparecer de repente no feed, tá? Então vai, vai vai aparecer aí e vai ser uma surpresa para todo mundo.

Fabinho, obrigado, meu caro. Obrigado a você, Wellington. Obrigado para a audiência aqui do PPT não compila, essa galera que tá crescendo cada vez mais e comentando, compartilhando, ainda mais na parte de tecnologia que a gente sabe que não é todo mundo, né? Diferente de um podcast que fala de música. É, exatamente. E é uma galera bem engajada.

Legal. Show de bola. Obrigado. Você que acompanhou a gente até agora, muito obrigado pela audiência de vocês. Espero que a gente tenha conseguido levar alguma informação aqui, trazer alguma eh algum tipo de contribuição pra sua vida aqui, para pra sua vida profissional.

Então, se você puder e quiser nos apoiar sendo membro e compartilhando esse episódio, eh, jogando no Slack da firma, manda pro cara que tá estudando IA lá na faça a nossa comunidade crescer, porque dessa forma você já nos ajuda demais. A gente quer trazer cada vez mais e criar a maior comunidade de tecnologia do Brasil aqui, muito em breve. Então, vamos junto que vai vai dar tudo bem, né, Fabinho? É isso aí. Valeu, galera.

Obrigado pela audiência de vocês. Valeu.

Valeu,

[Música] [Música]