Uma das maiores frustracoes de quem usa assistentes de voz por inteligencia artificial e a sensacao de estar numa ligacao com muito delay: voce fala, espera, a IA responde, voce espera de novo para falar. A Thinking Machines Lab, startup fundada pela ex-CTO da OpenAI Mira Murati, quer acabar com esse ciclo apresentando um novo modelo capaz de ouvir e falar ao mesmo tempo, em tempo real.
A empresa revelou esta semana o TML-Interaction-Small, um sistema descrito como full-duplex, ou seja, com capacidade de processar entradas e gerar respostas simultaneamente, da mesma forma que funciona uma conversa telefonica natural entre dois humanos. O modelo foi apresentado em 11 de maio de 2026 e ja gerou grande interesse no setor.
Por que os modelos atuais falham nas conversas naturais
A abordagem predominante no mercado ate agora consiste em pegar um modelo de linguagem baseado em texto e envolver esse modelo em uma estrutura que cuida da deteccao de fala, interrupcoes e truques para reduzir a latencia percebida. Para a Thinking Machines Lab, esse caminho e um beco sem saida.
A empresa argumenta que sistemas como o GPT Real-Time da OpenAI e o Gemini Live do Google sao fundamentalmente limitados por essa arquitetura. O comportamento de ouvir, falar, pausar no momento certo e lidar com interrupcoes nao esta treinado dentro do modelo. Em vez disso, e incorporado por fora como uma camada adicional de processamento. O resultado e uma experiencia de conversa que nunca se parece completamente natural.
A solucao proposta pela Thinking Machines e o que a empresa chama de interaction model: uma unica rede neural na qual a capacidade de ouvir, falar, ver e pausar no momento adequado e treinada diretamente, sem camadas externas de processamento. O modelo foi construido para ser nativo nessa forma de interacao bidirecional e continua.
O modelo TML-Interaction-Small em detalhes
O TML-Interaction-Small e um modelo de mistura de especialistas (mixture-of-experts) com 276 bilhoes de parametros totais, dos quais 12 bilhoes ficam ativos em qualquer momento de inferencia. Esse design permite eficiencia computacional sem abrir mao da capacidade de processamento.
Em termos de desempenho, a empresa afirma que o modelo responde em exatos 0,4 segundos. Para efeito de comparacao, esse e aproximadamente o tempo que leva para um ser humano comecar a responder apos ouvir o final de uma frase em uma conversa presencial.
No benchmark FD-bench v1.5, que mede qualidade de interacao full-duplex, o TML-Interaction-Small obteve pontuacao de 77,8. O Gemini da Google ficou em 54,3 e o GPT-Realtime-2.0 da OpenAI registrou apenas 47,8. A diferenca coloca o modelo da Thinking Machines em uma categoria separada em termos de qualidade de conversa em tempo real.
Mais do que voz: multimodalidade nativa
O sistema nao se limita apenas ao audio. A Thinking Machines projetou o modelo para lidar com interacoes multimodais, incluindo video e outros tipos de entrada alem da voz. Isso significa que o modelo pode, por exemplo, processar o que esta sendo mostrado na tela de um computador enquanto simultaneamente escuta e responde a perguntas sobre o que esta sendo visto.
Essa capacidade e especialmente relevante para aplicacoes de assistencia remota, tutoria interativa e suporte tecnico, onde o contexto visual e tao importante quanto o verbal. A integracao de percepcao visual e auditiva em um unico fluxo de processamento e uma das apostas mais ambiciosas do modelo.
Quem e Mira Murati e por que isso importa
Mira Murati foi CTO da OpenAI por varios anos e uma das principais responsaveis pelo desenvolvimento de produtos como o ChatGPT e o DALL-E. Ela deixou a empresa em 2024 e fundou a Thinking Machines Lab em 2025, reunindo um time de ex-colaboradores de empresas de referencia do setor de inteligencia artificial.
A credibilidade tecnica de Murati e de sua equipe da peso significativo as afirmacoes da startup. O campo de IA conversacional esta cada vez mais competitivo, com OpenAI, Google, Meta e Amazon investindo pesado em assistentes de voz e agentes interativos. A aposta da Thinking Machines e que a arquitetura importa tanto quanto o treinamento, e que nenhuma quantidade de engenharia de software consegue compensar um design fundamentalmente limitado na sua concepcao.
Disponibilidade e proximos passos
Por enquanto, o TML-Interaction-Small esta em fase de preview limitado, com acesso restrito a parceiros selecionados. A empresa deve ampliar o acesso ao longo de 2026, com uma preview mais abrangente prevista para o segundo semestre do ano.
O grande teste ainda esta por vir: demonstrar que o sistema mantem sua responsividade durante interrupcoes reais e trocas multimodais em producao, com usuarios diversos e situacoes imprevisveis. A latencia de 0,4 segundos em ambiente controlado e impressionante. A pergunta real e se ela se sustenta quando milhoes de usuarios comecem a usar o sistema em escala.
A corrida por conversas mais naturais com maquinas esta apenas comecando. Com o TML-Interaction-Small, a Thinking Machines Lab lanca um desafio direto as gigantes do setor e sugere que a proxima geracao de interfaces conversacionais pode ser radicalmente diferente do que existe hoje.
Fonte: TechCrunch



