O que acontece quando a inteligencia artificial erra de forma confiante e errada? Essa pergunta, que ja custou credibilidade a empresas e saude a pacientes que confiaram em diagnosticos gerados por IA, esta no centro do negocio da Probably, uma startup americana que acaba de levantar US$ 9 milhoes em rodada de investimento seed liderada pelo fundo Andreessen Horowitz (a16z).
A missao declarada da empresa e ambiciosa: impedir que alucinacoes e erros factuais simples cheguem ate o usuario final de sistemas de IA, alcancando uma taxa de precisao de 99,99% – o mesmo nivel de confiabilidade esperado de sistemas deterministicos classicos como bancos de dados e calculadoras, mas historicamente inatingivel para modelos de linguagem de grande escala (LLMs).
O problema que a Probably quer resolver
Alucinacoes em IA nao sao uma anomalia – sao uma caracteristica estrutural dos modelos de linguagem. Um LLM nao “sabe” a resposta certa; ele gera a resposta mais estatisticamente provavel com base no padrao dos dados em que foi treinado. Isso funciona muito bem para tarefas criativas, resumos e conversacao generica. Mas falha de forma critica quando o que se precisa e de precisao factual absoluta.
O problema tem consequencias reais. Escritorios de advocacia relataram peticoes com citacoes de jurisprudencia inventada. Equipes medicas relataram recomendacoes de medicamentos com dosagens incorretas. Sistemas financeiros geraram relatorios com numeros plausíveis, mas incorretos. Em todos esses casos, a IA foi confiante ao errar – o que torna o erro ainda mais perigoso do que uma resposta claramente incerta ou incompleta.
Peter Elias, fundador da Probably, argumenta que os grandes laboratorios de IA tem pouco incentivo para resolver esse problema de forma definitiva. “Eles lucram mais com correcoes repetidas do que com solucoes permanentes”, afirmou Elias em entrevista ao TechCrunch. A startup posiciona-se como a alternativa para empresas que precisam de respostas corretas, nao apenas respostas plausíveis.
Como funciona o sistema da Probably
O produto central da Probably e uma ferramenta de ciencia de dados que gera respostas rapidas a partir de conjuntos de dados complexos, acompanhadas de citacoes verificaveis e trilhas de auditoria completas. Em vez de confiar que o modelo de linguagem acerte, a Probably introduz um “harness de validacao” sofisticado entre a geracao da resposta e sua entrega ao usuario.
O processo funciona assim: a resposta inicial gerada pelo modelo passa por verificacao automatica contra um validador deterministico – um sistema tradicional baseado em regras que sabe exatamente o que e correto dentro de um conjunto de dados especifico. Se a resposta gerada pelo LLM for inconsistente com os dados verificados, ela e rejeitada antes de chegar ao usuario. O modelo foi treinado especificamente contra esse validador, o que significa que, ao longo do tempo, aprende a gerar respostas mais compativeis com os dados reais.
Uma das consequencias mais interessantes dessa abordagem e a capacidade de usar modelos menores e mais eficientes. Conforme Elias explica: “quanto melhor a engenharia do harness, mais fraco pode ser o modelo”. Ao reduzir a ambiguidade das tarefas e validar as respostas contra dados verificados, a Probably consegue usar LLMs significativamente menores – que podem rodar em hardware local, sem depender de infraestrutura de nuvem cara e sem expor dados sensiveis a servidores externos.
Por que a a16z apostou nessa startup
O Andreessen Horowitz e um dos fundos de venture capital mais influentes do Vale do Silicio, com um historico de apostas em empresas que definiram categorias inteiras – de GitHub a Airbnb, de Coinbase a OpenAI. A decisao de liderar a rodada seed da Probably com US$ 9 milhoes sinaliza que o problema da confiabilidade em IA ja esta sendo tratado como uma oportunidade de mercado de primeira linha, nao apenas como um problema tecnico a ser resolvido pelos laboratorios de pesquisa.
Do ponto de vista do investimento, a tese e clara: se a IA vai ser usada para tomar decisoes importantes em setores como saude, direito, financas e infraestrutura critica, a confiabilidade nao e um diferencial – e um requisito. Empresas que nao conseguem garantir essa confiabilidade ficam fora dos contratos mais lucrativos. E as que conseguem tornam-se indispensaveis.
O mercado alvo da Probably e justamente esse: empresas que ja adotaram IA para tarefas criticas e que foram queimadas por alucinacoes, ou que querem adotar IA mas nao conseguem aceitar o nivel de risco atual. Segundo Elias, varios setores regulados – financas, saude, energia – estao especialmente interessados em solucoes que ofrecam rastreabilidade e precisao comprovavel.
O cenario competitivo
A Probably nao e a unica empresa tentando resolver o problema da confiabilidade em IA. Grandes laboratorios como OpenAI, Anthropic e Google DeepMind investem continuamente em tecnicas como Reinforcement Learning from Human Feedback (RLHF) e Constitutional AI para reduzir alucinacoes. Empresas como Cohere e Glean focam em RAG (Retrieval-Augmented Generation), que ancora as respostas da IA em documentos verificados antes de gerar texto.
O que diferencia a Probably e a combinacao de validacao deterministica com treinamento adversarial – e a disposicao de usar modelos menores, mais controlados, em vez de escalar modelos maiores e esperar que os problemas desaparecam. E uma aposta na engenharia de sistemas, nao apenas no escalonamento de parametros.
Esse posicionamento coloca a startup em rota de colisao com uma tendencia dominante no setor: a de que modelos maiores e mais poderosos naturalmente produzem respostas mais corretas. A Probably argumenta que isso e verdade para algumas tarefas, mas nao para precisao factual em dominios especificos – onde o conhecimento do dominio e a validacao rigorosa superam a escala pura.
O que vem a seguir
Com o capital levantado, a Probably planeja expandir sua equipe de engenharia e aprofundar as integrações com ferramentas de dados empresariais. A empresa ainda nao divulgou quando ou em quais setores ira concentrar seus proximos lanamentos, mas o foco declarado em auditoria e citacoes sugere que financas e direito estao entre as prioridades de curto prazo.
A questao mais ampla que a Probably coloca para o mercado e esta: chegamos ao limite do que podemos pedir aos grandes modelos de linguagem em termos de precisao? Se a resposta for sim – se os LLMs de proposito geral simplesmente nao conseguem atingir o nivel de confiabilidade que setores criticos exigem sem intervencao externa – entao o mercado de “guardrails” e validacao de IA pode se tornar tao grande quanto o mercado de IA generativa em si.
Por ora, a Probably e uma startup pequena com uma tese grande. A a16z apostou que essa tese esta certa. O mercado decidira se eles estao corretos.
Fonte original: Probably raises $9M to build a more reliable kind of AI – TechCrunch, 16 de junho de 2026.



