Gemini 2.5 Pro supera Claude 3.7 Sonnet em programação

LLM cria e resolve cubo mágico com three.js com único prompt. Mais: NotebookLM turbinado (experimente!), Playwright MCP e o que empresas estão usando para engenharia de AI.

abr 05, 2025

O Google acaba de lançar o Gemini 2.5 Pro, versão experimental de seu modelo mais inteligente, que rapidamente conquistou o topo dos rankings de desempenho em IA. Comparações recentes com o Claude 3.7 Sonnet, anteriormente líder para desenvolvimento de software, mostram uma virada no cenário das IAs para programação.

Uma análise publicada pela Composio testou os dois modelos em quatro desafios de complexidade crescente. O Gemini 2.5 Pro criou um simulador de voo totalmente funcional com apenas um prompt, enquanto o Claude 3.7 apresentou problemas básicos. No desafio de criar um cubo de Rubik 3D com função de resolução, a diferença foi ainda maior: o Gemini entregou uma solução completa de primeira, enquanto o Claude falhou tanto nas cores quanto no algoritmo solucionador.

Na visualização de uma bola quicando dentro de um tesserato 4D rotativo, ambos modelos tiveram sucesso, mas o Gemini entregou exatamente o solicitado, enquanto o Claude adicionou elementos não pedidos. Em um problema difícil do LeetCode sobre posicionamento de torres em um tabuleiro de xadrez, o Gemini apresentou a solução correta, enquanto o Claude produziu código que excedeu o limite de tempo, embora com implementação mais legível.

A superioridade do Gemini vai além da precisão. Ele oferece uma janela de contexto de 1 milhão de tokens (com planos para 2 milhões), contra 200 mil do Claude. Isso representa capacidade significativamente maior para analisar e gerar código complexo. Outro diferencial: o Gemini 2.5 Pro está disponível no Google AI Studio para testes e para assinantes do Gemini Advanced, embora o Google planeja introduzir preços nas próximas semanas.

As métricas oficiais do Google mostram o Gemini com 63,8% de precisão no benchmark SWE, contra 62,3% do Claude. A diferença aparentemente pequena se mostrou significativa nos testes práticos. O Gemini também se destaca em raciocínio matemático e questões científicas, superando concorrentes em benchmarks como GPQA, AIME 2025 e o desafiador "Humanity's Last Exam".

O lançamento surpreende por dois motivos. Primeiro, o Claude 3.7 Sonnet foi lançado apenas em fevereiro, o que demonstra a velocidade com que o Google conseguiu superá-lo. Segundo, é a primeira vez que um modelo do Google gera tanto entusiasmo na comunidade técnica, tradicionalmente mais inclinada a outras alternativas.

Para desenvolvedores interessados, o Gemini 2.5 Pro está disponível no Google AI Studio e no aplicativo Gemini para usuários do Gemini Advanced. A empresa também planeja disponibilizá-lo no Vertex AI em breve, sua plataforma para empresas.

Essa evolução acelerada beneficia principalmente os desenvolvedores, que ganham ferramentas cada vez mais sofisticadas para automatizar tarefas repetitivas e resolver problemas complexos com eficiência crescente, demonstrando como a competição entre empresas de IA está impulsionando avanços em ritmo impressionante. Mais no anúncio oficial, no Gemini (a quem quiser testar) e na análise da Composio.

Google expande NotebookLM com recursos de descoberta

O NotebookLM, ferramenta de IA do Google Labs que analisa documentos, acaba de ganhar duas novas funções: "Discover Sources" e "I'm Feeling Curious". O primeiro recurso permite que o app encontre e sugira as 10 melhores fontes da web sobre um tópico específico, enquanto o segundo oferece descobertas aleatórias para usuários sem um objetivo definido. As novas funcionalidades chegam gradualmente a todos os usuários nas próximas semanas e podem ser usadas com outros recursos como Briefing Docs, FAQs e Audio Overviews, este último em formato de podcast. Mais no anúncio oficial.

Bots de IA ameaçam estabilidade da Wikipedia e projetos open source

Bots e crawlers de IA estão sobrecarregando servidores da Wikipedia e outras plataformas de código aberto. A Wikimedia Foundation relatou aumento de 50% na largura de banda desde janeiro de 2024. Projetos como Fedora e GNOME tiveram que bloquear países inteiros e implementar sistemas de desafios computacionais. O problema expõe um desequilíbrio: empresas de IA usam conteúdo aberto para treinar modelos comerciais sem contribuir para a infraestrutura que torna esse conhecimento acessível. Mais aqui e aqui, no Arstechnica.

Soluções diversas e stack comum: como empresas estão abordando engenharia de AI

Artigo da The Pragmatic Engineer mostra como empresas implementam IA em produtos reais. Desenvolvedores de software estão se tornando "engenheiros de IA", construindo aplicações sobre grandes modelos de linguagem. A maioria usa AWS Bedrock para modelos da Anthropic, PostgreSQL com pgvector para armazenar embeddings, e frameworks como LangChain para integração. Os desafios incluem lidar com respostas não-determinísticas e adaptar-se a uma nova forma de pensar sobre problemas. O artigo completo (pago) apresenta casos de uso em empresas como incident.io, Sentry e Wordsmith.

Microsoft facilita navegação web para LLMs com Playwright MCP

A Microsoft lançou o Playwright MCP, ferramenta que permite modelos de linguagem controlarem navegadores web sem processamento visual. Usando a árvore de acessibilidade, cria representações estruturadas facilmente interpretadas por LLMs. Disponível nos modos Snapshot e Vision, suporta navegação, preenchimento de formulários e extração de dados. Configurável via VS Code ou linha de comando, oferece alternativa eficiente às abordagens baseadas em capturas de tela, ideal para desenvolvedores criando agentes de IA para interação web. Mais no repo oficial e em artigo no HuggingFace.

"O bug mais difícil que já debuguei"

Um ex-engenheiro do Google Docs compartilhou recentemente a história do bug "mais difícil" que já enfrentou. O problema ocorria aleatoriamente ao formatar grandes volumes de texto, com o Math.abs() do JavaScript retornando valores negativos em uma versão específica do Chrome. Após dois dias de investigação exaustiva com um colega, descobriram que uma refatoração no motor V8 havia transformado a função Math.abs() em função identidade para código otimizado. O caso ilustra como até mesmo funções matemáticas básicas podem falhar em atualizações de software complexas. Mais na newsletter Client/Server.

Obrigado por acompanhar a BeTalent Academy. Se gostou, compartilhe e deixe um comentário. Até a próxima semana, com mais uma edição!

Deixe um comentário

BeTalent Academy