Claude 4 estabelece novo patamar em programação com IA

Em semana de anúncios em IA, Anthropic lança modelos que desbancam concorrentes. Mais: lançamentos do Google I/O 2025, ferramenta da Microsoft que permite conversar com sites e @fastify/vue 1.0.

mai 24, 2025

Tabela comparativa de desempenho de modelos de IA em benchmarks técnicos, mostrando Claude Opus 4, Claude Sonnet 4, Claude Sonnet 3.7, OpenAI o3, OpenAI GPT-4.1 e Gemini 2.5 Pro. Os benchmarks incluem programação agêntica (SWE-bench), programação em terminal, raciocínio de nível superior (GPQA Diamond), uso de ferramentas agênticas (TAU-bench), perguntas multilíngues (MMMLU), raciocínio visual (MMMU) e competição de matemática do ensino médio (AIME 2025). Os modelos Claude Opus 4 e Sonnet 4 aparecem destacados com borda laranja e mostram pontuações competitivas em todas as categorias avaliadas. — Desempenho do Claude Opus 4 e Sonnet 4 em comparação com concorrentes. Fonte: Anthropic

A Anthropic lançou na quinta-feira (22/05/2025) a quarta geração da família Claude, apresentando dois modelos que prometem redefinir como desenvolvedores interagem com inteligência artificial. Claude Opus 4 e Claude Sonnet 4 chegam com saltos em programação, raciocínio e capacidades para agentes autônomos. O anúncio ocorreu uma semana depois da OpenAI ter lançado o Codex, seu "cloud-based software engineering agent" (ver mais nas notas).

A empresa parou de investir em chatbots convencionais no fim de 2024 para melhorar a capacidade do LLM em tarefas complexas como pesquisa e programação, segundo Jared Kaplan, diretor científico da Anthropic. A estratégia parece estar dando certo: a receita anual da empresa atingiu US$ 2 bilhões no primeiro trimestre, mais que dobrando em relação ao período anterior.

O destaque fica por conta do Claude Opus 4, que a empresa classifica como "o melhor modelo de programação do mundo". Os números: 72,5% de precisão no SWE-bench, benchmark que avalia performance em tarefas reais de engenharia de software, superando modelos como GPT-4.1 (54,6%) e o3 da OpenAI (69,1%). O modelo consegue trabalhar autonomamente por até sete horas — quase uma jornada corporativa completa.

Claude Sonnet 4 também se destaca com 72,7% no SWE-bench, representando evolução do Sonnet 3.7. Empresas como GitHub já confirmaram que o modelo será integrado ao Copilot, enquanto outras relatam melhorias substanciais na navegação de código e redução de erros de navegação de 20% para próximo de zero.

A novidade técnica mais interessante é o "extended thinking with tool use", que permite aos modelos alternar entre raciocínio profundo e uso de ferramentas como busca na web. Ambos podem acessar arquivos locais para extrair e salvar informações importantes, construindo conhecimento tácito ao longo do tempo.

Para desenvolvedores, quatro novas capacidades da API merecem atenção. A ferramenta de execução de código permite que Claude rode Python em ambiente isolado, transformando-o de assistente em analista de dados completo. O MCP connector facilita conexões com sistemas externos sem código cliente personalizado. A Files API simplifica o gerenciamento de documentos entre sessões. Por fim, o prompt caching estendido reduz custos em até 90% e latência em 85% para prompts longos.

Claude Code, ferramenta de terminal que estava em preview, agora está disponível para todos os desenvolvedores. As extensões beta para VS Code e JetBrains mostram edições propostas diretamente nos arquivos, enquanto a integração com GitHub Actions permite tarefas em segundo plano.

O crescimento da Anthropic reflete a corrida em IA, com o mercado previsto para superar US$ 1 trilhão em receita na próxima década. O número de clientes pagando mais de US$ 100 mil anuais à empresa aumentou oito vezes em um ano, para se ter ideia.

Os preços permanecem inalterados (e caro, comparados com concorrentes): Opus 4 custa US$ 15 (input) e 75 (output) por milhão de tokens e Sonnet 4 mantém US$ 3 e 15. Os modelos estão disponíveis também na Amazon Bredrock e Google Vertex. A atualização representa um salto qualitativo especialmente para projetos que exigem análise profunda de código e trabalho autônomo prolongado, segundo a empresa e a repercussão na mídia especializada.

Google I/O 2025 aposta tudo na inteligência artificial

O Google I/O 2025 teve a IA como protagonista, com 95 menções no keynote. A empresa lançou o AI Mode no Search, que traz chatbot direto na busca, e o plano AI Ultra por US$ 249,99 mensais. Para designers e outros interessados, apresentou o Stitch, que gera interfaces de UI por prompts, e a função do Chrome para trocar senhas fracas automaticamente. O Flow cria vídeos com IA usando Veo 3 ("estado da arte" em geração de vídeo, segundo a empresa), enquanto o Imagen 4 melhora a qualidade tipográfica. Mais no site do evento.

Microsoft lança NLWeb para criar chatbots em sites

A Microsoft disponibilizou o NLWeb, projeto open source que permite adicionar interfaces conversacionais a websites com poucas linhas de código. A ferramenta transforma sites em aplicações que respondem consultas em linguagem natural, usando dados próprios e o modelo de IA escolhido pelo desenvolvedor. O sistema aproveita formatos como Schema.org e RSS para criar as respostas. Criado por R.V. Guha (inventor do RSS), o NLWeb suporta todos os principais modelos e bancos vetoriais, além de implementar o protocolo MCP da Anthropic. Mais no anúncio oficial.

OpenAI lança Codex, agente de IA para programação

Uma semana antes da Anthropic, a OpenAI apresentou o Codex, ferramenta que executa tarefas de programação de forma autônoma em contêineres isolados na nuvem. Baseado no modelo codex-1 (versão otimizada do o3), o agente escreve código, corrige bugs e cria pull requests em até 30 minutos por tarefa. Disponível para usuários ChatGPT Pro, Team e Enterprise, com acesso gratuito inicial. Desenvolvedores podem usar arquivos AGENTS.md para instruções personalizadas. A ferramenta mostra logs detalhados para verificação do trabalho executado. Mais no anúncio oficial.

@fastify/vue 1.0 chega como alternativa ao Nuxt

Framework que combina Fastify e Vue lança versão 1.0 com foco em experiência do desenvolvedor. Principais novidades são stores automatizados que fatiam estado global em módulos individuais, sistema de imports inteligentes com prefixo $app/ e tags de preload pré-geradas para cada rota. Versão adiciona suporte a rotas wildcard e elimina necessidade do arquivo client/index.js. Criadores enfatizam que não é metaframework, mas alternativa transparente ao Nuxt com componentes substituíveis. Mais no repo oficial (e um relato interessante neste blog).

Stripe faz 1.145 pull requests por dia

A Stripe enviou para produção uma média de 1.145 pull requests diários em 2024, incluindo fins de semana. Com cerca de 3.400 engenheiros, cada um faz uma mudança a cada três dias. A empresa processou US$ 1,4 trilhão em pagamentos e manteve 99.999986% de disponibilidade — ou seja, apenas 44 segundos de instabilidade no ano inteiro. O ritmo demonstra investimento pesado em automação, testes e cultura de deploy contínuo. Impressionante. Mais neste vídeo e neste post.

Obrigado por acompanhar a BeTalent Academy. Se gostou, compartilhe e deixe um comentário. Até a próxima semana, com mais uma edição!

Deixe um comentário

BeTalent Academy