🧑‍🔬 OpenAI o1 tem desempenho de doutorandos em tasks científicas

LLM foi projetado para gastar mais tempo raciocinando antes de responder. Mais: ranking de rankings de linguagens, Express 5.0.0, novidades no Chrome Dev Tools e bastidores do Ctrl-C Ctrl-V na web.

set 14, 2024

A OpenAI, dona do ChatGPT, lançou na quinta-feira (12) o OpenAI o1-preview, uma prévia do o1, seu modelo de IA com desempenho similar ao de "alunos de doutorado" em tarefas complexas de física, química e biologia, além de matemática e, é claro, programação.

O desempenho não é apenas marketing, mas embasado em pesquisa técnica em vários benchmarks, como na Olimpíada Internacional de Matemática.

O modelo vinha sendo apelidado de "Strawberry" e recebeu o nome "o1" em referência a Omni ("tudo", em latim). É mais um salto na IA, com pontuações superiores ao GPT-4o em vários casos.

Desempenho

O poder do modelo é demonstrado pelas marcas atingidas:

Enquanto o GPT-4o resolveu corretamente apenas 13% dos problemas em um exame de qualificação para a Olimpíada Internacional de Matemática, o o1 acertou 83%.
O modelo ficou no 89º percentil em questões do Codeforces, plataforma popular de programação competitiva, ficando acima de 93% dos concorrentes.
No AIME, exame feito para desafiar alunos de matemática mais brilhantes do ensino médio dos EUA, ficou entre os 500 melhores alunos e acima da nota de corte para a Olimpíada de Matemática dos EUA.
Superou o desempenho de especialistas humanos em perguntas do GPQA Daymond, teste que envolve química, física e biologia.
Tornou-se a primeira IA competitiva com especialistas humanos no MMMU, teste que envolve percepção, conhecimento e raciocínio.
Superou o GPT-4o em 54 das 57 categorias do MMLU, teste que envolve questões em matemática, filosofia, direito e medicina.
Em um teste cego de preferência humana entre o1-preview e GPT-4o, a grande maioria preferiu respostas do o1 para problemas de raciocínio complexo, como análise de dados, programação e matemática.

Curiosamente, o LLM não se mostrou preferido em tarefas de linguagem natural, até então a maior força das IAs, o que sugere, segundo a OpenAI, que não é adequado para todos os casos de uso.

Segurança

Conforme a OpenAI, a capacidade de raciocínio do modelo também o ajuda a aderir a diretrizes de segurança e alinhamento — um jeito de mostrar a reguladores, principalmente americanos e europeus que, apesar do poder, trata-se de IA segura, em um momento em que a preocupação com a área aumenta.

No teste de jailbreak (forçar o modelo a ignorar regras de segurança) mais difícil da OpenAI, o1 pontuou 84, enquanto o GPT-4 pontuou 22, em uma escala de 0 a 100.

O modelo foi avaliado também em geração de conteúdo proibido, alucinações e vieses (preconceitos). A OpenAI divulgou que reforçou trabalhos de segurança e formalizou acordos com Institutos de Segurança da IA dos EUA e Reino Unido para trabalhar na "pesquisa, avaliação e teste de modelos futuros antes e depois de seu lançamento".

Características

O OpenAI o1 é um modelo de linguagem (LLM) treinado com aprendizado por reforço (reinforcement learning), para realizar raciocínio usando chain-of-thought (cadeia de pensamentos). Também foram treinados para tentar estratégias diferentes na resolução de problemas e para reconhecer seus erros.

O treinamento foi feito em dados públicos, proprietários (das parcerias que a OpenAI vem fazendo com empresas de mídia e com plataformas como o Stack Overflow, por exemplo) e dados sintéticos gerados e personalizados pela empresa.

Para o público

Além da versão o1-preview, o modelo também veio na versão o1-mini, que já está disponível na versão paga do ChatGPT e na API da OpenAI. Por ora, modelos das séries Omni e GPT vão conviver, ou seja, um não substituirá o outro.

O anúncio oficial da OpenAI ajuda a ter uma introdução. Vídeos como este, sobre programação, ajudam a entender melhor as capacidades do modelo — há vários outros, de Economia a Física. Este post mais técnico permite entender a fundo os benchmarks. A base científica do modelo está neste paper.

Vale acompanhar porque não é só mais um "ChatGPT" para a massa, mas um LLM com um foco muito mais específico em áreas científicas, dominadas por especialistas, onde realmente há problemas complexos para serem abordados. Pode impactar setores como saúde, medicina, entre outros, além de, é claro, mexer em áreas já impactadas, como o desenvolvimento de software.

❓ Você sabe o que é "Big O"?

Não é um hack ou coisa do tipo, mas pode ser a diferença entre um programa eficiente e um ineficiente. Resposta no fim da edição.

Compartilhar BeTalent Academy

🏆 Não é só mais um ranking de linguagens

Nunca pomos imagens nas notas, mas essa merece. Trouxemos vários rankings de linguagens de programação aqui, mas o site ZDNet fez o trabalho necessário: agregou dados de 9 diferentes rankings e deu o veredicto sobre as linguagens mais populares. Deu Python em 1º (pela facilidade, por liderar libs de IA e dados), JavaScript em 2º (é a linguagem da web) e Java em 3º (popular em aplicações "enterprise"). Interessante TypeScript logo depois dos Cs (C++, C# e C), Shell na lista e Dart à frente de Swift (linguagem da Apple), na lanterna. Mais no artigo completo.

👴🏻 Express 5.0.0 chegou, para nostalgia de muitos devs

Depois de dez anos sem novidades, Express 5.0.0 — lendário web framework JavaScript — chegou, para nostalgia de devs que começaram sua jornada web com ele. No Reddit, um comentou: "Mano. Isso não era um meme? Lembro que eu ainda tinha um pouco de cor no meu cabelo quando anunciaram, tipo, 30 anos atrás." Entre as novidades, estão nova sintaxe de correspondência de rotas mais flexível, melhora de tratamento de promises rejeitadas, evitando travamentos, e retorno do app.router. A equipe procura mais devs para lançá-lo como LTS e para ajudar na doc, ainda em beta. Express continua como o terceiro web-framework mais usado, atrás do React e do Next.

🍭 "Google Doc" para programadores. Será?

Cursor é uma ferramenta de programação, que usa a estrutura do VSCode, mas permite dar uma entrada em linguagem natural para que o ambiente faça todo o trabalho — até 95%, segundo a propaganda — de criar a aplicação solicitada. O CEO da empresa chama a ideia, que já captou US$ 400 milhões de investimentos, de "Google Doc para programadores". A ferramenta usa Claude 3.5 Sonnet (Anthropic) e GPT-4o (OpenAI) nos bastidores. O plano gratuito oferece todas as funcionalidades Pro por duas semanas, depois tem limitações de prompts. O Pro custa US$ 20/mês, mesmo preço que o ChatGPT. Este artigo traz mais informações e um teste para ver as capacidades.

⚙️ Chrome Dev Tools traz novidades experimentais no painel "Performance"

Chrome DevTools ganhou atualizações experimentais no painel "Performance". Uma nova página inicial e barra lateral trazem dados de Core Web Vitals, com métricas de laboratório e de campo para LCP, CLS e INP, com detalhamento das fases do LCP. Também traz personalização de dados CrUX, controles de throttling e identificação de elementos interativos críticos — úteis para otimizar a UX de sites. Para acessar, é necessário habilitar experimentos no Chrome Canary. Por ser experimental, algumas features ainda estão em desenvolvimento e podem ser instáveis. Este artigo do BugBear traz uma review ampla.

🗒️ Bastidores do Ctrl-C e Ctrl-V na web

Dar Ctrl-C e Ctrl-V na web é tão fácil quanto acender a luz — uma abstração poderosa. Mas o que se passa nos bastidores desse gesto já tão "universal"? O excelente artigo de Alex Harri destrincha. Mostra como a área de transferência web se equilibra entre funcionalidade e segurança, desde seus primórdios. A API Assíncrona, por exemplo, limita tipos de dados, enquanto a API de Eventos oferece mais flexibilidade, mas só em ações do usuário. Google Docs e Figma driblam restrições com truques como base64 em HTML. E Chrome, Firefox e Safari se viram como podem para fornecer interoperabilidade. O artigo comenta ainda o Web Custom Formats como proposta para resolver tais problemas, além de trazer um pouco da história, que começa com o Internet Explorer lá nos anos 90.

✅ Resposta: Você sabe o que é "Big O"?

"Big O" é uma notação matemática para descrever o desempenho ou complexidade de um algoritmo. Expressa como o tempo de execução, por exemplo, cresce em relação ao tamanho da entrada. É algo essencial na análise de algoritmos e é frequentemente usada para otimizar o desempenho de software em escala. Dentro do assunto, você encontrará coisas como O(log n), O(n) e O(n²). O(log n) se refere à complexidade logarítmica, e é superior a complexidades lineares O(n) ou quadráticas O(n²) para entradas grandes. Busca binária em um array ordenado é um bom caso de O(log n), por exemplo. Agora, você pode se perguntar: "O que eu, como desenvolvedor web, tenho a ver com isso?". A comunidade do Quora e esse artigo do HackerNoon ajudam a responder. A Wikipédia permite ir mais a fundo.

Deixe um comentário

Obrigado por ler!

Voltaremos com mais fatos, tendências e dicas na próxima semana. Curta, compartilhe, comente e vote na enquete. Obrigado por ler e por estar com a BeTalent!

Carregando...

BeTalent Academy