Sete técnicas para tornar IAs generativas mais precisas
Pesquisadores citam RAG, embeddings, evals e outros truques como padrões emergentes. Mais: startups milionárias movidas a IA, queda em vagas tech e algoritmo quase ideal para organizar dados.
Em artigo que promete ser expandido nas próximas semanas, pesquisadores da Thoughtworks, como Martin Fowler (autor de vários livros na área de programação), apresentam sete padrões de engenharia identificados no desenvolvimento de sistemas com inteligência artificial generativa. O documento é pertinente, principalmente porque mais e mais empresas estão levando provas de conceito na área para ambientes de produção.
Os autores argumentam que muitas das dificuldades enfrentadas surgem porque profissionais tratam produtos de IA generativa como meras extensões de sistemas tradicionais. Na prática, dizem, essas ferramentas trazem novos desafios, como alucinações e comportamento não determinístico.
Um dos padrões comentados pelos pesquisadores é o Retrieval Augmented Generation (RAG), por exemplo, técnica que amplia a capacidade dos grandes modelos de linguagem (LLMs) de recuperar documentos durante uma conversa. A lista com os sete padrões percebidos na prática de empresas e desenvolvedores contém:
Direct Prompting: a forma mais simples de usar um LLM é conectá-lo diretamente aos usuários para receber e responder perguntas. Tem limitações importantes: o modelo fica restrito aos dados em que foi treinado, sem acesso a informações recentes ou específicas. Também há riscos de respostas enganosas ou vazamento de dados confidenciais.
RAG (Retrieval Augmented Generation): amplia a capacidade dos LLMs ao recuperar documentos relevantes durante uma conversa. Como um pesquisador júnior que recebe um dossiê antes de responder, o modelo usa informações além de seu treinamento original. A técnica exige criar índices de documentos usando embeddings.
Embeddings: são representações numéricas que capturam o significado semântico dos dados em vetores. Permitem comparar similaridade entre textos ou imagens de forma eficiente. Servem como base para indexar documentos e fazer buscas por semelhança, sendo necessários para o funcionamento do RAG.
Evals (avaliações): processo sistemático para avaliar respostas dos modelos, adaptando práticas de teste de software para sistemas não determinísticos. Pode ser feito por autoavaliação do LLM (o LLM autoavaliar suas respostas), avaliação por outro modelo ou análise humana. Os autores recomendam combinar avaliação automatizada e humana.
Hybrid Retriever: combina buscas por embeddings com técnicas tradicionais como TF/IDF e BM25. Aproveita o melhor dos dois mundos: a sofisticação das operações vetoriais e a eficiência da busca por palavras-chave. Ajuda a encontrar documentos relevantes que uma única técnica poderia perder.
Query Rewriting: usa um LLM para criar várias versões da mesma pergunta, já que diferentes formulações podem trazer respostas distintas. As várias consultas são processadas e seus resultados combinados. O número ideal de variações depende do conjunto de dados, mas costuma ficar entre três e cinco.
Reranker: classifica os documentos recuperados por relevância, enviando apenas os melhores ao LLM. É útil quando buscas sofisticadas são muito lentas: gera-se rapidamente um conjunto maior de documentos e depois refina-se a seleção. Pode considerar preferências dos usuários na classificação.
Como exemplo de aplicação desses padrões, os autores citam um sistema de consulta desenvolvido para uma multinacional de ciências da vida. Pesquisadores precisavam consultar 17 mil relatórios produzidos em duas décadas, cada um com milhares de páginas. Um chatbot permitiu reduzir de dias ou semanas para minutos o tempo de busca nesses documentos.
O projeto demonstrou que transformar prova de conceito em sistema viável exige superar vários desafios: recuperação ineficiente de documentos (resolvida com Hybrid Retriever), consultas minimalistas dos usuários (tratadas com Query Rewriting) e sobrecarga de contexto (feita com Reranker).
Os autores prometem expandir o artigo com mais detalhes sobre padrões de RAG e alternativas como fine-tuning. O trabalho mostra como a engenharia de software vem se adaptando aos desafios da IA generativa, uma ferramenta inegavelmente útil, mas que precisa ser entendida para ser usada com eficiência. Mais no artigo completo, que é longo, mas muito instrutivo e com boas ilustrações e casos de exemplo.
Startups movidas a IA se tornam lucrativas com times pequenos
Com apenas dezenas de funcionários e receitas milionárias, startups como Gamma, Anysphere e ElevenLabs mostram que é possível crescer sem precisar de um exército de pessoas. O segredo está no uso de ferramentas de IA em áreas como atendimento ao cliente, marketing e programação. A Gamma (apresentações de slides geradas por IA) tem apenas 28 funcionários e dezenas de milhões em receita anual, além de 50 milhões de usuários. Tal eficiência levou empresas a limitar o número de contratações: a Runway Financial e a Agency, por exemplo, planejam parar em 100 funcionários. Algumas startups até pararam de captar investimento com isso. Mais no New York Times (pago).
Vagas de desenvolvedor despencam e atingem mínima de 5 anos
O portal Indeed registrou queda de 35% nas vagas para desenvolvedores em relação a 2020, o maior recuo entre todas as áreas. O setor de tecnologia teve um ciclo mais intenso que outros: contratou muito em 2022 e agora reduz drasticamente. Entre as causas estão o fim dos juros zero, que afetou startups e empresas de tecnologia, além da incerteza sobre ganhos de produtividade com ferramentas de IA. A cautela é generalizada: até gigantes como Microsoft e Google frearam contratações. Mais no blog do The Pragmatic Engineer.
GPT-5 pode vir em maio com surpresas e promessas ousadas
A OpenAI deve apresentar o GPT-4.5 na próxima semana, mas já prepara o próximo grande salto: o GPT-5, que chegará em maio, segundo fontes ouvidas pelo The Verge. O CEO Sam Altman prometeu acesso gratuito ao modelo padrão e versões "mais inteligentes" para assinantes Plus e Pro. O modelo trará o sistema de raciocínio o3, para verificação de fatos, e pode ser lançado durante o Microsoft Build, evento anual da dona do Copilot. A OpenAI busca se reafirmar após a chinesa DeepSeek criar um modelo com resultados similares ao GPT-4, por uma fração do custo. Mais no Gizmodo.
State of React 2024 traz panorama atualizado do uso do React
O State of React 2024, que ouviu cerca de 8 mil desenvolvedores, traz um panorama das ferramentas e recursos da biblioteca. Entre os destaques, useState é o hook mais utilizado (98,9%) e mais bem avaliado, com apenas 1,26% de opiniões negativas. TanStack Query e Zustand lideram em satisfação, superando o Next.js. Em contraste, Create React App e Redux, apesar de populares, registram altos índices de rejeição (33,1% e 34,1%). O relatório destaca ainda o createPortal, que mesmo com uso de 46,4%, é o quinto recurso mais apreciado. Mais na pesquisa completa.
Cientistas encontram algoritmo quase perfeito para organizar dados
Um problema clássico da computação acaba de dar um passo importante rumo à sua solução ideal. Uma equipe desenvolveu um algoritmo para organizar dados sequencialmente que se aproxima do limite teórico de eficiência, superando uma barreira que persistia desde 1981. O método, que mistura aleatoriedade e análise do histórico de dados, tem aplicações práticas em bancos de dados e sistemas de arquivos. O artigo técnico foi apresentado na conferência Foundations of Computer Science e foi destacado como um dos melhores do ano. Mais na excelente Quanta Magazine.
Obrigado por acompanhar a BeTalent Academy. Se gostou, compartilhe e deixe um comentário. Até a próxima semana, com mais uma edição!