IA avançou tão rápido que empresas terão que recriar teste que medem desempenho dos chatbots

Com o progressão rápido das tecnologias de perceptibilidade sintético, líderes do setor, incluindo OpenAI, Microsoft, Meta e Anthropic, estão criando novos parâmetros de avaliação para escoltar as habilidades de modelos que operam cada vez mais próximos da IA autônoma, capaz de realizar tarefas complexas de maneira independente de humanos.

O duelo dessas empresas é desenvolver métricas que acompanhem essa evolução e possibilitem medir com precisão o desempenho e a capacidade desses sistemas.

A aceleração da indústria de IA tem levado os modelos mais recentes a atingirem até 90% de precisão nos testes padrões, ou benchmarks, destacando a urgência de novos métodos de avaliação. Esses benchmarks tradicionais, que contam com questões de múltipla escolha para testar o siso generalidade e o conhecimento universal, já não capturam a complicação crescente dos novos modelos.

No entanto, enquanto essas empresas desenvolvem métodos próprios para avaliação, cresce a preocupação sobre a transparência e a padronização de critérios.

Novos padrões e atualizações: porquê medir habilidades mais complexas

Para preencher essa vácuo, iniciativas porquê o SWE-bench Verified, benchmark atualizado em agosto, propõem avaliações mais práticas, envolvendo problemas de programação no mundo real.

A partir de códigos do GitHub, o teste solicita que os modelos de IA identifiquem e resolvam falhas em repositórios de código, exigindo habilidades de raciocínio.

No último teste, o padrão GPT-4o da OpenAI solucionou 41,4% dos problemas, enquanto o Claude 3.5 Sonnet da Anthropic alcançou 49%. Esse desempenho ilustra a complicação crescente desses testes, que precisam estimar o uso de ferramentas externas e simular cenários reais.

Nesse contexto, o simples formato de prompt e resposta se mostra insuficiente.

Ao mesmo tempo, a premência de problemas inéditos e mantidos fora do domínio público se intensifica para evitar que os modelos “trapaceiem” ao encontrar respostas pré-existentes em seus dados de treinamento.

Outro exemplo é o FrontierMath, benchmark desenvolvido por matemáticos que demonstra porquê os modelos mais avançados conseguem resolver menos de 2% das questões.

Para especialistas, sem consenso sobre porquê medir essas capacidades, o setor enfrenta dificuldades em confrontar tecnologias e remeter o valor dos modelos aos consumidores e empresas.

Mostrar mais

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo
Fechar

Adblock detectado

Por favor, considere apoiar-nos, desativando o seu bloqueador de anúncios