ChatGPT e a degradação do seu desempenho em 4 meses
- Érica Briones Graciano
- 6 de dez. de 2023
- 2 min de leitura

A Stanford e UC Berkeley conduziram um estudo entre março e junho desse ano com as versões 3.5 e 4.0 do ChatGPT sobre 7 aspectos:
Resolver problemas matemáticos
Encontrar números primos e felizes (real oficial isso existe);
Responder perguntas sensíveis/perigosas;
Responder pesquisas de opinião;
Perguntas multi-hop de conhecimento intensivo (faremos outro artigo só sobre isso);
Gerar código de software executável;
Desempenho em testes médicos dos EUA;
Raciocínio Visual;
O resultado?
Flutuações drásticas no desempenho das 7 funções, e entre as versões!
Um exemplo: enquanto a 3.5 acertou em março somente 7,4% das vezes que 17077 é um número primo, em junho esse número havia aumentado para 86,8%. Por outro lado, a versão 4.0, respondendo a mesma pergunta decaiu de uma taxa de acerto de 97,6% em março para 2,4% em junho.

Fica pior, não só a versão 4.0 piorou seu desempenho, como também deixou de explicar o passo-a-passo de como chegou nas suas conclusões, seu raciocínio.

Outra observação digna de nota foi a degradação da capacidade do ChatGPT em seguir instruções dos usuários, algo que acredita-se pode estar associado a tentativas de impedir respostas aos prompts maliciosos.
Ainda ansiosos por deixar a IA seguir sem validação humana realizando suas atividades?
Por que isso acontece?
Quando estamos falando de LLM, ao mexermos numa parte do modelo para melhorar seu desempenho em alguma tarefa, sempre existe o risco de que isso inadvertidamente afete outro pedaço do modelo de forma inesperada, isso se chama “drift”.
A realidade atual é que a OpenAI transformou-se em "ClosedAI" em março, encerrando o acesso público aos seus modelos e deixando de ser open source. Como consequência, não possuímos mais informações sobre como as arquiteturas neurais e os dados de treinamento são modificados ao longo do tempo.
A falsa premissa do aprendizado linear
Como seres humanos estamos acostumados a pensar no aprendizado como um processo linear, você aprende o básico, e vai adicionando camadas de complexidade, e novos conhecimentos que se somam aos anteriores, compondo um todo maior e melhor.
Todavia, ao que tudo indica, a IA não funciona assim. Claro, não foi em todas as atividades que o desempenho do ChatGPT piorou ao longo do tempo, mas a realidade é que ainda precisamos acompanhar de perto antes de sair usando seus resultados indiscriminadamente.
Minhas Conclusões
Com certeza continuaremos usando cada vez mais as inteligências artificiais generalistas, mas por hora ainda acredito veemente em fazer uma checagem rigorosa das suas respostas. Em especial se o produto final do seu trabalho pode ter sérias consequências ou desdobramentos.
Além disso, vale deixar claro que tudo que foi descrito acima se aplica para modelos generalistas como o ChatGPT, o jogo muda quando passamos a falar de IA especialistas.
Referências:
1. ChatGPT can get worse over time, Stanford study finds | Fortune: https://fortune.com/2023/07/19/chatgpt-accuracy-stanford-study/
2. OpenAI is getting trolled for its name after refusing to be open about its A.I.: https://fortune.com/2023/03/17/sam-altman-rivals-rip-openai-name-not-open-artificial-intelligence-gpt-4/
3. Why ChatGPT Is Getting Dumber at Basic Math: https://www.wsj.com/articles/chatgpt-openai-math-artificial-intelligence-8aba83f0
4. How Is ChatGPT’s Behavior Changing over Time?: https://arxiv.org/pdf/2307.09009.pdf
5. Números felizes: https://pt.wikipedia.org/wiki/N%C3%BAmero_feliz
Comments