top of page

ChatGPT e a degradação do seu desempenho em 4 meses


Acuracidade da resposta: 17077 é um número primo? Pense passo-a-passo
Acuracidade da resposta: 17077 é um número primo? Pense passo-a-passo

A Stanford e UC Berkeley conduziram um estudo entre março e junho desse ano com as versões 3.5 e 4.0 do ChatGPT sobre 7 aspectos:

  • Resolver problemas matemáticos

    • Encontrar números primos e felizes (real oficial isso existe);

  • Responder perguntas sensíveis/perigosas;

  • Responder pesquisas de opinião;

  • Perguntas multi-hop de conhecimento intensivo (faremos outro artigo só sobre isso);

  • Gerar código de software executável;

  • Desempenho em testes médicos dos EUA;

  • Raciocínio Visual;

O resultado?

Flutuações drásticas no desempenho das 7 funções, e entre as versões!


Um exemplo: enquanto a 3.5 acertou em março somente 7,4% das vezes que 17077 é um número primo, em junho esse número havia aumentado para 86,8%. Por outro lado, a versão 4.0, respondendo a mesma pergunta decaiu de uma taxa de acerto de 97,6% em março para 2,4% em junho.


Comparação desempenho ChatGPT 3.4 e 4.0 entre março e junho
Comparação desempenho ChatGPT 3.4 e 4.0 entre março e junho

Fica pior, não só a versão 4.0 piorou seu desempenho, como também deixou de explicar o passo-a-passo de como chegou nas suas conclusões, seu raciocínio.


Resultado do ChatGPT respondendo se 17077 era primo nas versões 3.5 e 4.0 entre março e junho
Resultado do ChatGPT respondendo se 17077 era primo nas versões 3.5 e 4.0 entre março e junho

Outra observação digna de nota foi a degradação da capacidade do ChatGPT em seguir instruções dos usuários, algo que acredita-se pode estar associado a tentativas de impedir respostas aos prompts maliciosos.


Ainda ansiosos por deixar a IA seguir sem validação humana realizando suas atividades?

Por que isso acontece?

Quando estamos falando de LLM, ao mexermos numa parte do modelo para melhorar seu desempenho em alguma tarefa, sempre existe o risco de que isso inadvertidamente afete outro pedaço do modelo de forma inesperada, isso se chama “drift”.


A realidade atual é que a OpenAI transformou-se em "ClosedAI" em março, encerrando o acesso público aos seus modelos e deixando de ser open source. Como consequência, não possuímos mais informações sobre como as arquiteturas neurais e os dados de treinamento são modificados ao longo do tempo.


A falsa premissa do aprendizado linear

Como seres humanos estamos acostumados a pensar no aprendizado como um processo linear, você aprende o básico, e vai adicionando camadas de complexidade, e novos conhecimentos que se somam aos anteriores, compondo um todo maior e melhor.


Todavia, ao que tudo indica, a IA não funciona assim. Claro, não foi em todas as atividades que o desempenho do ChatGPT piorou ao longo do tempo, mas a realidade é que ainda precisamos acompanhar de perto antes de sair usando seus resultados indiscriminadamente.


Minhas Conclusões

Com certeza continuaremos usando cada vez mais as inteligências artificiais generalistas, mas por hora ainda acredito veemente em fazer uma checagem rigorosa das suas respostas. Em especial se o produto final do seu trabalho pode ter sérias consequências ou desdobramentos.


Além disso, vale deixar claro que tudo que foi descrito acima se aplica para modelos generalistas como o ChatGPT, o jogo muda quando passamos a falar de IA especialistas.



Referências:

1. ChatGPT can get worse over time, Stanford study finds | Fortune: https://fortune.com/2023/07/19/chatgpt-accuracy-stanford-study/

2. OpenAI is getting trolled for its name after refusing to be open about its A.I.: https://fortune.com/2023/03/17/sam-altman-rivals-rip-openai-name-not-open-artificial-intelligence-gpt-4/

4. How Is ChatGPT’s Behavior Changing over Time?: https://arxiv.org/pdf/2307.09009.pdf


Comments


Inovação Ninja
  • alt.text.label.Instagram
  • alt.text.label.YouTube
  • Medium
  • alt.text.label.LinkedIn

©2023 by Inovação.ninja. Proudly created with Wix.com

bottom of page