Quem pode se dar ao luxo de trabalhar de graça?
- Érica Briones Graciano
- 10 de jan. de 2024
- 3 min de leitura
Atualizado: 30 de mai. de 2024
Essa foi a pergunta que o Bill Gates fez em sua carta aberta publicada em fevereiro de 1976, pedindo que os amadores que tinham computadores pessoais como passatempo, parassem de roubar os softwares da então jovem "Micro-soft".
Corta para 27 de dezembro de 2023, e eis que temos a OpenAI em conjunto com a Microsoft sendo processados pelo New York Times por uso indevido de material protegido por propriedade intelectual. Ah, a ironia.
The publisher accused ChatGPT creator Open AI and Microsoft, which have a partnership for the development of generative AI products, of “seeking to free-ride” on its own “massive investment” in original journalism.
Este processo, em conjunto com os demais abertos no ano passado, irão definir o futuro do racional econômico da construção e comercialização da inteligência artificial. Todavia essa briga de gigantes será especialmente importante de acompanhar, por suas características únicas:
Ocorre depois de 9 meses de tentativas mal-sucedidas de negociação da situação de forma amigável entre as partes, enquanto parcerias com outras empresas geradoras de conteúdo estão sendo forjadas;
Alega que o conteúdo da New York Times foi utilizado desproporcionalmente no treinamento dos produtos de IA generativa da OpenAI e Microsoft, e pede a destruição do GPT e qualquer outra LLM que incorpore seus conteúdos;
Traz evidências de que os conteúdos pagos da NYT são acessíveis e citados praticamente sem mudanças pelo ChatGPT e Bing, no que está sendo chamado de memorização;
Traz à tona os danos reputacionais aos quais o NYT está sujeito na ocorrência de alucinações que atribuem como referência artigos ou citações jamais escritos por eles;
A petição inicial na íntegra está disponível aqui, e é bem compreensível para leigos, e traz um caminhão de evidências, duas coisas em especial em todo esse imbróglio me chamam a atenção.
A gourmetização do bom e velho bug
“In AI parlance, this is called a ‘hallucination.’ In plain English, it’s misinformation.”
O hype da IA é tão grande que a gente conseguiu inventar um nome especial, para o quê até então em tecnologia chamava-se de erro mesmo.
O problema desse caminho é que ao chamar um erro de qualquer outra coisa, menos o que ele realmente é, nós impedimos as pessoas de compreender com clareza o que está acontecendo, e lidarem com a situação da forma apropriada. Você acha que nós teríamos mais cliques em "10% de todo conteúdo do ChatGPT são alucinações" ou "10% de todo conteúdo do ChatGPT são erros"?
Eu não sei esse percentual de verdade, e esse não é meu ponto, mas considerando o admirável mundo novo que se abre perante a nós, facilitar que as discussões necessárias aconteçam é vital.
O percentual do NYT no ChatGPT é realmente grande!
O ChatGPT-3 tem 175 bilhões de parâmetros e foi treinado com os seguintes datasets:
Na base WebText2 o NYT corresponde a 1.23% de todo o conteúdo, na Common Crawl o NYT vem em 4o lugar depois da base de patentes dos EUA, e da wikipedia com 100 milhões de tokens (unidades básicas de texto):
A resposta
Por enquanto a OpenAI decidiu ir pelo caminho de afirmar que o NYT enganou o ChatGPT para que ele copiasse seus artigos (sério). Ele também afirma que regurgitação, ou seja, responder com trechos completos memorizados de conteúdos é um erro raro que eles estão trabalhando para arrumar.
O que você acha dessa baguncinha?
Referências:
https://pressgazette.co.uk/media_law/new-york-times-open-ai-microsoft-lawsuit/
https://www.nytimes.com/2023/12/29/business/media/media-openai-chatgpt.html
https://www.theverge.com/2024/1/8/24030283/openai-nyt-lawsuit-fair-use-ai-copyright
https://www.cnbc.com/2024/01/08/openai-responds-to-new-york-times-lawsuit.html
https://nytco-assets.nytimes.com/2023/12/NYT_Complaint_Dec2023.pdf
https://www.cnbc.com/2024/01/05/microsoft-openai-sued-over-copyright-infringement-by-authors.html
Comments