Sábado, Maio 18, 2024
15.3 C
Lisboa
More

    OpenAI “esgota” internet para explorar superinteligência GPT-4

    No mundo digital em que vivemos, a inteligência artificial (IA) tem assumido um papel cada vez mais central, transformando-se numa ferramenta indispensável em diversas áreas, desde o atendimento ao cliente até à criação de conteúdo. Os chatbots, em particular, têm maravilhado muitos com as suas capacidades de interação quase humanas. No entanto, por trás dessa fachada de eficiência, esconde-se uma realidade menos conhecida: a sua insaciável fome por dados.

    Recentemente, uma investigação do The New York Times trouxe à luz uma prática surpreendente da OpenAI, a empresa por trás do modelo de linguagem GPT-4.

    Aparentemente, a empresa esgotou todas as fontes confiáveis de textos em inglês disponíveis na internet até o final de 2021. Diante da necessidade de mais dados para aprimorar o seu sistema, a OpenAI adotou uma estratégia inusitada: a transcrição de um milhão de horas de vídeos do YouTube através do modelo de IA Whisper. Este método permitiu-lhes obter uma quantidade significativa de texto para alimentar o voraz GPT-4.

    Contudo, essa estratégia levanta questões importantes sobre direitos autorais. A OpenAI estava ciente de que a legalidade do método era questionável, mas isso não impediu a sua implementação. Uma porta-voz da empresa mencionou ao The Verge que eles filtram conjuntos de dados “únicos” para manter a competitividade global em pesquisa, sem, contudo, referir-se especificamente à transcrição de vídeos do YouTube.

    Não é apenas a OpenAI que se encontra nesta encruzilhada. O Google também recorreu a práticas semelhantes com o seu modelo de IA Gemini, transcrevendo vídeos do YouTube e, potencialmente, violando os direitos autorais dos criadores de conteúdo. Por outro lado, a Meta, de Mark Zuckerberg, que desenvolve o Llama 2, considerou comprar a editora Simon & Schuster para obter acesso a textos de alta qualidade e debateram a possibilidade de coletar dados protegidos por direitos autorais na internet, mesmo que isso implicasse enfrentar ações judiciais.

    Diante das possíveis implicações legais, algumas empresas começaram a perceber que negociar licenças para usar essas fontes de dados pode ser uma abordagem mais segura. Google e OpenAI, por exemplo, têm feito acordos com plataformas como Reddit e com alguns meios de comunicação para utilizar legalmente os seus conteúdos.

    Olhando para o futuro, uma opção que está a ser considerada é o treino com dados sintéticos, ou seja, dados gerados pelos próprios modelos de IA. Esta abordagem ainda está em fase de teste e espera-se que possa oferecer uma alternativa viável para o treino de sistemas de IA sem esbarrar em questões legais.

    Na minha opinião, a adoção de dados sintéticos pode ser uma solução promissora, desde que a qualidade e a eficácia desses dados sejam comprovadas. Além disso, a negociação de licenças parece ser um caminho mais ético e sustentável a longo prazo. A tecnologia deve servir à sociedade de forma responsável, e isso inclui respeitar o trabalho criativo de indivíduos e empresas. Afinal, a inovação não deve ser um atropelo aos direitos, mas sim uma harmonia entre o progresso e a justiça.

    Por Tiago Carvalho

    Publicidade

    spot_img

    POSTAR COMENTÁRIO

    Por favor digite seu comentário!
    Por favor, digite seu nome aqui

    Este site utiliza o Akismet para reduzir spam. Fica a saber como são processados os dados dos comentários.

    - Publicidade -spot_img

    ÚLTIMAS NOTÍCIAS

    TSE suspende julgamento de ações que pedem cassação de Moro por atos na pré-campanha em 2022; caso será retomado na 3ª

    O Tribunal Superior Eleitoral (TSE) suspendeu nesta quinta-feira o julgamento das ações que pedem a cassação do senador Sergio...

    Artigos Relacionados

    Social Media Auto Publish Powered By : XYZScripts.com
    • https://spaudio.servers.pt/8004/stream
    • Radio Calema
    • Radio Calema