Araştırma: OpenAI modellerini telifli verilerle eğitiyor

AI Disclosures Project tarafından yapılan yeni bir araştırma, OpenAI’nin büyük dil modellerini telif hakkı korunan verilerle eğitmiş olabileceğini ortaya koydu. Çalışma, GPT-4o modelinin O’Reilly Media kitaplarındaki ücretli içerikleri tanıma yeteneği olduğunu gösteriyor.

Ücretli içerikler tanınıyor

Araştırmada, GPT-4o modelinin ücretli O’Reilly kitap içeriklerini %82 doğrulukla tanıdığı tespit edildi. Buna karşılık, OpenAI’nin eski modeli GPT-3.5 Turbo’da bu oran %50 civarında kaldı. GPT-4o’nun halka açık olmayan içerikleri, halka açık olanlara göre daha iyi tanıdığı da çalışmanın dikkat çeken bulguları arasında.

1__7aIo0xjeuYw5L_V0QavGA

LibGen veritabanı bağlantısı

Araştırmacılar, test edilen tüm O’Reilly kitaplarının LibGen veritabanında bulunması nedeniyle, veri erişim ihlallerinin buradan kaynaklanmış olabileceğini belirtiyor. Çalışma, OpenAI’nin telif hakkı korunan verileri izinsiz kullanmasının daha geniş bir sistemik sorunun parçası olabileceğine işaret ediyor.

İçerik üreticileri için risk

Rapor, profesyonel içerik üreticilerinin gelir kaynaklarının azalmasıyla internetin içerik kalitesi ve çeşitliliğinin düşebileceği uyarısında bulunuyor. AI Disclosures Project, yapay zeka şirketlerinin model eğitim süreçlerinde daha fazla şeffaflık sağlaması gerektiğini vurguluyor.

Yasal düzenlemeler gündemde

AB Yapay Zeka Yasası’nın açıklama gerekliliklerinin, uygun şekilde belirlenip uygulanması halinde olumlu bir etki yaratabileceği ifade ediliyor. Raporda, içerik sahiplerinin çalışmalarının ne zaman model eğitiminde kullanıldığını bilmelerinin önemine dikkat çekiliyor.

Lisans anlaşmaları artıyor

Yapay zeka şirketlerinin veri lisans anlaşmaları yapmaya başladığı belirtilen raporda, Defined.ai gibi şirketlerin eğitim verisi satın alırken içerik sahiplerinden izin aldığı ve kişisel bilgileri çıkardığı örnek gösteriliyor.

Araştırma, 34 adet O’Reilly Media kitabı kullanılarak elde edilen bulguların, OpenAI’nin GPT-4o’yu halka açık olmayan telifli verilerle eğitmiş olma ihtimalini desteklediği sonucuna varıyor.

Araştırma: OpenAI modellerini telifli verilerle eğitiyor yazısı ilk önce BeeTekno yayınlanmıştır.