OpenAI’nin o3 ve o4-mini Modelleri Fazla Halüsinasyon Yapıyor

OpenAI tarafından geliştirilen yeni nesil yapay zekâ modelleri o3 ve o4-mini, şirketin kendi değerlendirme raporlarına göre önceki modellere kıyasla çok daha yüksek oranlarda halüsinasyon yapıyor. Yani bu modeller, gerçek dışı bilgiler üretme eğiliminde daha fazla. OpenAI’nin yayınladığı teknik belgede, o3’ün %33, o4-mini’nin ise %48 oranında halüsinasyon yaptığı belirtildi. Bu oranlar, önceki modeller GPT-4.5 ve GPT-4o’nun sırasıyla %19 ve %30’luk halüsinasyon oranlarının oldukça üzerinde.

Yeni Nesil Modeller Neden Daha Fazla Yanılıyor?

OpenAI’nin “PersonQA” test sonuçlarına göre, o3 ve o4-mini modelleri hem daha fazla doğru bilgi üretiyor hem de daha fazla yanlış bilgiye neden oluyor. Raporda, o3 modelinin genel olarak daha fazla iddiada bulunma eğiliminde olduğu ve bunun da doğruluk kadar hata oranını da artırdığı belirtiliyor. Şirket, bu durumun arkasındaki nedenin tam olarak bilinmediğini ve daha fazla araştırma gerektiğini ifade ediyor.

O serisi modeller, GPT-4o gibi örnekleme odaklı sistemlerden farklı olarak, daha fazla hesaplama yaparak yanıt üretmeye çalışıyor. Bu yaklaşım, teoride daha doğru sonuçlar üretmesini sağlamalıydı. Ancak pratikte görülen bu yüksek halüsinasyon oranları, beklenen performansın henüz yakalanamadığını gösteriyor.

OpenAI

Benchmark Farklılıkları ve Güven Sorunu

Değerlendirme yöntemlerinin güvenilirliği de tartışma konusu. OpenAI’nin kendi iç testlerinin dışında, HuggingFace gibi bağımsız platformlar tarafından yapılan karşılaştırmalar farklı sonuçlar veriyor. Örneğin, HuggingFace’in halüsinasyon testinde GPT-4o %1.5, GPT-4.5 %1.2 ve o3-mini-high %0.8 gibi oldukça düşük oranlar elde etti. Ancak o3 ve o4-mini bu karşılaştırmaya dahil edilmedi.

Bu tutarsızlıklar, model testlerinde kullanılan metriklerin ve verilerin çeşitliliğini gözler önüne seriyor. Ayrıca, kullanıcıların doğru bilgiye ulaşmak için web arama özelliği gibi harici kaynaklara bağımlı olması, şirketlerin kullanıcı verilerini üçüncü taraflarla paylaşma riskini de beraberinde getiriyor. Tüm bu gelişmeler, Şirketin yeni modellerini kullanmak isteyenler için soru işaretlerini artırıyor. Şirketin bu konuda yapacağı yeni açıklamalar merakla bekleniyor.

OpenAI’nin o3 ve o4-mini Modelleri Fazla Halüsinasyon Yapıyor yazısı ilk önce BeeTekno yayınlanmıştır.