💻Teknoloji🔥9.0
Yapay Zekâya Doktora Düzeyinde Performans Testi: Yeni "LifeSciBench" Tanıtıldı!
ChatGPT, yapay zekâların daha gelişmiş noktalar üzerinden testlere girmesini sağlayacak yeni LifeSciBench'i tanıttı.
baris.bulut@onedio.com
(Barış Bulut)
· Webtekno18 Haziran 20262 dk okuma

Ajan tabanlı yapay zekâ sistemleri, bilimsel görevleri yerine getirme konusunda her geçen gün daha yetenekli hâle geliyor ancak bu sistemlerin yaşam bilimleri araştırmacıları için gerçekten yararlı olup olmadığı, gerçek araştırmaların karmaşıklığıyla ne kadar iyi başa çıkabildiklerine bağlı.
Gerçek bilimsel çalışmalar, ne yazık ki tek bir bilgi-geri çağırma sorusu ya da temiz bir tahmin probleminden ibaret değil. Gerçek hayatta araştırmacılar eksik kanıtları yorumlamak, çelişkili sonuçları uzlaştırmak, zorlu deneyler tasarlamak, hataları gidermek, riskleri değerlendirmek ve belirsizlik altında bir sonraki adımın ne olacağına karar vermek zorunda.
ChatGPT LifeSciBench ne işe yarıyor?
Mevcut yapay zekâ kıyaslama testleri ise bu yetenekleri tam olarak yakalayamıyor. Yaşam bilimleri alanındaki pek çok değerlendirme, dar alanlara veya izole edilmiş becerilere odaklanıyor, bu da yapılandırılmış soru formatları ve temiz referans cevaplar doğuruyor. Bu testler elbette değerli ancak bir modelin araştırma düzeyindeki daha geniş iş kollarına gerçekten katkıda bulunup bulunamayacağını değerlendirmekte yetersiz kalıyor.
İşte tam bu boşluğu kapatmak amacıyla ChatGPT, LifeSciBench'i tasarladığını söylüyor. Bu testteki her bir görev, biyoteknoloji ve ilaç geliştirme programlarında doğrudan deneyimi olan, doktora (Ph.D.) düzeyinde eğitim almış uzman yaşam bilimcilerin muhakemelerine dayanıyor.
LifeSciBench tam olarak neyi ölçüyor?
LifeSciBench, yapay zekâ sistemlerinin sadece biyoloji sorularını yanıtlayıp yanıtlayamadığını değil, gerçekçi yaşam bilimleri araştırma görevlerini destekleyip destekleyemediğini ölçüyor. Şirket, bu kıyaslama testinin sınıflandırmasını tanımlamak için çalışan yaşam bilimcilerle, uygulamalı araştırma ortamlarında en sık kullandıkları iş akışları hakkında anketler yapıldığını söylüyor.
Modellerin değerlendirilmesi de sıradan testler gibi olmuyor. Uzmanlar tarafından yazılan rubrikler, bir modelin belirli bir problem için doğru cevabı üretip üretemediğini ölçerken aynı zamanda bir bilim insanının bekleyeceği doğru detay seviyesini, gerekçelendirmeyi, uyarıları ve biçimlendirmeyi sunup sunamadığını da inceliyor.
Özetle yapay zekânın sadece ezberci bir asistan mı yoksa bilime yön verebilecek gerçek bir iş ortağı mı olduğunu artık LifeSciBench belirleyecek.
Kaynak
Webtekno