Apple, Yeni AI Modeli: Görsellerden Nesne Tanıma ve Sayma!

Apple’in Yeni AI Modeli: Görsellerden Nesne Tanıma ve Sayma

19 Mart 2024
19 Mart 2024
3dk okuma
Yorum Yok

Yazılım, uygulama ve teknoloji haberleri

Apple, üretken yapay zekâ alanında geç kalsa da hem görüntüleri hem de metin verilerini yorumlayabilen çoklu modlu büyük dil modeli MM1’i tanıtarak durumu değiştiriyor gibi görünüyor. Apple araştırmacıları, hem metinleri hem de görsel bilgileri sorunsuz bir şekilde birleştiren büyük dil modellerini eğitmek için yeni bir yöntem geliştirdi. Apple MM1 olarak adlandırılan model, Google Gemini gibi çoklu modlu modellerle rekabet edebilen, 30 milyara kadar parametre içeren bir yapıya sahip. Apple MM1, resim-altyazı eşleştirmeleri, resim-metin belgeleri ve sadece metin verilerinden oluşan bir veri seti kullanarak çok modlu yeteneklerini sergiliyor.

Apple AI ile Görsellerden Öğreniyoruz: Yeni Eğitim ve Bilgi Paylaşımı Yöntemleri

MLLM (Çok Modlu Büyük Dil Modelleri) ve LLM (Büyük Dil Modelleri) arasında önemli farklar bulunmaktadır ve günümüzde gelişmiş yapay zekâ sistemleri çok modlu bir yaklaşımı benimsemektedir. Örneğin, ücretsiz ChatGPT gibi yapay zekâ sohbet robotları sadece metinsel girişleri işlerken, Apple MM1, Gemini ve Copilot gibi yapay zekâ sistemleri hem metinleri hem de görsel veya ses içeriklerini işleyebilmektedir. Apple, MM1’in nesneleri sayma, görüntülerin parçalarını tanıma ve temel matematiksel işlevleri yerine getirme yeteneklerine sahip olduğunu iddia etmektedir. Ayrıca, MM1 bağlam içi öğrenmeyi destekler, bu da modelin her sorgu için yeniden eğitilmesi veya ince ayar yapılması gerekmeksizin öğrenme yeteneğini ifade eder. MM1 ayrıca çoklu görüntü muhakemesini destekleyerek birden fazla görüntüyü yorumlama ve sonuçlar çıkarma kapasitesine sahiptir.

Makale, özellikle MM1 modelinin 30 milyar parametreli en büyük konfigürasyonunda bağlam içi öğrenme yeteneklerine odaklanıyor. Bu versiyon, yapay zekanın karmaşık ve açık uçlu problemleri minimum örneklerle çözebilmesine olanak tanıyor. Araştırmacılar, makalede modele gösterdikleri bir fotoğrafta masadaki tüm biralar için ne kadar ödeme yapılması gerektiğini soruyorlar. Bu soru aynı zamanda Emu-Chat-37B ve LLaVA-NeXT-34B gibi diğer modellere de yöneltiliyor, ancak sadece Apple MM1’in doğru cevap verdiği belirtiliyor. Bununla birlikte, MM1 şu anda sadece bir araştırma makalesinin ötesinde bir ürün değil ve somut bir uygulama henüz mevcut değil. Apple’ın yapay zekâ araştırmaları umut vaat etse de, mevcut herhangi bir demosuzluğun endişe verici olduğu belirtiliyor. Geçtiğimiz günlerde, Apple’ın iOS 18 ile üretken yapay zekayı iPhone’lara getirmek için Google Gemini’yi kullanabileceği öne sürülmüştü. Bu iddialar güçlü görünse de, aynı zamanda Apple’ın yapay zekâ alanında istediği ilerlemeyi henüz sağlayamadığına işaret ediyor.