Microsoft, Phi-3-vision’ın piyasaya sürülmesiyle Phi-3 küçük dil modelleri ailesini genişletiyor. Kardeşlerinden farklı olarak Phi-3-vision sadece metne odaklanmıyor; görüntüleri de analiz edip anlayabilen çok modlu bir model.
Model, Görüntülerdeki Nesneleri Tanımak İçin Harika
Bu 4,2 milyar parametreli model mobil cihazlar için tasarlanmıştır ve genel görsel muhakeme görevlerinde mükemmeldir. Kullanıcılar Phi-3-vision’a görüntüler ya da grafikler hakkında sorular sorabilir ve Phi-3-vision da onlara aydınlatıcı cevaplar verebilir. DALL-E veya Stable Diffusion gibi bir görüntü oluşturma aracı olmasa da, Phi-3-vision görüntü analizi ve anlama konusunda mükemmeldir.
Phi-3-vision’ın gelişi, Phi-3 ailesinin 3,8 milyar parametre ile en küçük üyesi olan Phi-3-mini’nin hemen ardından geldi. Ailenin tamamı artık Phi-3-mini, Phi-3-vision, Phi-3-small (7 milyar parametre) ve Phi-3-medium’dan (14 milyar parametre) oluşuyor.
Daha küçük modellere odaklanılması, yapay zeka gelişiminde giderek artan bir eğilimi yansıtıyor. Daha küçük modeller daha az işlem gücü ve bellek gerektirdiğinden mobil cihazlar ve diğer kaynak kısıtlı ortamlar için idealdir. Microsoft, Orca-Math modelinin matematik problemlerini çözmede daha büyük rakiplerini geride bıraktığı bildirilen bu yaklaşımla zaten başarı elde etti. Phi-3-vision şu anda önizlemede kullanılabilirken, Phi-3 ailesinin geri kalanına (mini, küçük ve orta) Azure’un model kitaplığı aracılığıyla erişilebilir.