OpenAI, yeni ChatGPT API’nin kullanıma sunulmasıyla aynı zamana denk gelecek şekilde, şirketin Eylül ayında piyasaya sürdüğü açık kaynaklı Whisper konuşmayı metne dönüştüren Whisper API’yi kullanıma açtı.
Dakikası 0,006 ABD doları olarak fiyatlandırılan Whisper, birden çok dilde yazılı olarak çeviriyi otomatik yapabilen bir konuşma tanıma sistemi. Bunu yaparken M4A, MP3, MP4, MPEG, MPGA, WAV ve WEBM gibi çeşitli biçimlerdeki dosyaları kullanır.
Sayısız kuruluş, Google, Amazon ve Meta gibi teknoloji devlerini son derece yetenekli konuşma tanıma sistemleri geliştirdi. Ancak Whisper’ı farklı kılan şey, OpenAI kurucularından Greg Brockman’a göre web’den toplanan 680.000 saatlik çok dilli ve “çoklu görev” verileri üzerinde eğitilmiş olması ve bunun da birbirinden çok farklı aksanların, arka plan gürültüsünün ve teknik jargon gibi unsurların daha iyi tanımlanmasını sağladığını ifade etti.
Brockman verdiği bir röportajda “ilk sürümünü yayınladık, ancak bu aslında tüm geliştirici ekosisteminin onun etrafında inşa edilmesine neden olmak için yeterli değil” dedi. Ve “Whisper API, alabileceğiniz diğer açık kaynak kodlu büyük modellerin aynısı, ancak biz en uç noktaya kadar optimize ettik. Ayrıca çok daha hızlı ve son derece kullanışlı.” diyerek ekledi.
OpenAI Whisper kullanırken dikkatli olmak gerekebilir
Yine de Whisper’ın bazı problemleri var. Özellikle “sonraki kelime” tahmininde. Sistem, büyük miktarda gürültülü veri üzerinde eğitildiğinden dolayı, OpenAI, Whisper’ın ses tanıma sürecinde gerçekte konuşulmayan sözcükler ekleyebileceği konusunda uyarıyor. Ayrıca Whisper, eğitim verilerinde iyi temsil edilmeyen dillerin seslerini daha yüksek bir hata oranına sahip olacağı için bütün diller arasında eşit derecede iyi performans göstermeyecektir.
Bu son kısım maalesef konuşma tanıma teknolojisinde yeni bir durum değil. Amazon, Apple, Google, IBM ve Microsoft’un sistemlerinin de bulunduğu 2020 Stanford üniversitesi araştırmasına göre, bu teknolojilerin özellikle uzak diller için pek de iyi bir performans göstermedikleri belirtiyor.