Yapay zeka araçlarıyla hayatımızda yeni bir sayfa açan OpenAI, konuşmaları yazıya dönüştüren Whisper API modelini geçtiğimiz Eylül atında yaptığı duyurunun ardından piyasaya sürdü. Bu yeni model, aynı zamanda çeviri işlevi de görüyor.
Dakikası 0,006 ABD Doları olarak fiyatlandırılan Whisper, OpenAI’nin birden çok dilde “sağlam” transkripsiyona ve bu dillerden İngilizceye çeviriye olanak sağladığını iddia ediyor. M4A, MP3, MP4, MPEG, MPGA, WAV ve WEBM gibi çeşitli biçimlerdeki dosyaları da alıyor.
Sayısız kuruluş, Google, Amazon ve Meta gibi teknoloji devlerinin sunduğu yazılım ve hizmetlerin merkezinde yer alan, son derece yetenekli konuşma tanıma sistemleri geliştirdi. Ancak Whisper’ı farklı kılan şey, OpenAI başkanı ve başkanı Greg Brockman‘a göre web’den toplanan 680.000 saatlik çok dilli ve “çoklu görev” verileri üzerinde eğitilmiş olması ve bu da benzersiz aksanların, arka plan gürültüsünün ve teknik jargonun daha iyi tanınmasına yol açıyor. Yani rakiplerine oranla daha gelişmiş bir dil algılama deneyimine sahip oluyor.
Brockman, ses transkripsiyon teknolojisini benimseyen işletmeler söz konusu olduğunda, önünde pek çok engel bulunuyor. Şirketler, konuşma teknolojileri benimsememelerinin başlıca nedenleri olarak doğruluk, aksan veya lehçeyle ilgili tanıma sorunları ve maliyeti belirtiyor.
OpenAI, Whisper’ın transkripsiyon yeteneklerinin mevcut uygulamaları, hizmetleri, ürünleri ve araçları iyileştirmek için kullanıldığını görüyor. Yapay zeka destekli dil öğrenme uygulaması Speak, yeni bir uygulama içi sanal konuşma yardımcısına güç sağlamak için Whisper API’yi kullanıyor.
OpenAI, Whisper’ın da yeni piyasaya sürüldüğünü ve hata yapabileceğini hatırlatıyor. Sistem, büyük miktarda gürültülü veri üzerinde eğitildiğinden, OpenAI, Whisper’ın transkripsiyonlarına gerçekte konuşulmayan sözcükler ekleyebileceği konusunda uyarıyor.