Microsoft, yapay zeka VALL-E ile sesleri kopyalamaya hazırlanıyor

Microsoft, yalnızca 3 saniyelik konuşmayla sesleri kopyalayan VALL-E adında yeni bir yapay zeka aracı geliştirdiğini duyurdu.

Microsoft, kısa süre önce DALL-E‘ye benzeyen ancak seslere odaklanan VALL-E adlı yeni bir yapay zeka aracını duyurdu. Yalnızca üç saniyelik sesi dinledikten sonra, VALL-E herhangi bir sesi kolayca kopyalayabiliyor.

Bilim kurgu filmlerinden çıkmış gibi hissettiğimiz son günlerde yapay zeka hayatımıza içten içe uyum sağlıyor. İlk önce DALL-E’nin sözcükleri görsele dönüştürmesi daha sonra adeta bilgi deposu ve aynı zamanda yardımcı ChatGPT gibi yapay zeka araçlarından hemen sonra sıra ses üzerine yapılan çalışmalara geliyor. 

Microsoft‘un yeni aracı duygu ve tonu kolayca eşleştiriyor. Bu da birçok sesli yapay zeka aracının uğraştığı bir şeyin çözümü olarak görülüyor. Ekip, VALL-E’yi yaklaşık 60.000 saatlik İngilizce konuşma verisi üzerinde eğitti. Bu eğitim süreciyle birlikte VALL-E, ileri derecede öğrenme becerileri geliştirdi. O kadar ilerledi ki hiç duymadığı sözcükleri bile kopyalayabildi. Her ne kadar korkunç görünse de seslendirme alanında önemli bir etkisi olabileceği tahmin ediliyor. 

Rapor, VALL-E’nin istem tabanlı TTS yapabildiğini, bağlamı takip ettiğini ve yüksek kaliteli bir ses örneği sunmak için önceden tasarlanmış akustiğe veya herhangi bir yapısal mühendisliğe ihtiyaç duymadığını söylüyor. VALL-E’nin ihtiyacı olan tek şey, herhangi bir sesin yaklaşık üç saniyesini duyma oluyor. Duyulan sesin ardından yaptığı analizlerle sesi hızlı ve kolay bir şekilde taklit edebiliyor. 

Microsoft, muhtemelen yapay zekanın doğasında bulunan ve sözcükleri birinin ağzından çıktığı gibi görünmesine karşı oluşabilecek riskler nedeniyle kodu açık kaynaklı olarak herkese sunmamayı tercih etti. Daha fazla geliştirme konusunda “Microsoft AI İlkelerini” takip edeceğini de sözlerine ekledi. Halkın kullanımına açıldığında güvenlik açısından nasıl bir önlem alınacağı da oldukça merak ediliyor. 

Güncel İçerikler