Amazon, Yeni Yapay Zeka Ses Modeli Nova Sonic’i Tanıttı

Amazon, doğal konuşmaları anlama yeteneğiyle dikkat çeken ve insan sesine yüksek kalitede benzerlik gösteren yeni yapay zeka ses modeli Nova Sonic‘i tanıttı. Şirket, bu modelin OpenAI’nin GPT-4.0 modeline göre yaklaşık %80 daha maliyet etkin olduğunu belirtiyor. Nova Sonic, hız, konuşma tanıma ve ses kalitesi açısından OpenAI ve Google gibi sektörün önde gelen ses modelleriyle rekabet edebilme kapasitesine sahip.
Nova Sonic, ortalama yanıt süresi 1,09 saniye ile Amazon’un önceki sesli yapay zeka çözümlerine kıyasla çok daha hızlı bir performans sergiliyor. Bu model, farklı aksanlardaki konuşmaları tanıma yeteneğiyle de dikkat çekiyor; kalabalık ortamlarda birden fazla konuşmacıyı ayırt etme testlerini başarıyla tamamladığı belirtildi. Amazon, Nova Sonic’in kullanıcı komutu olmadan internetten bilgi arama, veri tabanlarını tarama ve gerektiğinde harici uygulamaları kendi başına açma yeteneğine sahip olduğunu ifade ediyor.
Amazon’un Yeni Yapay Zeka Ses Modeli, İnsan Konuşmasına Yüksek Kalitede Benzerlik Gösteriyor
Amazon Yapay Genel Zeka Kıdemli Başkan Yardımcısı Rohit Prasad, şirketin ses destekli teknolojileri aracılığıyla müşteri deneyimlerini geliştirme taahhüdünü vurguladı. Prasad, “Nova Sonic, birçok işlevi tek bir modelde birleştirerek daha doğru, doğal ve ilgi çekici müşteri etkileşimleri sağlıyor. Bu model, kapsamlı testlerden geçmiş ve yüksek kaliteli, insana benzer konuşma yetenekleri sergilemiştir. Doğal diyalog işleme ve konuşma tanıma doğruluğunda güçlü bir performans göstermektedir.” açıklamasında bulundu.
Nova Sonic, diğer yapay zeka ses modellerine kıyasla konuşma tanıma hatalarına daha az eğilimli. Bu durum, modelin kullanıcıların niyetlerini mırıldansalar, yanlış konuşsalar veya gürültülü bir ortamda bulunsalar bile oldukça iyi bir şekilde anlayabildiği anlamına geliyor. Amazon, Multilingual LibriSpeech adlı bir veri setinde Nova Sonic’in İngilizce, Fransızca, İtalyanca, Almanca ve İspanyolca dillerindeki ortalama kelime hata oranının (WER) yalnızca %4,2 olduğunu bildiriyor. Bu, modelin her 100 kelimeden yaklaşık dördünün bu dillerdeki insan transkripsiyonlarından farklı olduğu anlamına gelmektedir.
Ayrıca, Amazon, sesin ötesine geçerek görüntü ve fiziksel dünyadan alınan verileri işleyebilen daha gelişmiş yapay zeka modelleri üzerinde çalışmalarını sürdürdüğünü de açıkladı.



