Sisteme, hevesli, şaşkın ya da bilgilendirici gibi farklı duygu durumları yüklenebiliyor. Model sese yalnızca duygu katmakla kalmıyor, aynı zamanda farklı dil aksanlarını da başarıyla taklit ediyor. Kullanıcılar, Amerikan veya İngiliz aksanlarının çeşitli yerel ağızları arasından seçim yapabilme özgürlüğüne sahip.
Bununla birlikte sistemde, bir yönetmenmiş gibi konuşma tarzını ince ince işlemek de mümkün. Podcast sunucusu, sesli kitap anlatıcısı, dil öğretmeni veya haber spikeri gibi hazır şablonlar sayesinde istenilen atmosfere anında uyum sağlanabiliyor.
70’ten fazla dili destekleyen model, Japoncadan Hintçeye kadar geniş bir yelpazede akıcı bir konuşma deneyimi vadediyor. Üstelik üretilen seslerin yapay zeka elinden çıktığını belli eden SynthID filigranı da unutulmamış. Bu sayede şeffaflık ilkesi de elden bırakılmıyor.
Gerçek insanların değerlendirme yaptığı ses testlerinde ikinci sıraya yerleşen Gemini 3.1 Flash TTS, şimdiden yeteneklerini kanıtlamış durumda. Geliştiriciler, modeli Gemini API ve Google AI Studio üzerinden kullanabilirken, şirketler de Vertex AI platformu üzerinden erişebiliyor.
Standart kullanıcılar ise bu yenilikçi ses modelini Google Vids uygulaması üzerinden deneyimleyebilme imkanına sahip.
Sizce bu kadar gelişmiş bir ses sentezleme teknolojisi, seslendirme sektörünü nasıl etkileyecek?