🎙️ Google, Duygu ve Aksan Kontrolü Sunan Yeni Ses Modelini Duyurdu

BinGünlükHaber · Dün 10:07 da

Google, yeni ses modeli Gemini 3.1 Flash TTS ile kullanıcılara eşsiz bir kontrol imkanı sunduğunu açıkladı. Kullanıcılar, sohbet botunun ses tonunu, hızını ve vurgularını metin tabanlı komutlarla dilediği şekilde yönlendirebiliyor. Paylaşılan bir video da bu yeniliğin ne kadar esnek olduğunu gözler önüne serdi.

Sisteme, hevesli, şaşkın ya da bilgilendirici gibi farklı duygu durumları yüklenebiliyor. Model sese yalnızca duygu katmakla kalmıyor, aynı zamanda farklı dil aksanlarını da başarıyla taklit ediyor. Kullanıcılar, Amerikan veya İngiliz aksanlarının çeşitli yerel ağızları arasından seçim yapabilme özgürlüğüne sahip.

Bununla birlikte sistemde, bir yönetmenmiş gibi konuşma tarzını ince ince işlemek de mümkün. Podcast sunucusu, sesli kitap anlatıcısı, dil öğretmeni veya haber spikeri gibi hazır şablonlar sayesinde istenilen atmosfere anında uyum sağlanabiliyor.

70’ten fazla dili destekleyen model, Japoncadan Hintçeye kadar geniş bir yelpazede akıcı bir konuşma deneyimi vadediyor. Üstelik üretilen seslerin yapay zeka elinden çıktığını belli eden SynthID filigranı da unutulmamış. Bu sayede şeffaflık ilkesi de elden bırakılmıyor.

Gerçek insanların değerlendirme yaptığı ses testlerinde ikinci sıraya yerleşen Gemini 3.1 Flash TTS, şimdiden yeteneklerini kanıtlamış durumda. Geliştiriciler, modeli Gemini API ve Google AI Studio üzerinden kullanabilirken, şirketler de Vertex AI platformu üzerinden erişebiliyor.

Standart kullanıcılar ise bu yenilikçi ses modelini Google Vids uygulaması üzerinden deneyimleyebilme imkanına sahip.

Sizce bu kadar gelişmiş bir ses sentezleme teknolojisi, seslendirme sektörünü nasıl etkileyecek?

Ara

Ara

Foruma hoş geldin 👋, Ziyaretçi

🎙️ Google, Duygu ve Aksan Kontrolü Sunan Yeni Ses Modelini Duyurdu

Tema özelleştirme sistemi

Tam ekran yada dar ekran