“Text to Speech” yani Metin-Ses üretiminde kullanılan yöntemler arasında en önemli olanlarından biri olan dil modelleme, son zamanlarda çok önemli ilerlemeler kaydetmiştir. Bu çalışmada, bir neural codec dil modeli olan VALL-E yapay zeka duyuruldu. Bu model, metin-ses üretiminde kullanılmak üzere eğitiliyor.
VALL-E Yapay zeka, önceki çalışmalarda kullanılan sürekli sinyal regresyon yönteminden farklı olarak, koşullu dil modelleme görevine dayanmaktadır. Bu yöntem, metin girdisi verildiğinde, ses çıktısını üretebilmektedir. Bu, metin-ses üretiminde esneklik sağlar ve özelleştirilmiş konuşma üretebilme imkanı verir.
VALL-E’nin eğitim aşaması, mevcut sistemlerden daha büyük bir veri seti kullanılarak gerçekleştirilmiştir. 60,000 saat İngilizce konuşma verisi kullanılarak eğitilen VALL-E, içerik öğrenme yeteneklerine sahiptir. Bu, VALL-E’nin görülmemiş bir konuşmacının sadece 3 saniye süren kayıtlı bir ses kaydını kullanarak yüksek kaliteli kişiselleştirilmiş konuşma üretebilme yeteneğine sahip olduğu anlamına geliyor. Yani bir insanın sadece 3 saniyelik ses kaydını dinlettikten sonra verdiğiniz metinleri o ses üzerinden okuyacak.
Deney sonuçları, VALL-E’nin son derece başarılı olduğunu ve konuşma doğallığı ve konuşmacı benzerliği açısından mevcut sistemlerden daha iyi olduğunu göstermektedir. Ayrıca, VALL-E’nin konuşmacının duygusal ve akustik ortamını üretimde koruduğu da gözlemlenmiştir.
- Advertisement -
Sonuç olarak, VALL-E yapay zekası, metin-ses üretiminde kullanılan yöntemler arasında önemli bir adımdır. Bu model, esnek ve özelleştirilmiş konuşma üretebilme yeteneğine sahiptir ve internetteki mevcut sistemlerden çok daha iyi sonuçlar elde etmektedir. Bu nedenle, VALL-E, metin-ses üretiminde kullanılması önerilen bir model olarak değerlendirilmelidir. Ayrıca, VALL-E’nin eğitim aşamasında kullanılan veri setinin büyüklüğü, ön eğitim aşamasında elde edilen sonuçların önemini vurgulamaktadır. Böylelikle, VALL-E Yapay Zeka, metin-ses üretiminde kullanılması önerilen bir model olarak değerlendirilmelidir.
Örnek Sesler
Bu ses bir konuşmacının 3 saniyelik ses kaydı.
Bu ses ise 3 saniyelik ses kaydının yapay zeka tarafından istediğiniz metnin seslendirilmesi
Bu ses bir konuşmacının 3 saniyelik ses kaydı.
Bu ses ise 3 saniyelik ses kaydının yapay zeka tarafından istediğiniz metnin seslendirilmesi