Sztuczna inteligencja przywróciła głos Valowi Kilmerowi

Brytyjski startup Sonantic wykorzystał stare filmy aktora do odtworzenia jego naturalnego głosu. Kilmer, który sześć lat temu przeszedł operację gardła, „przemówił” za pomocą sztucznej inteligencji.
Inżynierowie dźwięku firmy zazwyczaj potrzebują aż trzech godzin nagrań, aby odtworzyć czyjś głos. Ale ze względu na ograniczenia dotyczące licencji na filmy, Sonantic musiał odtworzyć głos Kilmera, mając mniej niż 30 minut dźwięku. Udało się. Pobrane zostały próbki ze starego materiału, które następnie zostały „oczyszczone” z szumów tła. Na podstawie tego materiału firma stworzyła skrypt, połączyła dźwięk i tekst w „krótkich fragmentach” i przepuszczała dane przez algorytmy „silnika głosowego”, które uczą się mówić, słuchając nagrań.
„Silnik głosowy” czerpie znaczenie z zapisanych słów i może wykorzystywać je jako wskazówki do „ilustrowania intensywnego gniewu i emocjonalnego bólu”, jak tłumaczy Sonantic. W kwietniu br. firma zaprezentowała demo, w którym dwa głosy prowadzą zwykłą rozmowę, a ta szybko przeradza się w kłótnię. Korzystanie z tej technologii pozwoli w przyszłości oszczędzać struny głosowe aktorów, podaje Sonantic.
Firma stworzyła aż 40 wersji głosu Kilmera i wybrała tę jedną, która najlepiej oddaje ekspresję aktora. W rezultacie powstał program do zamiany tekstu na mowę, który według Sonatic może naśladować różne emocje Kilmera. Oprogramowanie głosowe potrafi czytać na głos linijki tekstu, rzekomo przechwytując charakterystyczne cechy aktora w mowie, jej ekspresji i tonie.
ZOBACZ TEŻ: TOP 5 najsłynniejszych deepfake’ów. Na czym polega ta technika?
Technologia deepfake to przyszłość filmów?
Nawet te najpopularniejsze sztuczne głosy, takie jak Siri czy Alexa, brzmią nienaturalnie i z łatwością da się je odróżnić od prawdziwej ludzkiej mowy. Technologia idzie jednak do przodu. Coraz więcej startupów wdraża inteligentne usługi klonowania głosu dla asystentów cyfrowych, gier wideo i na potrzeby studiów filmowych.
Wygenerowane głosy robią się coraz bardziej realistyczne w dobie deepfake – technologii, która wykorzystuje sztuczną inteligencję do manipulowania treścią tak, aby ta wyglądała i brzmiała identycznie jak oryginał. Nagrania wykonane w technice deepfake są tak dobre, że czasem trudno odróżnić prawdziwe ludzkie głosy od ich syntetycznych odpowiedników.
Zdjęcie główne: Sonantic.io. Źródło: Washington Post.
Podobne artykuły

ZUS planuje stworzyć własną spółkę IT. Będzie zatrudniać programistów za rynkowe stawki

Ten kraj ani myśli o czterodniowym tygodniu pracy. Za to chce wydłużyć go do 69 godzin

Zakończono największe na świecie testy czterodniowego tygodnia pracy. Jakie są wnioski?

Meta wprowadza płatną weryfikację konta. Czy to początek końca darmowych social mediów?

Sztuczna inteligencja jest największym zagrożeniem dla naszej cywilizacji

Pierwsza polska uczelnia opracowała wytyczne dotyczące etycznego korzystania z ChatGPT

Sztuczna inteligencja Google przeszła rozmowę kwalifikacyjną na programistę. Zaskoczeni? 
