AI, News

Sztuczna inteligencja przywróciła głos Valowi Kilmerowi

19 sierpnia 2021 Joanna Pasterczyk

Brytyjski startup Sonantic wykorzystał stare filmy aktora do odtworzenia jego naturalnego głosu. Kilmer, który sześć lat temu przeszedł operację gardła, „przemówił” za pomocą sztucznej inteligencji.

Słynny hollywoodzki aktor stracił głos po operacji, którą wykonano w 2015 roku. Wcześniej zmagał się z chorobą nowotworową gardła. Zabieg, choć przywrócił mu zdrowie, zmienił jego codzienne życie i karierę. „Mój głos, taki, jaki znałem, został mi odebrany. Ludzie wokół mnie mają trudności ze zrozumieniem mnie, kiedy mówię” – mówi aktor na nagraniu opublikowanym na YouTube w ubiegłym tygodniu. Głos, który słyszymy, został wygenerowany za pomocą sztucznej inteligencji. Posłuchajcie sami:

Sztuczna inteligencja odtworzy głos, nadając mu pożądane emocje

Jak to się stało? Pod koniec ubiegłego roku do Vala Kilmera odezwała się brytyjska firma programistyczna Sonantic, która klonuje głosy m.in. na potrzeby studiów nagraniowych. Firma zaproponowała pomoc aktorowi tuż po tym, jak zakończył on nagrywanie „Val’ – filmu dokumentalnego o jego hollywoodzkiej karierze i walce z rakiem.

Inżynierowie dźwięku firmy zazwyczaj potrzebują aż trzech godzin nagrań, aby odtworzyć czyjś głos. Ale ze względu na ograniczenia dotyczące licencji na filmy, Sonantic musiał odtworzyć głos Kilmera, mając mniej niż 30 minut dźwięku. Udało się. Pobrane zostały próbki ze starego materiału, które następnie zostały „oczyszczone” z szumów tła. Na podstawie tego materiału firma stworzyła skrypt, połączyła dźwięk i tekst w „krótkich fragmentach” i przepuszczała dane przez algorytmy „silnika głosowego”, które uczą się mówić, słuchając nagrań.

„Silnik głosowy” czerpie znaczenie z zapisanych słów i może wykorzystywać je jako wskazówki do „ilustrowania intensywnego gniewu i emocjonalnego bólu”, jak tłumaczy Sonantic. W kwietniu br. firma zaprezentowała demo, w którym dwa głosy prowadzą zwykłą rozmowę, a ta szybko przeradza się w kłótnię. Korzystanie z tej technologii pozwoli w przyszłości oszczędzać struny głosowe aktorów, podaje Sonantic.

Firma stworzyła aż 40 wersji głosu Kilmera i wybrała tę jedną, która najlepiej oddaje ekspresję aktora. W rezultacie powstał program do zamiany tekstu na mowę, który według Sonatic może naśladować różne emocje Kilmera. Oprogramowanie głosowe potrafi czytać na głos linijki tekstu, rzekomo przechwytując charakterystyczne cechy aktora w mowie, jej ekspresji i tonie.

ZOBACZ TEŻ: TOP 5 najsłynniejszych deepfake’ów. Na czym polega ta technika?

Technologia deepfake to przyszłość filmów?

Nawet te najpopularniejsze sztuczne głosy, takie jak Siri czy Alexa, brzmią nienaturalnie i z łatwością da się je odróżnić od prawdziwej ludzkiej mowy. Technologia idzie jednak do przodu. Coraz więcej startupów wdraża inteligentne usługi klonowania głosu dla asystentów cyfrowych, gier wideo i na potrzeby studiów filmowych.

Wygenerowane głosy robią się coraz bardziej realistyczne w dobie deepfake – technologii, która wykorzystuje sztuczną inteligencję do manipulowania treścią tak, aby ta wyglądała i brzmiała identycznie jak oryginał. Nagrania wykonane w technice deepfake są tak dobre, że czasem trudno odróżnić prawdziwe ludzkie głosy od ich syntetycznych odpowiedników.

Zdjęcie główne: Sonantic.io. Źródło: Washington Post.

Joanna Pasterczyk

Od ponad ośmiu lat pracuje jako redaktorka, dziennikarka i copywriterka, a od niedawna dba o treści oraz rozwój portalu poświęconego branży IT. Autorka wywiadów, tekstów eksperckich, newsów.