News

Sztuczna inteligencja Microsoftu jest już w stanie Cię sklonować. Co Ty na to?

11 stycznia 2023 Aleksander Piskorz

Naukowcy z Microsoftu zaprezentowali nowy, imponujący model sztucznej inteligencji, który został oznaczony jako Vall-E. Opisywany software potrafi na podstawie zaledwie kilkusekundowej próbki głosu stworzyć jego realną kopię. Wszystko to w pakiecie z tonem emocjonalnym i rozbudowaną akustyką. W jaki sposób działa sztuczna inteligencja Microsoftu?

Sztuczna inteligencja Microsoftu — prezentacja

Microsoft zaprezentował najnowszy z wielu algorytmów AI, które są w stanie na podstawie próbki głosu użytkownika sprawić, że będzie mógł zostać on „sklonowany” w cyfrowej wersji. To, co jest jednak najbardziej niezwykłe w technologii amerykańskiej firmy to fakt, że potrzebuje ona do skutecznego działania próbki o długości zaledwie trzech sekund.

W 2017 roku podobne algorytmy wymagały co najmniej minuty nagrania, aby móc skutecznie skopiować ton i barwę głosu.

Sztuczna inteligencja Microsoftu — eksperymenty

W przypadku Vall-E sam model został przeszkolony na podstawie około 60 tys. godzin nagrań w języku angielskim — głównie korzystając z narratorów audiobooków. Naukowcy zaprezentowali szereg próbek, w których Vall-E próbuje “udawać” ludzki głos. Niektóre z nich są naprawdę imponujące (możecie podejrzeć je tutaj).

Surprised there isn't more chatter around VALL-E

This new model by @Microsoft can generate speech in any voice after only hearing a 3s sample of that voice 🤯

Demo → https://t.co/GgFO6kWKha pic.twitter.com/JY88vf4lYc
— Steven Tey (@steventey) January 9, 2023

Warto zwrócić uwagę na to, jak dokładnie Vall-E kopiuje głos oraz jego charakterystykę akustyczną — jeśli nagranie zostało stworzone poprzez telefon komórkowy, to jego kopia będzie jakościowo brzmiała bardzo podobnie. To wszystko tyczy się również wszelakich trzasków oraz dźwięków w tle. Vall-E całkiem nieźle radzi sobie także z akcentami takimi, jak brytyjski czy amerykański. W przypadku replikacji tonu emocjonalnego jest już jednak nieco gorzej.

Jakby na to wszystko nie patrzeć, potencjał Vall-E w zakresie kopiowania ludzkiego głosu jest niesamowity — co w przyszłości może oczywiście rodzić różnego rodzaju problemy, także te związane z prywatnością samych użytkowników.

Wszyscy czekamy też na to aż deepfake i klonowanie głosu zostanie wykorzystane w celach politycznych. No bo takiego działania sztucznej inteligencji już niebawem nikt nie będzie w stanie zatrzymać.

Aleksander Piskorz

Dziennikarz technologiczny od prawie dekady. Człowiek z nienasyconą ciekawością. Fan trudnych pytań, kawy specialty i roweru szosowego. Uzależniony od internetu.