Miks Amazoni 'surnud vanaema' Alexa on hääle kloonimise algus

Tekst kõneks tehnoloogia areng toob meid lähemale veenvalt inimliku kõlaga häältele.

  Miks Amazoni 'surnud vanaema' Alexa on hääle kloonimise algus
[Foto: Matteuse pall /Unsplash; seamartini/Getty Images]

Selle suve alguses, re:MARS konverentsil – Amazonis korraldatud masinõppele, automatiseerimisele, robootikale ja kosmosele keskenduval üritusel – püüdis Alexa AI peateadlane ja asepresident Rohit Prasad lummada publikut paranormaalse salongitrikiga. : surnutega rääkimine. 'Kuigi tehisintellekt ei suuda seda kaotusvalu kõrvaldada, võib see nende mälestused kindlasti kestma jätta,' ütles ta enne lühikese video näitamist, mis algab imearmsast poisist. küsib Alexalt , „Kas vanaema võib mu lugemise lõpetada Võlur Oz ?”

Naisehääl, mis raamatust paar lauset loeb, kõlab piisavalt vanaemalikult. Kuid vanaema tundmata oli sarnasust võimatu hinnata. Ja kogu asi tundus paljudele vaatlejatele rohkem kui pisut jube – Ars Technica nimetas demo 'morbiidseks'. Kuid Prasadi ilmutus selle kohta, kuidas 'trikk' sooritati, oli tõeliselt ahhetama väärt: Amazoni teadlased suutsid vanaema hääle välja kutsuda vaid üheminutilise helinäidise põhjal. Ja nad saavad seda hõlpsalt teha peaaegu iga häälega, väljavaatega, mis võib teile tunduda põnev, hirmuäratav või mõlema kombinatsiooniga.

jill scott erykah badu lahing

Hirm 'sügavate' häälte ees, mis suudavad inimesi lollitada, või hääletuvastustehnoloogia ees, ei ole alusetu. Ühel 2020. aasta juhtumil kasutasid vargad kunstlikult genereeritud häält, et kutsuda Hongkongi pangajuht vabastama 400 000 dollarit raha enne pettuse avastamist. Samal ajal, kui hääl suhtlemine tehnoloogiaga muutub tavalisemaks, soovivad kaubamärgid olla esindatud ainulaadsete häältega. Ja tarbijad näivad soovivat tehnoloogiat, mis kõlaks inimlikumalt (kuigi a Google'i hääleassistent mis jäljendasid inimkõne 'ummis', 'mm-hmms' ja muid nippe, kritiseeriti selle eest ka realistlik).



See on ajendanud innovatsioonilainet ja investeeringuid tehisintellektil põhinevasse teksti kõneks muutmise (TTS) tehnoloogiasse. Google Scholari otsing näitab enam kui 20 000 teadusartiklit kõnesünteesi kohta, mis on avaldatud alates 2021. aastast. Prognooside kohaselt ulatub kõnesünteesi turg maailmas 2028. aastal 7 miljardi dollarini, võrreldes umbes 2,3 miljardi dollariga 2020. aastal. Emergen Research.

Tänapäeval on TTS-i kõige laialdasemalt kasutusel digitaalsed assistendid ja vestlusrobotid. Kuid tekkivaid häälidentiteedi rakendusi mängudes, meedias ja isiklikus suhtluses on lihtne ette kujutada: kohandatud hääled teie virtuaalsetele isikutele, tekstisõnumid, mis loetakse teie häälega ette, häälesaated puudumisel ( või surnud ) näitlejad. Metaversum muudab ka seda, kuidas me tehnoloogiaga suhtleme.

'Neid virtualiseeritud kogemusi, kus suhtlemine on üha vähem klaviatuur ja rohkem kõne, on palju rohkem,' ütleb Frank Chang, AI-le keskendunud riskifondi Flying Fish Seattle'is asutajapartner. „Kõik peavad kõnetuvastust kuumaks asjaks, aga kui sa räägid millegagi, siis kas sa ei taha, et see sulle lihtsalt vastu räägiks? Seda parem, kui seda saab isikupärastada – teie või kellegi häälega, keda soovite kuulda.” Juurdepääsetavuse pakkumine nägemisprobleemide, piiratud motoorsete funktsioonide ja muude kognitiivsete probleemidega inimestele on teine ​​tegur, mis tõukab hääletehnoloogia arengut, eriti e-õppe jaoks.

kuidas keskenduda rohkem

Olenemata sellest, kas teile meeldib vanaema Alexa idee või mitte, toob demo esile, kui kiiresti on AI mõjutanud teksti kõneks muutmist, ja viitab sellele, et veenvalt inimeste võltshääled võivad olla palju lähemal, kui me arvame.

Arvatakse, et algne Alexa, mis ilmus koos Echo seadmega 2014. aasta novembris, põhines sellel Nina Rolle hääl , Boulderis asuv häälekandja (mida ei kinnitanud ei Amazon ega Rolle) ja tugines tehnoloogiale, mille töötas välja Poola teksti kõneks muutmise ettevõte Ivona, mille Amazon omandas 2013. aastal. Kuid Alexa varase vestlusstiil jättis palju soovida. . 2017. aastal VentureBeat kirjutas: 'Alexa on päris nutikas, kuid olenemata sellest, millest AI-toega assistent räägib, pole tema suhteliselt tasasest ja monotoonsest häälest mööda minna.'

Alexa varasemates versioonides kasutati 'konkatenatiivse' teksti kõneks muutmise versiooni, mis töötab ühest kõlarist salvestatud kõnefragmentide suure teegi koostamisega, mida saab terviklike sõnade ja helide saamiseks uuesti kombineerida. Kujutage ette lunaraha, kus tähed lõigatakse ja kleebitakse uuesti kokku, et moodustada uusi lauseid. See lähenemine genereerib arusaadavat heli autentse kõlaga tämbriga, kuid see nõuab mitu tundi salvestatud kõneandmeid ja palju peenhäälestust – ning selle toetumine salvestatud helide teegile muudab häälte muutmise keeruliseks. Teine meetod, mida nimetatakse parameetriliseks TTS-iks, ei kasuta salvestatud kõnet, vaid algab pigem üksikute kõnehelide statistiliste mudelitega, mida saab kokku panna sõnade ja lausete jadaks ning töödelda kõnesüntesaatoriga, mida nimetatakse vokooderiks. (Google'i 'standardsed' tekstist kõneks muutvad hääled kasutavad selle tehnoloogia variatsiooni.) See pakub kõneväljundi üle suuremat kontrolli, kuid sellel on summutatud robotheli. Te ei tahaks, et see teile unejuttu loeks.

Püüdes luua uusi, väljendusrikkamaid ja loomulikuma kõlaga hääli, on Amazon, Google, Microsoft, Baidu ja teised suuremad kõneks muutmise valdkonna tegijad viimastel aastatel võtnud kasutusele mingisuguse 'neuraalse TTS-i'. NTTS-süsteemid kasutavad süvaõppelisi närvivõrke, mis on treenitud inimkõnele, et modelleerida heli lainekujusid nullist, teisendades dünaamiliselt mis tahes tekstisisendi sujuvaks kõneks. Närvisüsteemid on võimelised õppima mitte ainult hääldust, vaid ka rütmi-, stressi- ja intonatsioonimustreid, mida keeleteadlased nimetavad 'prosoodiaks'. Ja nad saavad suhteliselt lihtsalt valida uusi kõnestiile või vahetada kõneleja 'identiteeti'.

demokraatliku arutelu otseülekanne tasuta

Google Cloudi tekst kõneks muutmise API pakub praegu arendajatele rohkem kui 100 närvihäält araabia ja vietnami keeltes (pluss piirkondlikud dialektid) koos 'standardhäältega', mis kasutavad vanemat parameetrilist TTS-i ( kuula siit ). Microsofti Azure annab arendajatele juurdepääsu enam kui 330 närvihäälele enam kui 110 keeles ja dialektis koos erinevate kõnestiilidega – sealhulgas uudistesaade, klienditeenindus, karjumine, sosistamine, vihane, elevil, rõõmsameelne, kurb ja hirmunud ( proovi! ). Azure neuraalsed hääled on kasutusele võtnud ka ettevõtted, sealhulgas ATT, Duolingo ja Progressive. (Märtsis viis Microsoft lõpule Nuance'i omandamise, mis on vestluspõhise tehisintellekti liider ja Apple'i Siri loomise partner, mille vokaliseerimisteenus pakub rohkem kui 120 neuraalset vestlusbotti häält enam kui 50 keeles.) Amazoni Polly teksti kõneks muutmise API toetab ligikaudu kolm tosinat neuraalset häält 20 keeles ja dialektis, vestlusstiilis ja 'uudistekanalis' (kuulake varajane demo siin).

Vanaema hääle demo aluseks oleva tehnoloogia töötasid välja teadlased Amazoni teksti kõneks muutmise laboris Gdanskis, Poolas. Ühes teadusartiklis kirjeldavad arendajad oma uudset lähenemisviisi uue hääle kloonimiseks väga piiratud valimi põhjal – masinõppe kõnepruugis 'mõne pildiga' probleem. Põhimõtteliselt jagasid nad ülesande kaheks osaks. Esiteks teisendab süsteem teksti üldiseks kõneks, kasutades mudelit, mis on koolitatud 10 tundi teise kõneleja kõnet. Seejärel annab 'häälfilter' – mis on treenitud sihtkõneleja hääle üheminutilisele näidisele – uue kõlari identiteedi, muutes üldise hääle omadusi. kõlab nagu sihtkõlar. Uute häälte loomiseks on vaja väga vähe koolitusnäidiseid.

Selle asemel, et luua iga uue hääle jaoks uus tekst kõneks muutmise mudel, muudab see modulaarne lähenemisviis uue kõneleja identiteedi loomise protsessi arvutuslikult lihtsamaks ülesandeks muuta üks hääl teiseks. Objektiivsete ja subjektiivsete näitajate põhjal oli sel viisil genereeritud sünteetilise kõne kvaliteet võrreldav 30 korda suuremal hulgal andmetel treenitud mudelite kõnega. See tähendab, et see ei saa täielikult jäljendada konkreetse inimese kõnestiili. Meilis aadressile Kiire ettevõte Alexa teadlased selgitavad, et häälefilter muudab ainult kõneleva hääle tämbrit – selle põhiresonantsi. Hääle prosoodia – selle rütmid ja intonatsioon – pärinevad üldisest häälemudelist. Nii et see kõlaks nagu vanaema häälelugemine, kuid ilma omapärase viisita venitaks ta teatud sõnu välja või teeks teiste vahel pika pausi.

Amazon ei ütle, millal uued häälkloonimisvõimalused arendajatele ja avalikkusele kättesaadavaks saavad. E-kirjas kirjutab pressiesindaja: 'Alexa hääle isikupärastamine on meie klientide poolt väga ihaldatud funktsioon, kes saavad seda tehnoloogiat kasutada paljude meeldivate kogemuste loomiseks. Töötame selle nimel, et täiustada re:MARS-is demonstreeritavat fundamentaalteadust ja uurime kasutusjuhtumeid, mis rõõmustavad meie kliente koos vajalike kaitsepiiretega, et vältida võimalikku väärkasutust.

Võib ette kujutada võimalust kohandada midagi nagu Reading Sidekick – Alexa funktsioon, mis võimaldab lastel vaheldumisi koos Alexaga lugeda – armastatu häälega. Ja on lihtne mõista, kuidas 'Vanaema hääle' demo võib ette näha virtuaalse assistentide jaoks kohandatavamate kuulsuste häälte laiendatud koosseisu. Alexa praeguste kuulsuste häälte – Shaquille O’Neal, Melissa McCarthy ja Samuel L. Jackson – tootmiseks vajati umbes 60 tundi stuudiosalvestusi ja nende võimekus on mõnevõrra piiratud; ilmastikuga seotud küsimustele vastamine, naljade ja lugude rääkimine ning teatud küsimustele vastamine, kuid vaikimisi Alexa standardhääle kasutamine väljaspool süsteemi mugavustsooni päringute puhul.

17 inglinumbri tähendus

John Legendi ja Issa Rae Google Assistanti „kuulsuste häälekameed“ – mis võeti kasutusele 2018. ja 2019. aastal, kuid mida praegu ei toetata – ühendasid sarnaselt eelsalvestatud heli mõne WaveNeti tehnoloogiaga sünteesitud ekspromptreaktsiooniga. Võimalus arendada tugevamaid kuulsuste hääli, mis suudavad pärast lühikest salvestusseanssi ette lugeda mis tahes tekstisisendit, võib muuta mängu ja võib isegi aidata suurendada nutikate kõlarite müüki. (Uuringufirma Omdia andmetel langes USA nutikõlarite tarne eelmisel aastal 2020. aastaga võrreldes peaaegu 30%, sealhulgas Amazon Alexa nutikõlarite tarnete maht vähenes peaaegu 51%.)

Kuna Big Tech ettevõtted jätkavad investeerimist teksti kõneks muutmisse, on üks asi kindel: üha raskem on öelda, kas teie kuuldava hääle on teinud inimene või inimese loodud algoritm.