Kaks arvutiteadlast selgitavad, kuidas tuvastada süvavõltsitud heli

Teadlased kasutavad kunstlike petturite häälte tuvastamiseks voolavat dünaamikat.

  Kaks arvutiteadlast selgitavad, kuidas tuvastada süvavõltsitud heli
[Allikas fotod: töötlemata piksel ja Pexels ]

Kujutage ette järgmist stsenaariumi: telefon heliseb, kontoritöötaja vastab sellele ja kuuleb paanikas ülemust, kes ütleb talle, et ta unustas enne päevaks lahkumist uuele töövõtjale raha üle kanda ja vajab, et ta seda teeks. Ta annab talle pangaülekande andmed ja ülekantud rahaga on kriis ära hoitud.

Töötaja istub toolile tagasi, hingab sügavalt sisse ja vaatab, kuidas ülemus uksest sisse astub. Hääl kõne teises otsas ei olnud tema boss. Tegelikult polnud see isegi inimene. Hääl, mida ta kuulis, oli sügava võltsimise hääl, mis on masinaga loodud helinäidis, mis oli loodud kõlama täpselt nagu tema ülemus.

Sellised rünnakud salvestatud heli abil on juba toimunud , ja vestlusheli süvavõltsingud ei pruugi olla kaugel.



Nii heli kui ka video süvavõltsimised on olnud võimalikud ainult tänu keerukate masinõppetehnoloogiate väljatöötamisele viimastel aastatel. Deepfakes on toonud endaga kaasa uue taseme ebakindlus digitaalse meedia ümber . Süvavõltsingute tuvastamiseks on paljud teadlased analüüsinud visuaalseid esemeid – väikseid tõrkeid ja ebakõlasid –, mis leiti video sügavvõltsingud .

miks inimesed nike'i vihkavad

Heli süvavõltsingud kujutavad endast potentsiaalselt veelgi suuremat ohtu, sest inimesed suhtlevad sageli verbaalselt ilma videota – näiteks telefonikõnede, raadio ja helisalvestiste kaudu. Need ainult häälsuhtlused laiendavad oluliselt ründajate võimalusi kasutada süvavõltsinguid.

kuidas sul täna läheb

Heli süvavõltsingute tuvastamiseks meie ja meie kolleegid Florida ülikoolis on välja töötanud tehnika, mis mõõdab akustilisi ja vedeliku dünaamilisi erinevusi inimkõlarite orgaaniliselt loodud häälenäidiste ja arvutite sünteetiliselt loodud häälenäidiste vahel.

Orgaanilised vs sünteetilised hääled

Inimesed häälitsevad, surudes õhku üle hääleteede erinevatele struktuuridele, sealhulgas häälekurdidele, keelele ja huultele. Neid struktuure ümber korraldades muudate oma hääletrakti akustilisi omadusi, võimaldades teil luua üle 200 erineva heli või foneemi. Inimese anatoomia piirab aga põhimõtteliselt nende erinevate foneemide akustilist käitumist, mille tulemuseks on suhteliselt väike valik õigeid helisid igaühe jaoks.

Seevastu heli süvavõltsinguid luuakse, lubades esmalt arvutil kuulata sihitud ohvri kõneleja helisalvestisi. Olenevalt täpselt kasutatavast tehnikast arvuti võib tekkida vajadus kuulata vaid 10–20 sekundit heli . Seda heli kasutatakse põhiteabe saamiseks ohvri hääle ainulaadsete aspektide kohta.

Ründaja valib fraasi, mille sügavvõlts kõneleb, ja seejärel, kasutades muudetud teksti kõneks muutmise algoritmi, genereerib helinäidise, mis kõlab nagu ohver ütleb valitud fraasi. Selle ühe sügava võltsitud helinäidise loomise protsessi saab teostada mõne sekundiga, mis võib anda ründajatele piisavalt paindlikkust, et kasutada vestluses sügavvõltsitud häält.

Heli süvavõltsingute tuvastamine

Esimene samm inimeste toodetud kõne eristamisel sügavvõltsingute tekitatud kõnest on mõista, kuidas hääletrakti akustiliselt modelleerida. Õnneks on teadlastel tehnikaid, et hinnata, mida keegi – või mõni olend, näiteks a dinosaurus — kõlaks selle hääletrakti anatoomiliste mõõtmiste põhjal.

Meie tegime vastupidi. Paljude nende samade tehnikate ümberpööramisel suutsime kõnelõigu ajal saada kõneleja hääletrakti ligikaudse väärtuse. See võimaldas meil tõhusalt tutvuda helinäidise loonud kõneleja anatoomiaga.

Siit lähtudes oletasime, et süvavõltsitud helinäidiseid ei piira samad anatoomilised piirangud, mis inimestel on. Teisisõnu simuleeris sügavvõltsitud helinäidiste analüüs hääletrakti kujundeid, mida inimestel ei eksisteeri.

millal ma saan esitada oma 2020. aasta maksud?

Meie katsetulemused mitte ainult ei kinnitanud meie hüpoteesi, vaid näitasid ka midagi huvitavat. Hääletrakti hinnanguid sügavast võltshelist eraldades avastasime, et hinnangud olid sageli koomiliselt valed. Näiteks oli tavaline, et sügav võltsheli andis tulemuseks sama suhtelise läbimõõdu ja konsistentsiga vokaaltraktid kui joogikõrre, erinevalt inimeste häälekanalitest, mis on palju laiemad ja erineva kujuga.

mis on tume režiim Facebookis

See arusaam näitab, et sügav võltsheli, isegi kui see on inimestest kuulajaid veenev, pole kaugeltki eristamatu inimese loodud kõnest. Vaadeldava kõne loomise eest vastutava anatoomia hindamisel on võimalik kindlaks teha, kas heli tekitas inimene või arvuti.

Miks see oluline on

Tänapäeva maailma määrab meedia ja teabe digitaalne vahetus. Kõik uudistest meelelahutuseni ja vestlusteni lähedastega toimub tavaliselt digitaalse teabevahetuse kaudu. Isegi lapsekingades õõnestavad võltsitud video ja heli inimeste usaldust nende vahetuste vastu, piirates tõhusalt nende kasulikkust.

Kui digitaalmaailm peaks jääma inimeste elus oluliseks teabeallikaks, on tõhusad ja turvalised tehnikad helinäidise allika määramiseks üliolulised.


Logan Blue on Ph.D. Florida ülikooli arvuti- ja infoteaduse ning inseneriteaduse tudeng. Patrick Traynor on Florida ülikooli arvuti- ja infoteaduse ning inseneriteaduse professor.

See artikkel on uuesti avaldatud Vestlus Creative Commonsi litsentsi alusel. Loe originaalartikkel .