ВЕШТАЧКА ИНТЕЛИГЕНЦИЈА СТВАРА ЧОВЕКОВА ЛИЦА НА ОСНОВУ ЊИХОВОГ ГЛАСА

Нова неуронска мрежа коју су развили истраживачи са Масачусетског технолошког института способна је да изгради грубу апроксимацију појединца на основу исјечка њиховог говора, документ објављен у арКсив извештајима на серверу за штампање.

Тим је обучио алат за вештачку интелигенцију - алгоритам машинског учења програмиран да „размишља“ попут људског мозга - уз помоћ милиона интернетских клипова који су снимили више од 100.000 различитих звучника. Под називом "Спеецх2Фаце", неуронска мрежа је користила овај скуп података како би утврдила везу између вокалних знакова и специфичних црта лица; као што научници пишу у студији, старост, пол, облик нечијих уста, величина усана, структура костију, језик, нагласак, брзина и изговор, а све је то фактор механике говора.

Према Мелание Ехренкранз Гизмодо -а, Спеецх2Фаце користи асоцијације између изгледа и говора како би створио фотореалистично приказивање појединаца окренутих напријед, са неутралним изразима. Иако су ове слике превише генеричке да би се могле идентификовати као специфична особа, већина њих тачно прецизира пол, расу и старост говорника.

Занимљиво је да Јацкие Снов објашњава за Фаст Цомпани, да се ново истраживање не само темељи на претходним истраживањима у вези са предвиђањем старости и пола из говора, већ и указује на везу између гласа и „краниофацијалних карактеристика“, попут структуре носа.

Аутори додају: „То се постиже без претходних информација или постојања тачних класификатора за ове врсте финих геометријских карактеристика.“

Ипак, алгоритам има своје мане. Као што напомиње Минди Веисбергер из Ливе Сциенце -а, модел има проблема у анализирању језичних варијација. На пример, кад је пуштао аудио снимак азијског човека који говори кинески, Спеецх2Фаце је произвео лице тачне етничке припадности, али када је исти појединац снимљен како говори енглески, АИ је створио слику белца.

У другим су случајевима мушкарци високог раста, укључујући дјецу, погрешно идентифицирани као жене, откривајући родну пристраност модела у повезивању слабих гласова с мушкарцима и високих мушкараца са женама. С обзиром на чињеницу да су подаци о обуци у великој мери изведени из образовних видео записа објављених на ИоуТубе-у, истраживачи даље истичу да алгоритам „не представља подједнако целокупно светско становништво“.

Према Слате Јане Јане Ху, законитост коришћења ИоуТубе видеа за научно истраживање прилично је јасна. Такви се снимци сматрају јавно доступним информацијама; чак и ако корисник заштићује ауторска права на своје видео снимке, научници могу укључити материјале у своје експерименте под клаузулом о „фер употреби“.

Али етика ове праксе је мање једноставна. У разговору са Хуом, Ницк Сулливан, шеф криптографије у Цлоудфлареу, рекао је да је изненађен када је видео своју фотографију представљену у студији тима МИТ-а, јер никада није потписао одрицање или чуо директно од истраживача. Иако Сулливан каже Хуу да би било „лепо“ бити обавештен о његовом укључивању у базу података, он признаје да ће, с обзиром на величину чисте базе података, научници тешко допријети до свих приказаних.

У исто време, Сулливан закључује: „Будући да су моја слика и глас издвојени као пример у раду Спеецх2Фаце, пре него што су само коришћени као тачка података у статистичкој студији, било би пристојно да ме посети или питајте моју дозволу. "

Једна од потенцијалних апликација за Спеецх2Фаце у стварном свету користи модел да „прикључи репрезентативно лице“ на телефонске позиве на основу гласа говорника. Снов додаје да се технологија препознавања гласа већ користи на многим пољима - често без изричитог знања или пристанка појединаца. Прошле године Цхасе је покренуо програм „Воице ИД“ који учи да препозна клијенте кредитних картица које зову банку, док поправне институције широм земље граде базе података „гласовних отисака затворених особа“.