https://frosthead.com

Како би вештачка интелигенција могла да изврши револуцију у истраживању архивског музеја

Када мислите на вештачку интелигенцију, поље ботанике вероватно није највише у вашем уму. Када сликате поставке за врхунска рачунарска истраживања, вековима стари музеји можда нису на врху листе. Па ипак, управо објављени чланак у часопису Биодиверсити Дата Јоурнал показује да се неке од најузбудљивијих и најупечатљивијих иновација у машинском учењу дешавају ни у једном другом него у Националном хербаријуму Националног природног музеја у Вашингтону, ДЦ

Овај рад, који показује да су дигиталне неуронске мреже способне разликовати две сличне породице биљака са тачношћу већом од 90 процената, подразумева све врсте могућности за испирање уста кроз које напредују научници и академици. Студија се ослања на софтвер заснован на алгоритмима „дубоког учења“, који рачунарским програмима омогућавају да прикупе искуство на готово исти начин као што то раде људски стручњаци, надограђујући своју игру сваки пут када се покрену. Убрзо, ова технологија могла би омогућити упоредне анализе милиона узорака из свих крајева света - предлог који би претходно захтевао неодрживу количину људског рада.

„Овај правац истраживања показује велико обећање“, каже професор Станфорда Марк Алгее-Хевитт, истакнути глас у дигиталном хуманистичком покрету и помоћник директора факултета у Универзитетском центру за просторне и текстуалне анализе. „Ове методе имају могућност да нам дају огромне количине информација о томе шта садрже колекције“, каже он, „и чинећи ове податке доступнима.“

Ова нова открића надолазе на годинама рада обављеног на Смитхсониан Институцији на систематском дигитализацији његових колекција за академски и јавни приступ интернету и представљају изузетан интердисциплинарни састанак умова: ботаничари, стручњаци за дигитализацију и научници података морали су да играју улогу у томе. резултати до светлости.

Прича почиње у октобру 2015. године, када је уградња апарата за камеру и транспортну траку испод Природњачког музеја увелико поједноставила напоре за дигитализацију Смитхсонианове ботаничке колекције. Уместо да ручно скенирају сваки пресовани цвет и гомилу траве у свом складишту, радници би сада могли да редом поставе читаве низ узорака, пусте каишу своју магију и да их пронађу и поново каталогизирају на крају репа. Трочлана посада надгледала је појас од свог дебија, а они пролазе кроз око 750 000 узорака сваке године. Пре дуго времена, Смитхсонианов попис хербаријума, јак пет милиона узорака, биће у потпуности на мрежи.

Сваки је узорак означен темељном идентификационом картицом која пружа информације о његовом поријеклу као и основне статистичке податке. Садржај ових картица преписан је и пренесен заједно са дигиталним сликама, пружајући свеобухватан преглед сваке ставке у колекцији за оне са склоношћу да крену у потрагу.

У Смитхсониановој дигитализованој ботаничкој архиви, узорци високе резолуције упарени су с транскрипцијама приручних ИД ознака које су на њих залепљене. У Смитхсониановој дигитализованој ботаничкој архиви, узорци високе резолуције упарени су с транскрипцијама приручних ИД ознака које су на њих залепљене. (Национални природни музеј)

„То чини нашу колекцију доступном свима који имају рачунар и интернетску везу, “ каже столица музејске ботанике Лауренце Дорр, „што је одлично за одговоре на одређена питања.“ Чак иако је тако, Дорр је открио да се не може ослободити осјећаја неискориштеног потенцијала . Свакако, огромна количина података о узорцима сада је била доступна мрежној заједници, али њихова анализа у збиру остала је фантастична. Потрага за појединим примјерцима и малим категоријама узорака била је довољно једноставна, али Дорр се питао постоји ли начин да се подаци искористе за извлачење закључака о хиљадама узорака. „Шта можете учинити са овим подацима?“, Сећа се питајући се. Човек по имену Адам Металло убрзо је дао убедљив одговор.

Металло, службеник из Смитхсониановог уреда за дигитализацију, присуствовао је конференцији на којој је технолошки гигант НВИДИА - драги ПЦ играчи свуда - представио графичке процесорске јединице нове генерације или ГПУ-ове. Металло је тамо тражио начине да унапреди Смитхсонианове 3Д дигиталне могућности приказивања, али у великој мери неповезани комад информација привукао је његову пажњу и остао са њим. Поред генерисања динамичних, висококвалитетних 3Д визуала, речено му је да НВИДИА-ини ГПУ-ови су добро прилагођени великој анализи података. Конкретно, побољшани ГПУ-ови били су управо оно што је било потребно за интензивно дигитално препознавање узорака; многи алгоритми машинског учења су оптимизовани за НВИДИА платформу.

Металло је одмах био заинтригиран. Ова технологија „дубоког учења“, већ коришћена у нишним секторима као што су развој аутомобила у самовози и медицинска радиологија, имала је велики потенцијал за свет музеја - што, како Металло истиче, представља „највећи и најстарији скуп података којима сада имамо приступ до."

„Шта то значи за велике скупове података које стварамо на Смитхсониан-у дигитализацијом?“ Металло је желео да зна. Његово питање савршено је одражавало питање Лауренцеа Дорра, а кад су се то двоје повезали, искре су почеле да лете. „Колекција ботанике била је једна од највећих колекција које смо недавно радили“, сећа се Металло. Предложила се сарадња.

Док многи облици машинског учења захтевају да истраживачи означе кључне математичке маркере у сликама које се анализирају - мукотрпан процес који представља држање за рачунар за руку - модерни алгоритми дубоког учења могу се научити које маркере треба тражити на послу, штедећи време и отварање врата за веће истраге. Ипак, писање Смитхсониан-овог специфичног програма дубоког учења и његово калибрирање за дискретна питања ботаничких истраживања било је замршен посао - Дорр и Металло су требали помоћ научника о подацима како би своју визију остварили.

Научници са подацима састављају узорке за обуку за неуронску мрежу током чега се Паул Франдсен сећа Научници са подацима састављају узорке за обуку за неуронску мрежу током чега се Паул Франдсен сећа "хладног јануарског дана". (Национални природни музеј)

Један од стручњака које су довели на брод био је Смитхсониан научник са података о истраживању Паул Франдсен, који је одмах препознао потенцијал у стварању неуронске мреже са НВИДИА ГПУ напајањем која ће се пренети у колекцију ботанике. За Франдсена је овај пројекат симболизирао кључни први корак низ прекрасан и неистражен пут. Убрзо, каже, „почет ћемо да тражимо морфолошке обрасце на глобалном нивоу и моћи ћемо да одговоримо на ова заиста велика питања која би традиционално трајала хиљаде или милионе људских сати прегледавајући литературу и разврставање ствари. Бићемо у могућности да користимо алгоритме који ће нам помоћи да пронађемо те обрасце и сазнамо више о свету. “

Управо објављени налази су изванредан доказ концепта. Генерирана од тима од девет чланова на челу са ботаником у истраживању Ерицом Сцхуеттпелзом и научницима података Паулом Франдсеном и Ребецца Диков, циљ студије је да одговори на два опсежна питања о машинском учењу и хербаријуму. Први је како ефикасна обучена неуронска мрежа може да сортира узорке обојене меркуром од незаштићених. Други, врхунац рада, је колико ефикасна таква мрежа може бити у разликовању чланова две површно сличне породице биљака - наиме, породице папрати савезника Лицоподиацеае и Селагинеллацеае .

Прво суђење је захтевало да тим унапред прође кроз хиљаде узорака, примећујући дефинитивно који су видно контаминирани живом (остатак застарјеле технике ботаничког очувања). Желели су да буду сигурни да су са 100-постотном сигурношћу знали да су обојени и који нису - у супротном, процена тачности програма не би била могућа. Тим је трешње покупио скоро 8.000 слика чистих узорака и још 8.000 обојених узорака за обуку и тестирање рачунара. Кад су завршили са подешавањем параметара неуронске мреже и повукли сву људску помоћ, алгоритам је с 90-постотном тачношћу категорисао узорке које никада раније није видео. Ако су најјаснији узорци - нпр. Они код којих је бојање било минимално и / или врло слабо - избачени, та бројка је порасла на 94 процента.

Овај резултат подразумева да би софтвер дубоког учења ускоро могао да помогне ботаничарима и другим научницима да избегну губљење времена на заморним задацима сортирања. "Проблем није у томе што човек не може утврдити да ли је узорак обојен живом или не", појашњава Металло, већ да је "тешко ручно решити и утврдити где загађење постоји", а није разумно урадите то са становишта управљања временом. На срећу, машинско учење може претворити велики временски понор у највише неколико дана брзе аутоматизоване анализе.

Преношење узорака један по један захтева много енергије и отежава доношење закључака великих размера. Аналитика великих података сада омогућава музејима нове начине да приступе својим колекцијама. Преношење узорака један по један захтева много енергије и отежава доношење закључака великих размера. Аналитика великих података сада омогућава музејима нове начине да приступе својим колекцијама. (Арнолд Арборетум)

Дио студије о дискриминацији врста је још узбудљивији. Истраживачи су обучили и тестирали неуронску мрежу са отприлике 9.300 узорака клупског дна и 9.100 узорака спикемоса. Као и код експеримента бојења, око 70 процената ових узорака коришћено је за почетну калибрацију, 20 процената је коришћено за прецизирање, а коначних 10 процената коришћено је за формално процењивање тачности. Једном када је код оптимизован, стопа успеха рачунара у разликовању две породице је била 96 процената - и скоро савршених 99 процената ако су изостављени најгори узорци.

Једног дана, Франдсен, спекулише да би овакви програми могли поднијети прелиминарну категоризацију узорака у музејима широм свијета. "Ни на који начин не мислим да ће ови алгоритми учинити било шта да замене кустосе", брзо примећује, "али уместо тога, мислим да они могу помоћи кустосима и људима који су укључени у систематику да буду продуктивнији, тако да могу много радити свој посао. брже."

Успех неуронске мреже у овом истраживању такође отвара пут брзом тестирању научних хипотеза кроз огромне колекције. Дорр у налазима тима види могућност спровођења опсежних морфолошких упоређивања дигитализованих узорака - поређења која могу довести до значајних научних пробоја.

То не значи да ће дубоко учење бити сребрни метак у истраживањима широм света. Марк Алгее-Хевитт са Станфорда истиче да је „готово немогуће реконструисати зашто и како неуронска мрежа доноси своје одлуке“ након што је она условљена; Одлуке које се препуштају рачунарским програмима увек би требало да буду компликоване и верификоване природе, ако се њима треба веровати.

„Очигледно је, “ каже Дорр, аутономни рачунарски програм „неће ићи на тестирање генетских односа, такве ствари“ - бар било када у блиској будућности. „Али можемо почети да учимо о подели карактеристика по географском региону или по таксономској јединици. А то ће бити заиста моћно. "

Више од свега, ово истраживање представља скочну тачку. Сада је јасно да технологија дубоког учења обећава научницима и другим академицима широм света, као и радозналој јавности за коју производе знање. Оно што остаје је строг праћење рада.

„Ово је мали корак“, каже Франдсен, „али то је корак који нам заиста говори да ове технике могу радити на дигитализованим музејским примерцима. Узбуђени смо што ћемо у наредних неколико месеци успоставити још неколико пројеката, како бисмо покушали још мало да тестирамо његове границе. “

Како би вештачка интелигенција могла да изврши револуцију у истраживању архивског музеја