Године 2008, Гоогле је објавио интригантну нову услугу под називом Гоогле Флу Трендс. Инжењери из компаније приметили су да неки упити у претраживању (попут оних који укључују речи "грозница" или кашаљ) изгледају као да потичу сваку сезону грипа. Њихова идеја била је да користе учесталост ових претрага за израчунавање стопе грипа широм земље брже него што је то могло бити ради са конвенционалним подацима (за које је обично потребно неколико недеља да се прикупе и анализирају), што људима даје до знања када треба предузети додатне мере предострожности како не би добили вирус.
Сличан садржај
- Како временски модели и Гоогле могу помоћи у прогнози сезоне грипа
- Велики подаци или превише информација?
Медији (укључујући овог извештаја) пожурио је да честита Гооглеу на тако проницљивој, иновативној и разорној употреби великих података. Једини проблем? Гоогле Раширеност грипа није била веома добра.
Служба је непрестано прецењивала стопе грипа, у поређењу са конвенционалним подацима које је ЦДЦ прикупио након тога, процењујући да је стопа грипа већа него што је у ствари била за 100 од 108 недеља у периоду од августа 2011. до септембра 2013. године. стопе грипа су достигле врхунац, али процене Гоогле грипског тренда биле су двоструко веће од стварних података, његова нетачност је коначно започела са прикупљањем новина.
Најчешће објашњење неподударности било је то што Гоогле није узео у обзир потешкоће у упитима везаним за грип који се јављају као резултат хистерије грипе која се води сваке зиме. Али ове недеље у науци група друштвених научника на челу са Давидом Лазером предлаже алтернативно објашњење: за то су криви Гоогле-ови сопствени коректори у алгоритму претраге.
За странце је тешко анализирати Гоогле тенденцију грипа, јер компанија не објављује специфичне појмове за претраживање које користи као сирове податке, нити одређени алгоритам који користи за претварање учесталости ових појмова у процене грипа. Али истраживачи су дали све од себе да закључе појмове користећи Гоогле Цоррелате, услугу која вам омогућава да сагледате стопе одређених појмова за претраживање током времена.
Када су истраживачи то урадили за различите упите у вези са грипом током претходних неколико година, открили су да је неколико кључних претрага (оних за лечење грипа и оних које питају како разликовати грип од прехладе) помније пратио Гоогле Глу. Процене трендова него са стварним стопама грипа, посебно када је Гоогле преценио преваленцију те болести. Чини се да би ове конкретне претраге могле представљати велики део проблема са нетачношћу.
Постоји још један добар разлог да сумњамо да би то могао бити случај. У 2011. години, као део једног од редовних подешавања алгоритма претраживања, Гоогле је почео да препоручује сродне појмове за претрагу за многе упите (укључујући навођење претраге за лечење грипа након што је неко од Гоогла преузео више термина који се односе на грип) а 2012. године компанија је почела да пружа потенцијалне дијагнозе као одговор на симптоме у претрагама (укључујући навођење и „грипа“ и „прехладе“ након претраге која је, на пример, укључивала фразу „грлобоља“, можда подстакла корисника да тражи како разликовати то двоје). Ови претреси, тврде истраживачи, вероватно су вештачки повисили стопе претрага које су идентификовали као одговорне за Гооглеове прецењене.
Наравно, ако је ова хипотеза тачна, то не би значило да је Гоогле Грипс тренд неизбежно осуђен на нетачност, већ да је треба ажурирати како би узео у обзир сталне промене претраживача. Али Лазер и остали слични стручњаци тврде да је праћење грипа из великих података посебно тежак проблем.
Огроман проценат термина за претрагу који су у корелацији са подацима ЦДЦ-а о стопи грипа, испада да не узрокују људи који добијају грип, већ трећи фактор који утиче на обрасце претраживања и пренос грипа: зима. У ствари, програмери Гоогле тренда грипа саопштили су да се сусрећу са одређеним терминима - онима који се односе на пример у средњошколској кошарци - који су у току времена били у корелацији са стопама грипа, али очигледно нису имали никакве везе са вирусом.
Временом, Гоогле-ови инжињери ручно су уклонили многе појмове који су у корелацији са претрагом грипа, али немају никакве везе са грипом, али њихов модел је очигледно био превише зависан од сезонских трендова претраживања грипа - део разлога због којег трендови Гоогле грипа нису успели да одразе Епидемија Х1Н1 из 2009. године, која се догодила током лета. Гоогле Рандови грипа, посебно у својим ранијим верзијама, били су „делимични детектор грипа, делом зими детектор“, пишу аутори научног рада.
Али све ово може бити поука за употребу великих података у пројектима као што је Гоогле Флу Трендс, а не покривање покривача, кажу истраживачи. Ако се исправно ажурира како би се узели у обзир прилагођавања Гоогле-овом сопственом алгоритму и строго анализирали ради уклањања чисто сезонских фактора, могло би бити корисно у документовању стопе грипа широм земље - посебно у комбинацији са конвенционалним подацима.
Као тест, истраживачи су створили модел који је комбиновао податке Гоогле Флу Трендс (који су у основи у реалном времену, али потенцијално нетачни) са двонедељним ЦДЦ подацима (који су датирани, јер треба времена за прикупљање, али још увек могу да буду донекле индикативно за тренутне стопе грипа). Њихов хибрид је ускладио са стварним и тренутним подацима о грипу много ближе него сам Гоогле Глу Трендс и представио начин на који се те информације добијају много брже него чекање две недеље на конвенционалне податке.
"Наша анализа Гоогле Флу показује да најбољи резултати потичу из комбиновања информација и техника из оба извора", рекао је у изјави за штампу професор РОЛ Кеннеди, професор политологије са Универзитета у Хоустону. "Уместо да причамо о" револуцији великих података ", требало би да разговарамо о" револуцији свих података "."