https://frosthead.com

Да ли статистички модел може прецизно предвидети бројеве олимпијских медаља?

Ако би вас неко замолио да предвидите број медаља које ће свака држава освојити на овогодишњим Олимпијским играма, вероватно бисте покушали да идентификујете фаворизоване спортисте у сваком догађају, а затим збројите очекиване победе сваке земље да постигну резултат.

Тим и Дан Граеттингер, браћа која стоје иза компаније за вађење података Дисцовери Цорпс, Инц., имају прилично другачији приступ. У потпуности игноришу спортисте.

Уместо тога, њихов модел за игре у Сочију гледа на географско подручје сваке земље, БДП по глави становника, укупну вредност извоза и ширину земље да би одредио колико ће медаља освојити свака земља. У случају да се питате, предвиђа да ће се САД извући на врх, с укупно 29 медаља.

Граеттингерс нису први који користе овакав приступ вођен подацима, одозго према доле, за предвиђање броја медаља. Даниел Јохнсон, професор економије са коледра у Колораду, изградио је сличне моделе за пет Олимпијских игара између 2000. и 2008. - постигавши укупно 94 посто тачности у предвиђању броја медаља сваке земље - али није створио модел за Сочи.

Дан и Тим су новији у игри. Дан - који обично ради на конвенционалнијим пројектима вађења података, на пример предвиђајући потенцијалне клијенте компаније - први се интересовао да користи моделе за предвиђање такмичења пре четири године, током зимских олимпијских игара у Ванцоуверу. "Користим податке о прошлости да предвидим будућност све време", каже он. "Сваке ноћи би на ТВ-у приказивали бројање медаља, а ја сам се почео питати можемо ли то предвидјети."

Иако наступи појединих спортиста могу непредвидиво варирати, закључио је, можда постоји свеобухватна веза између основних карактеристика државе (на пример, величине, климе и богатства) и броја медаља које би вероватно могла да донесе кући. Овакав приступ не би могао да каже који такмичар може да победи у одређеном догађају, али уз довољно података, могао би тачно да предвиди збирни број медаља за сваку земљу.

У почетку су заједно са братом радили на развоју прелиминарног модела игара у Лондону 2012. године. За почетак, прикупили су широк спектар различитих типова скупова података, о свему, од географије земље до њене историје, религије, богатства и политичке структуре. Затим су користили регресијску анализу и друге методе крчења података да би видели које су варијабле имале најближу повезаност са историјским подацима о олимпијским медаљама.

Открили су да је за летње игре модел који је укључивао бруто домаћи производ, становништво, земљописну ширину и укупну економску слободу (мерено индексом Херитаге Фоундатион) најбоље корелирао са бројем медаља сваке државе за претходне две летње Олимпијске игре (2004. и 2008). Али у том је тренутку њихов прелиминарни модел могао само предвидјети које ће државе освојити двије или више медаља, а не број медаља по држави.

Одлучили су да га побољшају за игре у Сочију, али нису се могли ослонити на свој претходни модел, јер се земље које су успешне зими толико разликују од летњих. Њихов нови модел Соцхи рјешава проблем предвиђања броја медаља у два корака. Пошто око 90 процената земаља никада није освојило ниједну медаљу на Зимским олимпијским играма (ниједан спортиста из Блиског Истока, Јужне Америке, Африке или Кариба), прво раздваја десет процената који ће вероватно освојити бар једну, а затим предвиђа колико сваки од њих ће победити.

"Неки трендови су поприлично онакви какве бисте очекивали - како становништво неке земље расте, постоји вероватнија да ће освојити медаљу", каже Тим. "Ипак, на крају, треба вам још моћнија статистичка машина која може проћи кроз мноштво варијабли и рангирати их у смислу којих су највише предвидљиви."

На крају су наишли на неколико променљивих које тачно раздвајају деведесет процената не-освајачких медаља од десет процената који ће вероватно победити: укључујући стопу миграције, број лекара по глави становника, географску ширину, бруто домаћи производ и да ли је земља имала освојио медаљу на претходним летњим играма (ниједна држава никада није освојила зимску медаљу без освајања претходног лета, делом и зато што је базен летњих победника толико већи од зимских). Вођењем овог модела на претходне две Зимске олимпијске игре, овај модел је утврдио који су народи кући донели медаљу са 96, 5% тачности.

Са 90 одсто елиминираних земаља Граеттингерс је користио сличне регресијске анализе како би створио модел који је ретроактивно предвидио колико медаља свака преостала земља освоји. Њихова анализа открила је да мало другачији списак променљивих најбоље одговара историјским подацима о медаљама. Ове варијабле, заједно са предвиђањима за игре у Сочију су у наставку:

Слика 4-предвиђена медаља Табела 2 - са обрубима.пнг Предвиђања модела за игре у Сочију (Графит љубазношћу Дисцовери Цорпс, Инц.)

Неке од варијабли за које се испоставило да су корелативне нису велики шок - има смисла да се земље веће географске ширине боље сналазе у догађајима током зимских игара - али неке су биле више изненађујуће.

"Мислили смо да ће бити важно становништво, а не копно", каже Дан. Нису сигурни због чега се географско подручје ближе уклапа у историјске податке, али то може бити зато што неколико земаља високог становништва које не освајају зимске медаље (попут Индије и Бразила) бацају те податке. Коришћењем површина земљишта, модел избегава огроман утицај тих земаља, али и даље задржава грубу повезаност са становништвом, јер у целини земље са већим површинама имају веће становништво.

Наравно, модел није савршен, чак ни у усклађивању историјских података. "Наш приступ је 30 000 стопа. Постоје варијабле које не можемо да објаснимо", каже Тим. Неке су државе више пута надмашиле предвиђања модела (укључујући Јужну Кореју, која побјеђује у несразмјерној количини клизачких стаза на кратким стазама), док друге досљедно имају слабије резултате (попут Велике Британије, која на љетним догађајима као да се чини далеко бољима, што би се и очекивало, можда зато што - упркос земљописној ширини - добија много више кише него снега.

Поред тога, доследна изнимка коју су пронашли у предвиђањима модела је да земља домаћин има више медаља него што би то иначе учинили, на основу једноставно података. И Италија (током игара у Торину 2006.) и Канада (током игара у Ванцоуверу 2010.) су надмашиле тај модел, а Канада је поставила рекорд свих времена у освајању 14 злата.

Ипак, на основу свог статистички ригорозног приступа, Граеттингерс су уверени да ће њихов модел у целини предвидјети крајњи број медаља са релативно високим степеном тачности.

На који се начин њихова предвиђања упоређују са стручњацима који користе конвенционалније стратегије? Стручњаци се не разликују драматично, али имају неколико традиционално успешних земаља (Норвешка, Канада, Русија) које освајају већи број медаља, заједно са неколико других (Кина, Холандија, Аустралија), а свака освоји неколико мање.

До данас, Граеттингерс нису изнели ниједну опкладу на своја предвиђања, али планирају упоређивати резултате свог модела са коефицијентима за клађење непосредно пре него што игре почну. Ако виде било која одступања која би желела да искористе, можда би новац ставили тамо где им је уста.

Да ли статистички модел може прецизно предвидети бројеве олимпијских медаља?