У цій статті ми розглянемо досить простий, але при цьому дуже інформативний метод дослідження загальної структури багатовимірних даних, пошуку аномальних значень та окреслення загальних трендів. Це метод діаграм розсіювання (кореляційних діаграм). Значна наочність цього методу обумовлена відображенням у двовимірному просторі кожної точки досліджуваної вибірки. При такому підході дуже легко візуально виділити окремі скупчення точок (хмари, кластери), які характеризуються схожими параметрами. Ми застосуємо цей метод для дослідження результатів голосування на позачергових виборах Президента України.
Для аналізу та побудови графічних додатків нами використано можливості програмного середовища R. Дані, як і для попередніх досліджень, отримано з сайту Центральної виборчої комісії України. До первинної вибірки узято лише дільниці, що знаходяться в Україні. Дільниці закордонного виборчого округу погано вписуються в структуру даних при відображенні, оскільки значно перевищують "українські" дільниці за кількістю виборців.
При візуалізації діаграм розсіювання нами використане не відображення окремих точок на площині, а відображення щільності точок. Такий підхід обумовлений значною кількістю даних, які при класичному підході будуть перекривати один одного і зливатися в єдине поле. Для відображення щільності від меншої до більшої нами використано палітру таких кольорів: темно зелений, зелений, синій, пурпурний, червоний, жовтий. Також на діаграмах відображено 500 перших точок, які знаходяться у зоні з мінімальною щільністю.
Перше, що ми візуалізували - це співвідношення між кількістю виборців, зареєстрованих на виборчих дільницях, та кількістю голосів, відданих за Петра Порошенка:
На діаграмі чітко фіксуються лінії скупчення точок, які вказують на два окремі тренди в голосуванні. Перше, що припадає на думку - це поділ на східну та західну Україну. Але показово те, що обидва тренди вказують на чітку підтримку Петра Порошенка виборцями - зі зростанням розмірів виборчих дільниць зростає і кількість голосів за цього кандидата. Дві чітко простежувані хмари, розташовані в зоні "великих" виборчих дільниць - характеризують великі міста східної та центрально-західної України. Тут ми також спостерігаємо зростаючу підтримку і на сході і, особливо, на заході.
Наступний графік візуалізує взаємозалежність між активністю виборців (графа таблиць "взяли участь") та кількістю голосів за Петра Порошенка:
На цьому графіку також спостерігається чітка підтримка виборцями. Щоправда, для певної частини дільниць спостерігається "затухання" явки виборців, але все-одно спостерігається висока підтримка.
Для Юлії Тимошенко все виглядає зовсім інакше:
Можна прослідити лише дуже слабку тенденцію до зростання кількості голосів відповідно до розміру виборчої дільниці. Окремі викиди, які вказують на "збільшення на один голос при збільшенні розміру на одного виборця" (точки, які розташовані на лінії під кутом 45 градусів) - характеризують виборчі дільниці із аномально високою підтримкою Ю. Тимошенко. Про ці дільниці ми писали у попередніх статтях.
Результати голосування для Юлії Тимошенко виглядають таким чином:
Для порівняння із попередніми кандидатами ми також побудували діаграми розсіювання за результатами голосування за Олега Ляшка:
Як видно з графіків, електоральна підтримка Олега Ляшка не така чітко виражена і не така потужна, як у Петра Порошенка. Але при цьому діаграма розсіювання "голоси-участь виборців" більш "аморфна" ніж у Юлії Тимошенко: на ній не спостерігається викидів, відокремлених скупчень із аномальними значеннями та інших артефактів.