Вступ

Дата публікації

September 1, 2022

Modified

November 17, 2022

Перед українськими психологами в наш час стоїть дуже амбітна мета: якомога швидше інтегруватися в світову науку і публікувати результати своїх досліджень в міжнародних журналах, які індексуються наукометричними базами Scopus і Web of Science. Це дуже непросте завдання, зважаючи на суттєве відставання вітчизняної психології у використанні сучасних статистичних і психометричних методів через обмеженість доступу до відповідної літератури і програмного забезпечення. Ситуацію суттєво ускладнює те, що внаслідок так званої Кризи Довіри (Credibility Crisis) до результатів емпіричних психологічних досліджень, яка виникла перш за все внаслідок проблем з їхньою низькою відтворюваністю, наші західні колеги стоять перед необхідністю здійснити докорінну ревізію методологічних засад психологічної науки. Формально початок кризи відтворюваності датується 2011 роком, коли команда з 270 науковців в галузі психології здійснила спробу повторити результати 100 експериментальних і кореляційних досліджень, опублікованих у трьох провідних американських психологічних журналах. Результати виявилися дуже невтішними: 64% (а в соціальній психології 80%) знахідок оригінальних досліджень не вдалося відтворити, незважаючи на великий об’єм вибірок і декілька спроб. Більше того, величина ефектів виявилася вдвічі меншою від тих, які повідомлялися в оригінальних публікаціях (Open Science Collaboration, 2015).

Осмислення цих шокуючих знахідок привело вчених до висновків, що низька відтворюваність зумовлюється цілою низкою чинників: невисокою якістю психологічних вимірювальних інструментів, недостатньою увагою до питань адекватного планування досліджень, типовою практикою перевірки статистичних гіпотез і так званими «сумнівними дослідницькими практиками» (questionable research practices), до яких вдаються дослідники, щоб за будь-яку ціну отримати «статистично значущі результати». Типовим прикладом такого хибного підходу є розповсюджена в українській психології схема проведення емпіричного дослідження: на невеликій вибірці (30-60 досліджуваних) збираються дані за допомогою декількох десятків запитальників (часто дуже подібних за характером питань), обчислюються всі можливі кореляції між їхніми шкалами, а потім вибірково публікуються тільки статистично значущі зв’язки чи відмінності. При цьому автор може робити вигляд, що його концепція начебто ці зв’язки і відмінності передбачала до збирання даних. Такий дизайн дозволяє гарантовано отримувати статистично значущі кореляції в достатній кількості, навіть якщо змінні містять просто випадкові числа. Розповсюдженість подібних сумнівних дослідницьких практик дала можливість стверджувати, що «більшість опублікованих результатів досліджень є хибними» (Ioannidis, 2005).

Таким чином, для того, щоб дослідження українських психологів були конкурентоспроможними на світовому академічному ринку в сучасних умовах, ми маємо бути в курсі запропонованих заходів подолання кризи відтворюваності (Kline, 2013, 2019; Munafò et al., 2017):

  1. Приділяти належну увагу якості психологічного вимірювання. Для цього слід активніше користуватися останніми досягненнями в галузі сучасної психометричної теорії – моделюванням структурними рівняннями, багаторівневим моделюванням, теорією тестових завдань (Baker & Kim, 2017; Borsboom, 2006);

  2. Здійснити реформу практики застосування перевірки статистичних гіпотез в емпіричних дослідженнях і її викладання студентам: планувати об’єм вибірки з врахуванням потужності статистичних критеріїв і очікуваної величини ефекту, ширше використовувати довірчі інтервали (перш за все для величини ефекту) і графічні засоби для подання результатів (Cumming, 2011; Ellis, 2010);

  3. Враховувати сучасні вимоги до прозорого, повного і адекватного представлення процесу і результатів емпіричного дослідження в статтях і монографіях (Cooper, 2020; Publication Manual of the American Psychological Association, 2019);

  4. Спиратися на принципи Відкритої Науки (Open Science): забезпечувати вільний доступ до наукових статей і рецензій на них, вимірювальних інструментів, а також отриманих емпіричних даних і скриптів здійсненого дослідниками статистичного аналізу (Kline, 2019).

На заваді засвоєнню українськими науковцями сучасних вимог до проведення і публікації результатів кількісних емпіричних досліджень стає викладання статистичних методів і психометрики з використанням застарілого комерційного програмного забезпечення (наприклад, IBM SPSS Statistics). Відомий фахівець Ренд Уілкокс у своїй монографії з сучасних статистичних методів для соціальних і поведінкових наук пише: «SPSS є дуже негнучкий, коли справа доходить до застосування нових і покращених методів, які з’явилися протягом останніх 50 років. Оскільки SPSS не оновлює своє програмне забезпечення належним чином, цей пакет був виключений з розгляду, коли обиралися програми аналізу для цієї книги» (Wilcox, 2017, с. 3). І дійсно, практично до 27 версії в цьому пакеті були відсутня можливість обчислити величину ефектів при порівнянні середніх чи побудувати довірчі інтервали для коефіцієнтів кореляції. Окрім цього, мають місце і суто практичні проблеми: IBM SPSS Statistics вимагає для роботи значних ресурсів, через що студенти не можуть його запускати на своїх малопотужних комп’ютерах чи видаляють відразу після прослуховування курсу з аналізу даних для вивільнення місця на жорсткому диску, а коли надходить час скористатися пакетом при проведенні власних досліджень, мають проблеми з пошуком і інсталяцією піратських копій пакету (особливо під інші операційні системи, ніж Microsoft Windows).

Вирішенням вказаних вище проблем може стати впровадження у навчання і наукову роботу українських студентів, аспірантів і науковців мови програмування і середовища R. Мова R – це відкрите програмне забезпечення, яке дуже швидко розвивається завдяки зусиллям фахівців із статистики і численної армії аналітиків, містить найсучасніші статистичні методи і повністю відповідає потребам статистичної реформи в психології та принципам Відкритої Науки.

Огляд літератури

У зв’язку з значною вартістю комерційного програмного забезпечення статистичного аналізу даних і перевагам відкритого програмного забезпечення, викладання методологічних дисциплін в західних університетах поступово переорієнтовується на застосування мов програмування R, Python і Julia. Швидкими темпами збільшується кількість наукових публікацій в наукових психологічних журналах, які базуються на використанні R для проведення аналізу даних. Наприклад, в журналі Journal of Research in Personality (імпакт-фактор 2.767), в 2014 була опублікована лише одна така стаття, а у 2018-му і 2019-му – вже 10 і 8 відповідно. У 2015 році цілий спеціальний випуск цього журналу був присвячений використанню R в психології.

Саме завдяки R став дуже популярним особливий жанр журнальних публікацій – статті-т’юторіали, які на конкретних прикладах пояснюють використання як базових, так і просунутих сучасних статистичних методів. Ось лише декілька нещодавно опублікованих т’юторіалів: в статті (Costantini et al., 2015) читачам запропоновано ознайомитися на практичних прикладах з новітньою методологією використання мережевого аналізу в царині психології особистості. Стаття (Bürkner & Vuorre, 2019) присвячена застосуванню моделей порядкового регресійного аналізу в психології. Т’юторіал (Assink & Wibbelink, 2016) покроково знайомить психологів з тим, як за допомогою методів, реалізованих в R, здійснювати багаторівневий мета-аналіз. Сьогодні подібних публікацій у західних психологічних журналах нараховується вже десятки.

Особливої уваги вітчизняних фахівців заслуговує журнал відкритого доступу Collabra: Psychology (https://www.collabra.org) – офіційне видання наукового товариства Society for the Improvement of Psychological Science («Товариство з покращення психологічної науки»). В цьому журналі у відповідності принципам відкритої Науки статті мають містити як емпіричні дані проведеного авторами дослідження, так й скрипти їхнього статистичного аналізу (частіше за все на мові програмування R). Все частіше західні психологічні журнали вимагають наявності в статті розділу Data Availability Statement (заява про доступність даних) і посилання на сховище, в якому інші дослідники можуть знайти використані в дослідженні стимульний матеріал, таблиці даних, а також синтаксис трансформацій і аналітичних процедур (Greiff et al., 2020). На мою думку, подібні вимоги варто запровадити й у вітчизняних психологічних виданнях. Для зберігання такої інформації створюються численні сховища, де науковці можуть безплатно розмістити свої матеріали для публічного доступу. Одним з таких важливих ресурсів є Open Science Framework, який належить Центру Відкритої Науки (див. https://osf.io).

Публікації в журналі Collabra: Psychology можуть вважатися взірцем сучасного підходу до проведення психологічного дослідження, на яких можна вчитися тому, як слід використовувати R для збирання і обробки даних на всіх його етапах. Поступово мова і середовище програмування R стає також основою університетських підручників з аналізу даних для студентів в галузі соціальних і поведінкових наук. Наприклад, Енді Філд, автор одного з найбільш популярних підручників із статистичного аналізу даних за допомогою відомого пакету IBM SPSS Statistics, ще у 2012 році видав аналогічний підручник значного об’єму (992 сторінки!) для мови програмування R (Field et al., 2012). Ще раніше вийшов підручник з аналізу даних для психологів, в якому одночасно висвітлюються одночасно і R, і SPSS Statistics (Rasch et al., 2011). Більше того, навіть у дуже популярній серії посібників For Dummies («Для Чайників») з’явилося вже друге видання підручника з статистичного аналізу в R (Schmuller, 2017).

Зростає також кількість публікацій, доступних широкому колу вітчизняних дослідників. Російською мовою видано декілька перекладів популярних англомовних підручників з R (Кабаков, 2014; Мэтлофф, 2019; Уикем & Гроулмунд, 2016), а також оригінальні монографії авторів з РФ (Мастицкий & Шитиков, 2015; Шипунов et al., 2012). Українською мовою, наскільки мені відомо, поки існує тільки один підручник з R, розрахований на студентів механіко-математичного факультету спеціальностей «Статистика» і «Математика» (Майборода, 2019).

Постановка проблеми

Мова R дуже динамічно розвивається, тому переклади західних підручників швидко застарівають. Також для більшості вказаних вище джерел російською і українською мовами характерним є, з одного боку, надмірна кількість непотрібної для новачка інформації, а з іншого боку – брак важливих для психолога відомостей про статистичні методи, за допомогою яких пропонується подолання кризи відтворюваності. Початківцю ж часто потрібен швидкий шлях для вирішення того конкретного завдання аналізу емпіричних даних, яке перед ним постало у зв’язку з досягненням певної освітньої чи наукової мети. Отже, існує нагальна потреба відбору мінімальної кількості сучасних аналітичних інструментів, які можуть використовуватися студентами і аспірантами в галузі психології для обробки емпіричних даних у відповідності до сучасних вимог. Частково цю задачу вирішують статистичні програми, які надбудовуються над мовою R: jamovi (див. http://jamovi.org) та JASP (https://jasp-stats.org). Ці програми будуються на ретельно підібраному наборі статистичних методів і мають простий для взаємодії з користувачем графічний інтерфейс. Проте, вони поки що суттєво обмежені у функціональності і скоріше перешкоджають повноцінному оволодінню сучасним статистичним програмним забезпеченням. В цьому т’юторіалі я використав основну частину функцій саме з пакету jmv, який покладено в основу програми jamovi, доповнюючи її при необхідності функціями з інших пакетів.

Мета посібника – перш за все методична: познайомити українських дослідників з можливостями мови програмування і середовища R, навести базову інформацію, яка дозволить студентам і науковцям розпочати використання R в психологічних дослідженнях у відповідності до запропонованих західними методологами шляхів виходу з кризи відтворюваності. Підпорядкована мета – сприяти розповсюдженню знання принципів Відкритої Науки у вітчизняній науці.

Заява про доступність даних

У відповідності до принципів Відкритої Науки таблиця даних (див. https://osf.io/egs3d) і скрипт статистичного аналізу (див. https://osf.io/x3wfe) розміщено на сайті Open Science Framework, що дає можливість самостійно відтворити наведені в цьому посібнику результати.