Величина ефекту

Дата публікації

September 1, 2022

Modified

November 17, 2022

Розібравшись із тим, як в R використовуються функції, ми можемо повернутися до розгляду того, що вібувається на етапі планування дослідження. Одним з важливих чинників кризи відтворюваності часто називають некоректну практику перевірки статистичних гіпотез, у зв’язку з чим західні дослідники неодноразово пропонували вжити ті чи інші заходи – включаючи навіть її повну заборону. Наведу приклад, який висвітлює лише невелику частку проблем, пов’язаних з перевіркою статистичних гіпотез. Припустимо, сто дослідників незалежно один від одного вирішили вивчити, як відрізняються за рівнем академічного інтелекту типові представники двох популяцій – успішних і неуспішних студентів. Нехай середнє значення для першої популяції насправді дорівнює 108 IQ-балів, для другої – 100 IQ-балів, а стандартне відхилення в обох складає 15 IQ-балів. Тобто, різниця середніх двох популяцій дорівнює приблизно половині стандартного відхилення шкали IQ. Зрозуміло, що провести суцільне обстеження популяцій нереально через брак часу і ресурсів, тому зазвичай дослідники вимушені мати справу з вибірками. Якщо випадковим чином обирати вибірки по 25 досліджуваних з кожної популяції (об’єм, який часто рекомендують наукові керівники своїм студентам), то приблизно у половині з ста досліджень різниця середніх на основі t-критерію Ст’юдента не буде визнана статистично значущою на рівні α = 0.05. Причиною такого результату є низька статистична потужність (power) критерію для такого плану дослідження. Потужністю називають ймовірність відкидання нульової гіпотези, коли вона є насправді (тобто, в популяції) невірною. Відомий американський методолог Джейкоб Коен ще у 1962 році провів вивчення статистичної потужності досліджень, опублікованих в журналі Journal of Abnormal and Social Psychology за рік, і показав, що вона дорівнювала 0.48 для тих результатів, що були отримані (Cohen, 1992). Аналогічні показники потужності спостерігалися й у більш сучасних виданнях. Таким чином, якщо об’єм вибірки не сприяв високій ймовірності знайти статистично значущі ефекти, а вони тим не менше були виявлені у дослідженні, тоді, скоріше за все, мали місце сумнівні дослідницькі практики (наприклад, p-hacking – полювання за статистично значущими результатами).

З іншого боку, якщо використовувати надзвичайно великі вибірки, з’являється інша проблема: статистично значущими стають фактично будь-які відмінності чи кореляції, незважаючи на відсутність практично значимих результатів. Це пояснюється тим, що нульова гіпотеза часто формулюється як нереалістичне твердження про те, що в популяції параметр (наприклад, коефіцієнт кореляції, різниця відсотків чи середніх) в точності дорівнює нулю. Оскільки в дійсності це завжди не так, то велика вибірка дозволяє прийняти альтернативну гіпотезу про те, що параметр відрізняється від нуля, хоча ця відмінність може бути цілком тривіальною. Отже, р-значення має поступитися місцем більш релевантним показникам, які дозволяють зробити висновок про величину знайденого в дослідженні ефекту.

Важливість робіт Дж. Коена для поведінкових наук полягає в тому, що він: 1) Створив систему показників величини ефекту для найбільш розповсюджених статистичних критеріїв; 2) Запропонував для кожного показника орієнтовні значення, які відповідають слабкому, посередньому і сильному ефекту; 3) Звернув увагу дослідників на необхідність враховувати потужність і величину ефекту при плануванні дослідження.

Найбільш детально підхід Дж. Коена викладено у другому виданні його відомої монографії, яка присвячена аналізу статистичної потужності (Cohen, 1988). В цьому т’юторіалі я спираюсь на його коротку статтю, в якій наводяться основні результати цієї монографії (Cohen, 1992), щоб продемонструвати роботу з найбільш поширеними в психології базовими статистичними методами для пошуку взаємозалежності двох змінних: 1) Порівняння середніх у двох незалежних сукупностях за допомогою t-критерію Ст’юдента, величина ефекту d Коена; 2) Порівняння середніх у декількох незалежних сукупностях за допомогою однофакторного дисперсійного аналізу, величина ефекту ω^2 (омега в квадраті) і f^2; 3) Характеристика сили і напряму лінійного зв’язку двох неперервних нормально розподілених змінних за допомогою коефіцієнту кореляції Пірсона r; 4) Вивчення сили і характеру зв’язку двох категоріальних змінних за допомогою таблиці сполучення, величина ефекту w Коена.

В Таб. 1 для кожного з згаданих показників наведено значення для слабкого, посереднього і сильного ефекту. Варто зазначити, що такий підхід часто критикують в сучасні літературі (Kline, 2019, с. 180), оскільки кожна з галузей психології може мати свої власні стандарти величини ефекту й вона не обов’язково свідчить про практичну значущість. Проте, така класифікація, на мою думку, є дуже важливою як дидактичний засіб для початківців. Наприклад, часто початківці вважають, що кореляції, менші за 0.5, не заслуговують на увагу, тому обирають такі інструменти і дизайн дослідження, які гарантують отримання сильних, але насправді малоінформативних кореляцій змінних.

Таблиця 1: Показники величини ефекту і їхні рівні
Показник Слабкий Посередній Сильний
\(d\) 0.20 0.50 0.80
\(\omega^2\) 0.01 0.06 0.14
\(f^2\) 0.02 0.15 0.35
\(r\) 0.10 0.30 0.50
\(w\) 0.10 0.30 0.50

Загалом емпіричні дослідження можна розділити на пошукові (експлораторні) і підтверджувальні (конфірматорні). Перші спрямовані на пошук потенційно важливих закономірностей, які можуть лягти в основу нової психологічної теорії. Другі передбачають перевірку і розвиток існуючої теорії. Дуже важливо не плутати ці різні жанри і не видавати пошукові дослідження за підтверджувальні.

Саме при проведенні підтверджувального дослідження важливим кроком є визначення необхідного об’єму вибірки, який забезпечить достатню статистичну потужність для виявлення очікуваної на основі теорії чи попередніх публікацій величини ефекту. В R пакеті pwr містяться функції, які дають можливість виконати обчислення об’єму вибірки за формулами, які запропонував Дж. Коен.