Статистичний стандарт, за допомогою якого дослідники вже без малого сто років відокремлюють закономірність від випадку, викликає все більше питань.
Бізнес, маркетинг, реклама, освіта, медицина, фундаментальна наука - до якої б області не відносилося наукове дослідження, його результати інтерпретують одними і тими ж статистичними методами. Експеримент може виявитися вдалим або невдалим, гіпотеза може виявитися вірною або невірною, але ось в обсрахунку даних зазвичай ніхто не сумнівається. Можливо, даремно.
Нещодавно в Nature Human Behaviour вийшла незвичайна стаття, автори якої - цілих 72 наукових авторитети з усього світу і з різних наукових сфер, від нейробіології до економіки - пропонують переглянути статистичний стандарт, який ось уже близько століття панує в експериментальній науці. Мова йде про так зване P-значення.
Намагаючись виявити якусь раніше невідому закономірність, ми ставимо експеримент. Уявімо, що експеримент дав позитивну відповідь - тобто він каже нам, що закономірність дійсно є. Це може означати дві речі: перше - закономірність дійсно є, друге - закономірності насправді немає, те, що ми бачимо, лише випадковість, а з результатами нам просто пощастило.
Р-значення було створено якраз для того, щоб випадковість не могла зіграти з нами злий жарт. P-значення являє собою ймовірність помилки - ймовірність того, що ми побачили в наших результатах підтвердження закономірності, хоча на ділі вони вийшли випадковим чином. Стандарт P-значення був прийнятий ще в 1920-х, коли Рональд Фішер, видатний біолог і математик, якого іноді називають батьком біологічної статистики, запропонував вважати позитивні результати експерименту достовірними, якщо значення P < 0,05.Що
це означає? Наприклад, у нас є якісь результати, які можуть відбуватися із закономірних причин або з випадкових. Ймовірність того, що вони вийшли завдяки закономірності, становить 95%, а на випадковість тоді залишається 5%. Критерій P < 0,05 якраз означає, що якщо на випадковість залишилося 5%, то ми на неї можемо не звертати уваги - перед нами підтвердження закономірності.
На думку одного зі співавторів статті Джона Ліста (John List), економіста з Чиказького університету, якби Рональд Фішер знав, що через 100 років ми будемо рахувати результати з P < 0,05 за істину в останній інстанції, він би ще десять разів подумав, перш ніж пропонувати такий критерій. Проблема в тому, що дослідження, які використовують P < 0,05, часто виявляються невиробленими.
Ми знаємо, що відтворення - це коли результати, отримані в одній лабораторії, вдається повторити іншим дослідницьким групам. Хороша відтворюваність гарантує, що висновки дослідників дійсно були вірні і випадковості тут ні до чого. Але, наприклад, в області психологічних наук лише 24% результатів досліджень з P < 0,05 вдається відтворити - іншими словами, довіряти можна лише трьом дослідженням з чотирьох.
Для досліджень у галузі економіки відтворюваність трохи краща - 44%, але від ідеалу, м'яко кажучи, далеко. (Тут варто зауважити, що, говорячи про відтворення психологічних та економічних досліджень, необхідно враховувати, що відтворювати їх доводиться вже в іншому історичному часі. Суперечки немає, деякі психологічні та економічні закономірності змінюються з часом дуже слабо, але деякі, навпаки, найсильнішим чином залежать від злоби дня, тому, як кажуть багато психологів, невиробничість якихось минулих робіт може мати місце з цілком об'єктивних причин.)
Останнім часом стали говорити про те, що і серед біомедичних досліджень є цілий ряд невироблених, причому серед подібних робіт є такі, які описують нові препарати для лікування онкологічних захворювань.
Автори статті вважають, що кардинально поліпшити якість досліджень, зменшивши число ложноположительных результатів, можна дуже просто - потрібно всього лише знизити P-значення до 0,005. Як очікують автори, це поліпшить відтворюваність психологічних та економічних досліджень удвічі; відповідно, деяке «оздоровлення» відбудеться і в інших областях.
Щоправда, є небезпека, що з підвищенням порогу P-значення не тільки зменшиться кількість ложноположительных результатів, але і збільшитися кількість неправдивих - тобто цілком реальну закономірність стане дуже важко побачити, і доведеться витрачати багато ресурсів, щоб її все-таки довести. З іншого боку, зараз ті ж самі ресурси йдуть на продовження досліджень, які вийшли з ложноположних результатів і ведуть у глухий кут. З підвищенням P-порогу (з пониженням P-значення) помилкові напрямки досліджень будуть відсікатися, і зекономлені ресурси зможуть окупити більш суворі перевірки гіпотез.
Перегляд P-значення дійсно може мати сенс. Але, як визнають самі автори роботи, в науці у ложноположних результатів наукових досліджень є і багато інших причин: це і погане планування експериментів, це і помилки вимірювань, і мимовільна необ'єктивність експериментаторів (а іноді і «вільна» - аж до відвертої підтасовки даних); та й в самих статистичних методах є й інші проблеми, не пов'язані з P-значенням. Зрештою, є навіть така відверто «ненаукова» причина, як упереджена політика публікацій, коли журнали не друкують статті з негативними результатами, статті, в яких говориться, що якась гіпотеза НЕ підтвердилася - оскільки такі статті вважаються нецікавими.
Зрозуміло, дослідники, яким для грошей потрібні публікації, будуть намагатися публікувати «цікаві» результати, навіть якщо вони викликають питання з точки зору істинності.
Помилкові результати - не суто внутрішньонаукова проблема. Такі речі дискредитують науку в очах суспільства, у держави з'являються резонні питання щодо фінансування наукових установ, нарешті, помилкові результати можуть коштувати комусь здоров'я - якщо мова йде про щось медичне. Тому добре, що проблема останнім часом отримує все більше уваги.
Однак варто підкреслити, що, незважаючи на все вищесказане, достовірність результатів, отриманих в ході наукових досліджень, незмірно вища, ніж достовірність будь-які відомостей, автори яких нехтували науковим методом. Зрештою, щоб оцінити силу наукового методу, достатньо просто подивитися обабіч.