Cansu Kabasakal
P Değeri Hakkında 3 Yaygın Yanılgı
Yaşam bilimlerinde istatistik önemli bir alandır. Çalışmalarınızın gerçekten anlamlı olup olmadığını, sonuçlarınızın etkisini görebilmek için deneyleriniz sonucunda elde ettiğiniz verileri test etmeniz gerekir. Ayrıca, araştırma bulgularınızı iyi bir bilimsel dergide yayımlayabilmek için de buna ihtiyaç duyarsınız.
P değeri pek çok araştırmacı için kritik bir anlam taşımaktadır. Günlerce ve gecelerce sürdürülen deneylerden elde edilen verilerin irdelenmesinde, deney öncesinde varsayılan hipotezlerin
geçerliliğinin ortaya konmasında adeta bir kilit nokta olarak görünüyor ve kullanılıyor. p<0.05 değerini bulan araştırmacı, yaptığı işin beklediği gibi sonuçlanmasından memnun olup, hipotezlerini test edip, varsaydığı durumları ortaya çıkararak makalesini hazırlamaya koyulur. Ancak bu değeri bulamazsa, işte o zaman işler ters gider ve pek çok ek deney yapmaya ihtiyaç duyar. Ya da tüm çalışmasını baştan sonra tekrar tasarlamak ve tekrar geçekleştirmek durumunda kalır.
Ancak gerçekte aslında işler böyle değildir. p<0,05 değerini elde etmek güvenilir bir araştırma olduğunu gösterebilecek tek yeterli parametre değildir. Örneğin bir ilaç deneyi gerçekleştiriyorsunuz. Elinizdeki İlaç X ve hafıza testinde deney farelerinin performansını arttırıyor. Deney sonucunda ilaç X’i kullanan ve kullanmayan fareler arasında anlamlı p değeri elde ediyorsunuz. Ancak istatistiksel olarak anlamlılık ile biyolojik anlamlılık arasında farklar olduğu gibi p değerini elde ettiğiniz çalışmanın örneklem büyüklüğü de oldukça önemli bu
değerlendirme için. P değerinizin yanı sıra başka sorularında cevaplarına sahip olmanız gerekiyor ki çalışmanız gerçekten anlamlı olabilsin.
Bu diğer sorular :
- Bulgularınız gerçekten doğru etkiyi ortaya koyuyor mu? Çalışmanın güvenirliliği yüksek mi ?
- Çalışmanız sonucunda ortaya çıkan etki ne büyüklükte ?
- Aynı çalışmayı tekrarladığınızda anlamlı sonuç (p<0,05) elde etme olasılığınız nedir? Çalışmanın tekrarlanabilirliği var mıdır ?
- Elde edilen p değerine göre, tekrarlanacak deneylerin sonuçlarının tahmin edilebilirliği nedir?
Bunlar başta olmak üzere pek çok sebepten ötürü sadece p değerine göre bir çalışmanın değerlendirilmesi yeterli olmamaktadır. Ve p değeri altın standart olmamalıdır. Genel olarak p değeri hakkında doğru bilinen 3 gerçeğe bu yazıda değineceğiz.
1-) Yaygın görüş :“İlaç X ve plasebo ile birlikte yapılan farelerde hafıza testi sonucunda p<0,05 sonucuna ulaşılmış ise, null hipotezin doğru olma olasılığının %5’in altındadır ve %95 güven ile pozitif sonuçların doğru etkisi vardır.”
Gerçek : Raporlanan p değeri plasebo ve X ilacı uygulaması gruplarında bu değeri rastgele şans eseri olası olmama durumunu belirtir. Anlamlı sonuç ( p<0,05), kontrol hayvan grubundan
uçdeğer X1 bulunma şansının %5’ten az olduğunu belirtir.
Örneğin, İlaç X’in hafıza testindeki etkinliğin ölçüyoruz. İlaç X için ortaya çıkan ortalama 110 değerinin istatistiksel olarak plasebo kullanılan kontrol grubundaki 100 değerinden yüksek olduğunu bulduğumuzu varsayalım (p<0,05). Bu sonuç bize, plasebo alan kontrol grubu deneklerinin 110 değerine erişmesinin şans eseri olma olasılığının %5’ten az olduğunu söylemektedir. Yani p<0,05 olarak elde edilen anlamlılık, deneklerin X ilacını aldığında 110 değerini geçeceğine dair anlamlığı belirtmez. Böyle durumlarda İstatistiksel olarak anlamlılığın etkisini pozitif belirleyicilik değeri ile daha güvenilir hale getirmek gerekmektedir.
2-) Yaygın Görüş: “Anlamlı p değeri (p<0,05), tekrar deneylerinden de anlamlı sonuç elde edileceğiniz gösterir.”
Gerçek : Tek bir p değeri tekrarlanabilirlik hakkında tahmin yapabilmek için kesin bilgiler vermez ve tekrar deneyi için p değeri öngörmek için kullanılamaz. Elde edilmiş herhangi bir p değeri hesaplandıkları örneklem üzerinde geçerlidirler. Düşük güçteki testlerde özellikle p değerinin değişkenliği yüksektir. Genellikle az sayıda örnek içeren örneklemlerde istatistiksel olarak değeri düşüktür ve bu durum p değerinde tekrar çalışmalarında gözlemlenecektir. Yani birbirinden farklı p değerleri elde edilecektir.
Nature Methods’ta Halsey ve arkadaşları tarafından yapılan 1000 tekrarlı çalışmalarda p değerinin 0-0,6 aralığında değişebildiğini ortaya çıkardılar. %80 güvenilirlikle sonraki deneyinde anlamlı (p<0,05) çıkabilmesi için gerekli olan en az örneklemi ise (N) 64 olarak tespit ettiler. 64 örnek ile çalışmak kimi çalışma alanları için mümkün olsa da hayvan davranışı gibi daha spesifik alanlar için zor bir sayı olabiliyor. Ayrıca kimi çalışmalarda örnek başına yapılan harcamalar göz önüne alınınca ciddi bir maliyet ortaya çıkabiliyor. Ancak maliyet açısından incelediğimizde, daha az örnek ile istatistiksel gücü zayıf çalışmalar yapmak ve daha sonra bunları daha etkili hale getirmek için fazladan çalışma ve harcama yapmak daha verimli bir yol değil.
Ayrıca az örneklemle gerçekleştirilen ve istatistiksel olarak zayıf olan yayınların iyi bilimsel dergilerde basılması da sıkıntılı olmakta. Çünkü deneyin tekrarlanabilirliği hakkında soru işaretleri oluşmaktadır. Sonraki tekrar deneyinde bulunacak değerin tahmin edilmesinde p değerinden ziyade güven aralıkları daha önemlidir ve p değerine göre daha güvenilir sonuç verir.
3-) Çok küçük p değeri, daha büyük bir etkiyi işaret eder. (Mesela İlaç X’in hafıza testindeki etkisi p<0.01 ise daha fazladır.)
Gerçek : p değeri, test edilen şeyin etkisin olup olmadığını söyler. Ancak ne kadar bir etkinin söz konusu olduğu hakkında bilgi vermez. Yani test edilen ilaç X’in hafıza üzerinde etkisinin olup
olmadığına dair bilgi verir. Ancak Ne kadar etkisi olduğu p değerinin küçüklüğünden anlaşılmaz. p<0.001 dahi olsa bu etkisinin derinliği hakkında bilgi içermez. Etkinin derinliği için “etki büyüklüğü” parametresine bakmak gerekir.
Çalışmalarınızın tekrarlanabilirliği ve okuyucuya doğru bilgileri verebilmesi için sadece p değeri yeterli değildir. bunun yanı sıra etki büyüklüğü ve güven aralıklarını da incelemek gerekmektedir. Böylece çalışmanız hakkında daha doğru sonuçları yayınlayabilirsiniz . Ayrıca, bu değerleri de incelemek çalışmanızın yayınlanmasını da kolaylaştıracaktır.