Rabu, Desember 07, 2016

Nilai-p Dan Istilah-Istilah Terkait (Bagian 1: Nilai p)

Nilai p mungkin merupakan salah satu hasil analisis statistik yang  paling sering dilaporkan baik dalam laporan-laporan penelitian seperti skripsi, tesis dan disertasi atau artikel jurnal ilmiah. Popularitas nilai p ini sepertinya tidak diiringi oleh pemahaman yang benar mengenai makna nilai p dan kesimpulan yang dapat diambil darinya. Kesalahan pemahaman mengenai nilai p ini juga dialami oleh para pengajar statistik dan metode penelitian (baca di sini).  

Tulisan ini hendak memaparkan pemahaman mengenai nilai p dan beberapa istilah yang dekat dengannya. Pembahasan lebih detil mengenai nilai p  dan beberapa misinterpretasinya dapat dibaca dalam tulisan saya yang terbit di Jurnal Manasa dalam tautan sebelumnya. 


Nilai p

Secara ringkas nilai-p merupakan probabilitas memperoleh nilai statistik yang sama dengan atau lebih ekstrim daripada yang diperoleh dari sampel jika hipotesis nul benar. Nilai statistik yang dimaksud dalam kalimat di atas misalnya besarnya perbedaan mean, nilai koefisien korelasi, dll.  Pernyataan "sama dengan atau lebih ekstrim" dapat berarti "sama atau lebih besar", yaitu jika uji statistik ada di 'ekor kanan' (right tail) dari distribusi statistik, misalnya dalam distribusi normal standard ini ini berarti nilai Z positif. Pernyataan tersebut juga dapat berarti "sama atau lebih kecil" jika uji statistik ada di 'ekor kiri' (left tail) dari distribusi statistik (atau Z bernilai negatif dalam distribusi normal standard).

Bagian terakhir dari definisi nilai-p tersebut, "...jika hipotesis nul benar", merupakan bagian yang sangat penting dari definisi tersebut. Ini dikarenakan nilai p selalu dihasilkan dari distribusi statistik dengan 'syarat' atau kondisi hipotesis nul benar. Bagian ini menjadi penting karena dua hal: 

  1. Jika distribusi statistik yang diuji tidak sama dengan distribusi statistik ketika hipotesis nul benar, maka nilai-p yang diperoleh dari analisis akan keliru. Misalnya dalam kondisi heteroskedastik, nilai p yang diperoleh menggunakan uji-t (yang tidak dimodifikasi) akan cenderung terlalu kecil karena distribusi yang dihasilkan dari analisis perbedaan mean tersebut sebenarnya tidak mengikuti distribusi t. 
  2. Kita tidak dapat menggunakan nilai-p sebagai ukuran probabilitas hipotesis nul benar (berdasarkan data) dan tidak dapat juga menggunakan nilai (1 - p) sebagai ukuran probabilitas hipotesis penelitian kita benar (berdasarkan data). Hal ini dikarenakan nilai p sebenarnya merupakan probabilitas kondisional (conditional probability), dalam hal ini, kondisi yang disyaratkan adalah hipotesis nul benar. Probabilitas kondisional ini dapat diekspresikan sebagai berikut: 

Dalam persamaan tersebut T mewakili nilai statistik yang manapun (bisa korelasi, uji t, dll). ekspresi tersebut juga dapat diringkas 




Sementara probabilitas hipotesis nul benar berdasarkan data penelitian dinyatakan sebagai berikut: 


Dan pernyataan "probabilitas hipotesis penelitian / alternatif benar berdasarkan data " dapat dinyatakan sebagai berikut: 



Kita dapat melihat bahwa ekspresi probabilitas yang ketiga tidak sama dengan ekspresi probabilitas kedua dan keduanya dapat memiliki nilai yang berbeda juga. 

Dengan meminjam Teorema Bayes, kita dapat melihat keterkaitan antara keduanya: 





Teorema tersebut menunjukkan bahwa besarnya probabilitas hipotesis nul benar berdasarkan data penelitian, ditentukan oleh besarnya probabilitas hipotesis nul benar (tanpa pengetahuan mengenai data kita), nilai p dan probabilitas memperoleh data seperti yang kita miliki ketika hipotesis nul salah atau sering disebut sebagai power dari uji statistik. Hubungan antara nilai p dan probabilitas H0 benar berdasarkan data dapat dilihat sebagai berikut: 

Hubungan antara nilai p dengan probabilitas H0 benar berdasarkan data


Dalam gambar tersebut dapat kita lihat bahwa meskipun hubungan keduanya bersifat monotonik, namun demikian nilai keduanya dapat berbeda. Misalnya ketika analisis memiliki power sebesar 0.3, ketika nilai p sebesar 0.05, maka nilai P(H0 benar | D) mendekati 0.15. Bahkan ketika power sebesar 0.8 sekalipun, besarnya P(H0 benar |D) lebih besar daripada nilai p. Ini artinya besarnya nilai p tidak dapat diinterpretasi sebagai probabilitas H0 benar di populasi berdasarkan data yang kita miliki. 

Hubungan antara besarnya (1 - p) dengan probabilitas H0 salah (atau Ha benar) berdasarkan data dapat dilihat dalam gambar berikut: 



Dalam gambar di atas, kita dapat melihat bahwa besarnya nilai (1 - p) cenderung lebih besar daripada probabilitas H0 salah berdasarkan data. Misalnya dengan power dari analisis sebesar 0.3, ketika besarnya (1 - p) = 0.95, probabilitas H0 salah berdasarkan data hanya kurang lebih 0.85, dan menjadi 0.9 ketika analisis memiliki power sebesar 0.5. 

Jadi dapat kita lihat melalui ilustrasi tersebut bahwa nilai p tidak menunjukkan besarnya probabilitas H0 benar berdasarkan data penelitian kita, dan nilai (1 - p) tidak menunjukkan besarnya probabilitas H0 salah berdasarkan data. Nilai p hanya dapat dimaknai sebagai probabilitas memperoleh statistik seperti yang kita temukan dalam data kita atau lebih ekstrim, jika H0 benar di populasi. 









Selasa, Agustus 16, 2016

Kritis Membaca Riset (Berita tentang suatu Riset):”Religious Kids Are More Selfish Than Non-Religious Kids, Study Says” (bag 2).

Pada bagian 2 ini saya akan membahas sedikit seperti apa riset yang diacu oleh berita di atas.    Baiklah mari kita mulai dengan melalui 3 tahapan mengkritisi berita tentang hasil riset terlebih dulu: 

  1. Apakah ada penelitiannya? Ya. Berita itu didasarkan pada penelitian yang benar-benar ada dan dapat diakses serta dibaca. Terbit di jurnal Current Biology, tahun 2015, dengan no doi sebagai berikut:  http://dx.doi.org/10.1016/j.cub.201...  (DOI: digital object identifier). 
  2. Siapa penerbitnya dan apakah ini peer-reviewed journal? Jurnal ini diterbitkan pertama kali oleh kelompok Current Science pada tahun 1991, kemudian diambil alih oleh Elsevier di tahun 1998 dan menjadi bagian dari Cell Press sejak tahun 2001 (sumber: wikipedia, link:https://en.wikipedia.org/wiki/Curre...). Jurnal ini merupakan jurnal yang peer-reviewed. Impact factor-nya tergolong lumayan besar (9.571 di tahun 2014). Jadi bisa dibilang jurnal ini merupakan terbitan yang lumayan bergengsi. Apakah ini berarti kita bisa percaya sepenuhnya isi dari artikel ini? Tidak juga. Kita perlu baca isinya lebih detil. 
Nah saya sudah membacanya beberapa waktu lalu dan sempat mendiskusikannya dengan beberapa teman. Ada beberapa poin catatan yang saya peroleh dari bacaan ini:
  • Artikel ini masih in press, jadi yang dapat diakses baru bagian hasil penelitian dan diskusi dan kesimpulannya. Oleh karena itu cukup banyak hal yang belum jelas terkait dengan prosedur lengkap dalam penelitian ini. 
  • Metode yang digunakan semi-survey (meskipun dalam artikel dituliskan ada prosedur eksperimen. Namun demikian sebenarnya tidak ada manipulasi VI dan tidak ada random assignment). Rasanya memang tidak memungkinkan riset ini dijalankan dengan metode eksperimen. Oleh karena itu, seharusnya hubungan kausal antara variabel independen (VI) dan variabel dependen (VD) tidak dapat ditegakkan secara meyakinkan.  Namun demikian si penulis agak gegabah menggunakan kata affect atau bahkan influence yang mengindikasikan sebab-akibat. Meskipun tidak sepenuhnya salah, tetapi karena tidak adanya manipulasi VI, pembaca seharusnya diberi peringatan mengenai hal ini: validitas internal penelitian ini tidak terlalu meyakinkan.
  • Definisi dari VI yang menurut saya tidak konsisten: Variabel Independen dalam penelitian ini apakah religion atau religious rearing environment? Ketidak-konsisten-an ini bisa berdampak pada validitas pengukuran-> anak ditanya tentang ia dibesarkan dalam keluarga apa atau apa agamamu? Saya pribadi belum bisa melihat bahwa pembedaan ini akan berdampak besar terhadap hasil penelitian. Tapi ini satu hal yang perlu dicatat juga rasanya. Altruisme juga sepertinya diukur hanya dengan menggunakan perilaku berbagi , yang mungkin akan menimbulkan pertanyaan tentang validitas konstruknya. ‘Meanness’ (semacam sifat kejam) tidak terlalu gamblang dijelaskan pengukuran seperti apa yang dilakukan dan bagaimana skor diperoleh.
  • Peneliti melakukan beberapa analisis dalam penelitian ini. Mari kita lihat satu demi satu. Analisis yang pertama adalah uji-t sampel independen dari mean sharing (altruisme) antara mereka yang dibesarkan dalam lingkungan agama tertentu dengan yang ‘tidak beragama’. Hasil pengujiannya sangat signifikan dengan p lebih kecil dari 0.001. Namun demikian ada dua hal yang perlu dicatat: (1). Selisih mean antara yang religius (3.25) dan non-religius (4.11) sebesar 0.86. Dengan SD sebesar 2.46 (religius) dan 2.48 (non-religius), perbedaan mean sebesar itu dianggap masuk dalam kategori besaran efek yang kecil hingga medium (0.86/2.46=0.35, untuk kategori medium=0.4, kecil = 0.2). (2). Standard deviasinya cenderung besar untuk kedua kelompok. Ini menggambarkan tingkat variasi tergolong besar (Coefficient of Variation (CV)=2.46^2/3.25 = 1.86 untuk religius, jauh lebih besar dari .1 yang dianggap ‘wajar’). Ilustrasi dapat dilihat dalam gambar 1 (overlap antar dua kelompok cenderung besar). Dampak dari kondisi seperti ini (ukuran efek kecil dan besarnya SD) adalah masalah replikasi: pada penelitian replikasi bisa terjadi efek berbalik atau tidak ada efek.
  • Permasalahan lain terkait dengan uji-t ini adalah pengecekan apakah data memenuhi asumsi baik distribusi maupun homogenitas varian. Untuk asumsi kedua, sekilas sepertinya tidak ada masalah karena perbedaan SD yang tidak terlalu besar. Namun demikian informasi mengenai bentuk distribusi ini penting karena jika bentuk distribusi kedua kelompok berkebalikan, maka sangat mungkin hasil yang diperoleh ‘menipu’ (seharusnya tidak signifikan tapi terlaporkan signifikan).
  • Analisis berikutnya adalah regresi dengan model: Sharing = usia+negara asal+SES+religion identification (dummy coded). Sekali lagi religion identification memiliki koefisien yang signifikan (b=-.132 (standardized), p<.001). Dalam hal ini lagi-lagi tidak dicantumkan apakah ada pengecekan asumsi regresi. Ada sedikit masalah teknis dalam pelaporan penelitian ini: nilai b yang dilaporkan adalah standardized, disertai nilai p, padahal nilai b yang standardized belum ada cara untuk menguji-nya (sudah sih tapi belum populer). Nah tidak cukup jelas apakah memang peneliti menggunakan cara yang masih baru ini atau tidak. Jika tidak maka nilai yang dilaporkan keliru.
  • Selain itu, nilai r kuadrat untuk keseluruhan model = 0.184. Ini berarti kemampuan model yang diajukan untuk menjelaskan variasi dari sharing (mengapa anak satu share lebih banyak dari yang lain) tergolong kecil: hanya 18.4% variasi saja yang dapat dijelaskan. Ini berarti religion identification akan memiliki kemampuan yang lebih kecil lagi. Selain itu, dapat dilihat bahwa age memiliki b = 0.39 yang berarti lebih besar daripada religion identification. Ini berarti usia memiliki peran lebih besar dibandingkan identifikasi keagamaan untuk menjelaskan variasi sharing pada anak.
  • Analisis berikutnya adalah korelasi product moment antara altruism dengan frekuensi melakukan praktek religius (r=-0.161), spiritualitas dalam keluarga (r=-0.179), dan religiousness secara umum (r=-0.173). Ketiganya memperoleh nilai p < 0.001. Namun demikian, dapat dilihat juga bahwa angka korelasi antara ketiga variabel ini dengan altruisme tergolong kecil (|r|
  • Analisis berikutnya kurang lebih memiliki masalah yang sama dengan yang sebelumnya: pengecekan asumsi yang kurang dipaparkan apakah telah dilakukan dan effect size yang kecil.

Nah saya sudah membacanya beberapa waktu lalu dan sempat mendiskusikannya dengan beberapa teman. Ada beberapa poin catatan yang saya peroleh dari bacaan ini:
Jadi? Ada beberapa hal yang perlu diperjelas dalam artikel tersebut untuk membuat hasil penelitian ini menjadi lebih meyakinkan. Agak terlalu dini untuk menyatakan penelitian ini salah atau benar. Namun demikian, terlepas dari indecisiveness saya, kiranya ada sikap-sikap yang lebih bijak dalam menyikapi hasil riset ini. Saya pribadi menyukai salah satu komentar dari teman yang menyatakan bahwa kita perlu introspeksi juga terkait hasil ini. Jangan-jangan kita memang mengajarkan / mensosialisasikan agama dengan cara yang keliru sehingga mungkin saja anak-anak kita justru jadi kurang altruis (Terima kasih, Mas David Agus Widarto atas komentarnya).
That’s all guys! Butuh waktu lama untuk berpikir dan menulis segini banyak. Buat saya pribadi, ini berarti memang tidak mudah menyusun argumen yang kokoh yang didasarkan pada temuan ilmiah yang dapat dipertanggungjawabkan. Tapi tentunya mudah sekali bikin argumen yang diramu dengan cucoklogi plus imajinasi nan liar tanpa kaidah logika yang memadai. Semoga tulisan ini bisa membantu negara dalam rangka mencerdaskan kehidupan bangsa... Amin.

Kritis Membaca Riset (Berita tentang suatu Riset):”Religious Kids Are More Selfish Than Non-Religious Kids, Study Says” (bag 1).

Beberapa waktu lalu saya sempat upload link berita mengenai hasil riset di atas. Tujuan saya yang utama adalah ... iseng... mohon maaf ... Saya ingin melihat reaksi teman-teman ketika membaca berita tersebut. Sayangnya memang tidak banyak yang memberikan respon. Entah karena timing nya kurang pas atau memang tidak terlalu menarik atau terlalu ‘menantang’.  Keinginan atau keisengan ini muncul karena cukup sering saya membaca teman-teman share tentang berita mengenai suatu riset begitu saja tanpa mengkritisi-nya dengan baik, termasuk mengevaluasi apakah memang berita mengenai riset tersebut pantas dikonsumsi / dipercayai.  Dan komentar-komentar yang muncul biasanya juga ramai sekali, tetapi nyaris tidak satupun yang didasarkan pada hasil evaluasi memadai dari metode yang digunakan dalam riset itu sendiri. Yang biasa saya temukan, para ‘ahli’ ini berteori ini dan itu, berdebat ini dan itu tanpa pernah sekalipun membaca risetnya itu sendiri. Jadi yang diperdebatkan apa? eng.... tanya sama para ‘ahli’ itu saja ya... 

Nah, dari pengalaman tersebut dan pengalaman mengupload berita ini, saya ingin menyarankan, jika diperkenankan, apa yang sebaiknya dilakukan ketika membaca atau mendengar ‘berita tentang hasil riset mengatakan ...’. 

  • Tanyakan atau cari terlebih dulu artikel asli yang merupakan laporan riset tersebut. Kalau ada orang berkata riset ini menunjukkan ini dan itu, harusnya dia juga baca dong risetnya. Jadi tanya saja, mana risetnya? Apa judulnya? Terbit di mana? Bisa minta copynya nggak? Atau kalau terbit di berita seperti ini, gunakan google scholar untuk mencari artikelnya.
  • Kalau sudah diberikan artikel nya, coba cek dulu artikel ini yang nerbitin siapa atau lembaga apa? Apakah artikel ini terbit di jurnal yang proses publikasinya melalui peer review (artikel direview terlebih dulu oleh sejawat baik secara terbuka atau tertutup sebelum diputuskan untuk diterbitkan)? Mengapa ini penting? Karena review sejawat inilah yang menjadi salah satu kontrol baik isi maupun metode dari penelitian yang dijalankan. Meskipun tidak selalu artikel yang terbit di jurnal yang peer-reviewed pasti baik dan sebaliknya artikel yang terbit di jurnal yang tidak peer-reviewed pasti tidak baik. Namun demikian, dalam hal tingkat kepercayaan subjektif, jurnal dengan peer review memiliki tingkat ‘dapat dipercaya’ yang lebih tinggi daripada yang tanpa peer review.
  • Nah, kalau sudah dicek dan ternyata artikel ini terbit di jurnal yang peer-reviewed, lalu? Ya dibaca. Ada kecenderungan yang saya amati, kalau mahasiswa (akademisi juga mungkin ya? hehe...) membaca jurnal, biasanya baca introduction terus loncat ke discussion atau conclusion, melewatkan bagian paling nyebahi : metode penelitian (apalagi baca bagian analisis statistik... No Way!). Padahal bagian ini merupakan bagian yang sama penting (jika tidak bisa dibilang paling penting) dari suatu laporan penelitian. Bagian ini yang seringkali menjadi dasar untuk menentukan seberapa besar kita bisa mempercayai hasil penelitian. Tanpa membaca bagian ini, kita tidak akan mendapatkan informasi memadai untuk, misalnya, menilai validitas internal dan eksternal penelitian ini, menilai apakah kesimpulan hasil analisisnya dapat dipercaya, termasuk kekuatan dan keterbatasan penelitian ini. Informasi di bagian ini juga-lah yang dapat dijadikan dasar untuk menilai apakah kesimpulan hasil riset dapat dipertanggunjawabkan dan pada akhirnya apakah klaim yang dinyatakan dalam riset ini atau berita yang memuat riset ini dapat dipercaya sebagai ‘benar’.
Saya pikir tiga langkah itu merupakan langkah-langkah minimal yang seharusnya dilakukan sebelum mensharing-kan atau mengomentari suatu artikel hasil penelitian, apalagi hanya beritanya saja.
Karena judul notes nya seperti itu, nanti di bagian kedua akan saya bahas seperti apa riset yang diacu oleh berita yang pernah saya share dulu.