sekedar pet crepet

Entries categorized as ‘statistika’

Derajat Bebas

November 27, 2008 · 10 Comments

Tampaknya suatu kebetulan, kalau minggu ini ada tiga orang yang ngajak diskusi tentang derajat bebas (degree of freedom).  Dan tiga-tiga-nya lewat jalur berbeda, dengan tiga profesi berbeda.  Satu orang mahasiswa yang tiba-tiba nongol lewat YM di pagi buta.  Satu orang calon pegawai negeri yang muncul di komentar salah satu notes (mantan mahasiswiku).  Satu lagi lewat email oleh mantan pembaca berita di salah satu televisi yang sekarang katanya udah jadi konsultan.

Saya salin dan edit dikit jawaban yang saya berikan kepada orang terakhir.

——————

Halo juga Pak *****… wah hari ini saya ngobrol sama dua konsultan ini.  Betapa beruntungnya saya.  Hehe.  Otak jadi ikut senam kalau ngobrol sama teman2 konsultan.
 
Kapan2 saya harus belajar ilmu-nya sampeyan Pak.
 
Saya ada di tingkat empat waktu itu, ketika makan siang bareng salah seorang konsultan juga, beliau bertanya persis dengan Pak *****.  Eh, tau gak sih gimana njelasin derajat bebas (I prefer this words, rather than ‘derajat kebebasan’).  Beliau nanya gitu gara-gara ada salah satu teman beliau yang sekarang jadi direktur salah satu perusahaan marketing research, baru balik dari Amerika, kemudian mengatakan bahwa “gak percuma saya jauh2 ke amerika, karena saya akhirnya tau apa itu derajat bebas”.
 
Saya bilang ke si konsultan teman makan siang tadi.  Give me one-or-two days, and I will answer your question.
 
Besok paginya saya kabur ke perpustakaan.  Untuk mencari jawaban apa itu derajat bebas sehingga saya bisa dengan mudah menjelaskan.  Setelah buka2 buku (waktu itu saya masih internet illiterate hahaha), saya coba sarikan penjelasannya seperti ini.
 
Andaikan Pak ***** punya tiga mangkok dan satu koin.  Mangkoknya taruh di meja dengan posisi telungkup.  Then, masukkan koin ke salah satu mangkok dan acak2 deh posisinya.  None knows which bowl containing the coin. 
 
Bagaimana saya tau di mangkok mana ada koinnya?  Gampang.  Buka aja mangkoknya.  Tapi tunggu dulu.  Apa perlu kita buka tiga-tiganya?
 
No.  Cukup dua saja, maka kita tahu dimana koinnya.
 
We can say that, informasi pada mangkok ketiga tidak bebas.  Kalau dua mangkok yang kita buka, gak ada koinnya.  Maka kita tahu PASTI kondisi mangkok ketiga.
 
Demikian juga kalau dari salah satu mangkok yang kita buka ada koinnya, kita juga tahu dengan PASTI bahwa di mangkok ketiga gak ada koin.
 
In this situation, derajat bebasnya adalah dua.
 
Bagaimana dengan di data?  Gampangnya gini.  Kalau Pak ***** punya tiga data, sebutlah X1, X2, dan X3.  Kemudian pak ***** tahu rata-ratanya, misal nilainya 100.  Maka nilai X1, X2, dan X3 yang bebas cuma dua.  Kalau X1 = 150, X2 = 50, maka X3 udah gak bebas lagi.
Itu kenapa pada beberapa analisis yang hanya bicara menduga satu parameter, derajat bebasnya adalah (n-1).
 
Kalau kita punya lebih dari satu statistik, misal di regresi kita punya b0 dan b1, maka derajat bebas error-nya jadi (n-2), karena akan ada sebanyak (n-2) data yang bebas, sedangkan 2 data lain bisa kita dapatkan kalau kita tau nilai dari (n-2) data.

Categories: statistika
Tagged:

Perbedaan Hasil Quick Count dan Perhitungan KPU Pilgub Jawa Timur: Perlukah masuk MURI?

November 17, 2008 · 1 Comment

Tulisan ini diilhami oleh berita yang saya baca di salah satu situs berita yang menyebutkan pendapat atau sindiran salah satu petinggi partai untuk memberikan penghargaan MURI atas melesetnya dugaan tiga buah hasil quick count lembaga survey terhadap hasil Pemilihan Gubernur Jawa Timur yang diumumkan kemarin (11 Nov 2008).  Hitung cepat atau quick count yang umumnya mampu dengan tepat menduga pemenang Pilkada, kali ini tidak terjadi.  Lebih-lebih, tiga lembaga survei yang menyatakan independen gagal memberikan urutan yang tepat.  Meskipun secara tegas mereka tidak menyebutkan siapa yang diduga menjadi pemenang karena selisih yang tipis, tapi tetap ada pertanyaan kenapa tiga-tiganya gagal.

 

Bagi saya pribadi, MURI sebaiknya diberikan kepada individu, kelompok atau organisasi tertentu yang yang memiliki prestasi luar biasa.  Pengertian luar biasa adalah sesuatu yang tidak mudah dilakukan atau sesuatu yang tidak mudah terjadi.  Dalam bahasa matematika dan statistika, luar biasa adalah sesuatu yang peluang terjadinya kecil.

 

Dengan demikian, untuk melihat apakah kejadian melesetnya hasil dari tiga lembaga survei seyogyanya mendapatkan MURI, bisa kita cermati dari peluang kejadiannya.  Jika peluang meleset besar, MURI belum pantas mengeluarkan penghargaan untuk hal ini.

 

Komisi Pemilihan Umum (KPU) Jawa Timur sudah mengumumkan bahwa pada hasil akhir Pemilihan Gubernur Jawa Timur adalah KAJI (Khofifah-Mudjiono)  49.80% dan KARSA (Soekarwo-Saifullah Yusuf)  50.20%.

 

Sementara dari penghitungan cepat yang dilakukan Lembaga Survei Indonesia (LSI), pasangan
KAJI memperoleh suara sebanyak 50.44% persen, dan KARSA mendapat 49.56%.  Lingkaran Survei Indonesia  melaporkan bahwa dari 400 TPS di seluruh Jatim, KAJI meraup 50.% dan KARSA meraih 49.24% persen.  Sedangkan Lembaga Survei Nasional (LSN) menyatakan pasangan KAJI memperoleh 50.71% persen, dan KARSA memperoleh 49.29%.  Ketiganya menempatkan pasangan KAJI sedikit lebih unggul dibandingkan pasangan KARSA.

 

Menganggap bahwa hitungan KPU sebagai suatu kebenaran, kita dapat menghitung berapa peluang suatu proses hitung cepat memberikan hasil yang berbeda.  Beberapa asumsi yang saya gunakan untuk menghitung adalah yang pertama bahwa setiap TPS melayani 350 pemilih.  Dengan dugaan partisipasi sebesar 53.5% (www.lsi.co.id) maka jumlah suara per TPS adalah 187 suara.  Juga diasumsikan jumlah TPS tersurvei dalam hitung cepat sebanyak 400 unit, sehingga jumlah suara total dalam hitung cepat adalah 74800 suara.  Tentu saja ada tambahan asumsi statistik yaitu bahwa pilihan antar pemilih saling bebas.

 

Berdasarkan asumsi di atas maka peluang suatu hasil hitung cepat memenangkan KAJI dapat dihitung menggunakan konsep distribusi binomial dengan parameter n=74800  p=50.20% (proporsi suara KARSA hasil perhitungan KPU).  Secara matematis dapat dikatakan bahwa peluang pasangan KAJI menang, sama dengan peluang suara pasangan KARSA kurang dari 50% suara atau 37400 suara dalam hitung cepat.

 

Hitungan di atas menghasilkan angka 0.138 atau 13.8%.   Artinya, dengan sampel sebanyak 400 TPS, besarnya kemungkinan suatu hitung cepat memenangkan KAJI adalah 13.8%.  Angka itu merupakan besarnya kemungkinan hitung cepat salah dalam menduga pemenang Pilgub Jatim.  Sehingga saya berpendapat bahwa dalam kasus ini, kemungkinan terjadinya melesetnya hasil dugaan oleh suatu lembaga survei dalam kasus di Jatim memang besar.

 

Tetapi bagaimana jika ada tiga lembaga meleset semua?  Dengan mengasumsikan bahwa ketiganya melakukan secara independen, peluang meleset secara bersamaan adalah 0.138 pangkat 3, atau sebesar 0.26%.  Kejadian tiga lembaga meleset secara bersamaan terjadi 2-3 kali dalam 1000 pilkada.  Kalau saya yang punya MURI, belum waktunya penghargaan itu keluar.  Ini masih belum terlalu luar biasa. (bagus sartono — departemen statistika IPB)

Categories: data and facts · statistika
Tagged:

pengiriman kode

November 1, 2008 · Leave a Comment

 

Nyoba-nyoba nulis tentang pengiriman kode, selengkapnya di http://www.geocities.com/bagusco4/coding.pdf

Categories: statistika
Tagged: , ,

Sadel (lanjutan)

October 29, 2008 · Leave a Comment

 

 

data sadel;

do x = -1 to 1 by 0.1;

 do y = -1 to 1 by 0.1;

  z = sin(x)**2 + cos(y)**2;

  output;

 end;

end;

 

proc g3D data=sadel;

plot x*y=z/rotate=10 to 90 by 10;

run;

Categories: statistika

Menggabung variabel

October 13, 2008 · Leave a Comment

Sering sekali para peneliti menggunakan beberapa pertanyaan untuk menangkap informasi suatu variabel. Misalnya saja untuk memperoleh informasi mengenai seberapa besar minat responden terhadap Pemilu, mereka ditanya tentang aktivitas baca koran, aktivitas nonton berita TV, aktivitas diskusi politik, dan sebagainya. Permasalahan yang sering kali muncul adalah proses penggabungan dari beberapa pertanyaan tadi menjadi satu variabel sehingga analisisnya menjadi lebih mudah.

Ini kutipan jawaban saya dalam suatu milis tentang hal tersebut. Hasil penggabungan variabel akan digunakan oleh yang bersangkutan dalam analisis regresi.

Dalam kuisioner yang saya distribusikan, terdapat 5 independent variabel dimana masing2 independent variabel tersebut terdiri dari 3-5 pertanyaan. Bagaimana data dari 5 pertanyaan tersebut diolah sehingga dapat mewakili suatu variabel independent? Saya sangat bingung dan tidak tahu langkah apa yang harus dilakukan

Dear ***,
ada beberapa cara yang dilakukan orang mulai dari yang sederhana sampai yang agak rumit untuk menghadapi model regresi yang dihadapi, terutama dalam hal menjadikan beberapa item pertanyaan menjadi satu variabel.

Sebelumnya, pastikan dulu bahwa setiap kelompok item (yang mau dijadiin satu) sudah reliable. Penggunaan cronbach’s-alpha saya kira sudah cukup.

Beberapa alternatif analisis yang bisa mbak lakukan adalah:
1. Secara sederhana, penggabungan dapat dilakukan dengan menjumlah atau merata-ratakan beberapa pertanyaan menjadi satu variabel. Ini yang paling gampang. Kalau sudah dirata-ratakan, misal ada tiga pertanyaan kemudian dapat rata-rata untuk setiap responden, lakukan ini untuk setiap kelompok variabel, maka regresi tinggal mengikuti saja menggunakan variabel gabungan tadi.

2. Yang juga bisa dilakukan adalah menggabung; tapi ada bobot untuk masing-masing pertanyaan. Kalau cara pertama disebut simple average, yang ini disebut weighted average. Bobotnya tentu berdasarkan keahlian ***. Misal pertanyaan pertama bobot setengah; pertanyaan kedua seperempat; pertanyaan ketiga seperempat. Jadi variabel gabungan didapat dari
gabungan = 0.25 p1 + 0.25 p2 + 0.25 p3
Pertanyaan paling penting diberi bobot lebih besar

3. Teknik yang juga bisa dilakukan adalah Factor Analysis. di SPSS *** bisa cari menu Variable Reduction (di Analyze). Kemudian pilih option, number of factor = 1, artinya tiga variabel tadi mau direduksi jadi 1. SPSS akan menghitung bobot yang optimal untuk masing2 variabel. Topik factor analysis ini biasanya ada di buku-buku multivariate analysis. Lakukan ini untuk setiap kelompok variabel.

4. cara lain yang bisa dilakukan adalah penggunaan SEM (structural equation model). basic-nya sih factor analysis juga. Software yang biasa dipakai orang LISREL sama AMOS.

Categories: modeling · statistika
Tagged: , ,

Selang Kepercayaan (Bagian 2)

September 30, 2008 · Leave a Comment

Beberapa hal yang dapat disimpulkan ulang dari bagian pertama adalah:

-         menduga dengan satu titik hampir tidak pernah benar

-         menduga dengan selang memiliki peluang benar yang lebih besar

-         semakin lebar selang dugaan, semakin besar peluang benarnya

-         tapi… semakin lebar selang dugaan, semakin tidak ada gunanya

 

So, yang benar belum tentu ada gunanya.  Jadi jangan heran kalau tidak pernah ketemu selang kepercayaan 100%, karena tidak ada gunanya.  Kita lebih sering berjumpa dengan selang kepercayaan 95%, 90%, atau 99%.   Apa maksud persentase itu?

 

Namanya adalah tingkat kepercayaan; confidence level.  Sesuai namanya, kalau kita mengatakan bahwa sebuah selang nilai adalah SK 95%, maka itu artinya bahwa kita yakin dan kita percaya dengan tingkat keyakinan 95%, nilai parameter yang kita duga berada dalam selang tersebut.

 

Kalau kita punya SK 100%, berarti kita mengatakan nilai parameter yang kita duga pasti dan yakin seyakin-yakinnya ada dalam selang tersebut.  Bagaimana membuat selang kepercayaan 100%?  Mudah sekali.  Selang nilainya adalah dari nilai terkecil dan terbesar yang mungkin.  Misalnya saja, kalau seorang kandidat bupati bertanya ke tim suksesnya berapa kira-kira persentase warga yang akan memilih dia.  Supaya pasti benar, jawab saja:  “Bos, saya gak mungkin salah, persentase yang milih antara 0% – 100%”.  Dugaan tim sukses tadi tidak mungkin salah, 100% pasti benar.  Tapi lagi-lagi, jawaban yang benar itu tidak memberikan informasi apa-apa.  Si kandidat jadi tidak bisa memutuskan langkah apa yang harus dilakukan berikutnya.

 

Atas dasar itu kemudian adat trade-off,  jangan terlalu lebar tapi tingkat kepercayaannya jadi turun.  Angka tingkat kepercayaan 95% dianggap sebagai angka yang tidak moderat, dan seolah-olah menjadi tradisi dan angka yang paling sering dipilih.

 

Bagaimana mendapatkan selang kepercayaan dengan tingkat kepercayaan tertentu.  Secara teori ini sangat tergantung pada informasi sebaran (distribution) dari variabel yang mau diduga parameternya.  Namun untuk ukuran sampel yang sangat besar, formula ini dapat digunakan sebagai pendekatan mendapatkan SK bagi rata-rata populasi

 

 

dengan x-bar adalah rata-rata yang dihitung dari sampel, dan sigma adalah standar deviasi data populasi, dan z adalah skor normal yang tergantung pada tingkat kepercayaan yang digunakan.  In case, sigma diganti dengan standar deviasi yang dihitung dari contoh, maka nilai z diganti dengan nilai dari sebaran t-student.  Beberapa orang tetap menggunakan z karena nilai t-student dan z tidak berbeda untuk n yang sangat besar.  Untuk tingkat kepercayaan 95%, nilai z = 1.96, sedangkan untuk 90% dan 99% masing-masing adalah 1.645 dan 2.57.

 

Untuk dugaan proporsi, formulanya

Categories: statistika
Tagged: , , ,

Selang Kepercayaan (Bagian 1)

September 27, 2008 · Leave a Comment

Bahasa Inggris-nya: confidence interval.  Dalam bidang pendugaan secara statistika, istilah ini tentu sangat populer.  Sayangnya tidak semua pengguna statistika ingat untuk mencantumkan SK dipublikasinya supaya orang lebih memahami angka hasil dugaannya.

 

Apa sebenarnya SK?  Tapi di bagian ini saya akan menceritakan dulu dua jenis pendugaan, bagian kedua nanti kita akan diskusi lebih banyak tentang SK. 

 

Sebelumnya saya akan perkenalkan kembali beberapa istilah dasar di statistika.  Kalau kita punya data sampel, maka tujuan utama yang biasa dilakukan, apapun analisisnya, adalah menduga parameter populasi.  Misal, temen2 di marketing research ngumpulin data responden untuk menduga berapa persen pengguna sabun merek tertentu.  Angka berapa persen market share yang ingin diketahui itu parameter.  Nah, sementara angka berapa persen yang didapat dari hasil survey itu adalah statistik.  Yang terakhir itu (statistik) yang kita tahu, yang pertama (parameter) kita gak tahu.  Itu kenapa statistik tidak lain adalah penduga bagi parameter.

 

Yang menjadi persoalan adalah, angka dugaan kita bisa berbeda-beda tergantung pada data sampel yang kita miliki.  Kalau saya bertanya kepada 500 orang hari ini tentang siapa yang bakal mereka pilih jadi bupati, dan seseorang lain juga melakukan hal yang sama pada 500 orang lain, maka dapat dipastikan angka berapa persen yang memilih calon nomor satu akan berbeda nilainya.  Kalau yang melakukan survey ada 10 orang atau lembaga, maka akan diperoleh 10 angka dugaan yang berbeda-beda.

 

Dan yang lebih menarik lagi adalah, 10 angka dugaan yang dihasilkan dapat dipastikan tidak sama persis dengan angka parameter yang sebenarnya.  Coba saja bandingkan angka dugaan hasil quickcount dengan hasil perhitungan KPU.  Gak ada yang sama persis.  Ada yang bedanya sedikit, ada yang bedanya lumayan jauh.

 

Dalam konsep pendugaan, ada istilah point estimation (pendugaan titik) dan interval estimation (pendugaan selang).  Menduga dengan satu titik berarti menduga dengan hanya satu angka.  Dan sekali lagi, untuk kasus ini hampir dapat dipastikan dugaannya salah karena hampir mustahil dapat menduga angka parameter dengan tepat.  Kemudian dikenal pendugaan selang yang berupa selang nilai.  Bukan menduga bahwa market share produk tertentu sebesar 30%, tapi menyatakan dalam bentuk 28% – 32%.  Kalau ternyata angka pastinya adalah 31%, maka dugaan titik yang 30% itu salah, sedangkan kalau pakai selang jadi benar.

 

Sama saja kalau kita diminta menduga umur seseorang mahasiswa.  Kita nebak 19 tahun, dan padahal umurnya 18 tahun, maka tebakan kita salah.  Tapi kalau kita bilang, “ya… sekitar 17-20 tahun deh”, maka tebakan kita benar.

 

Singkat kata, menduga atau menebak pakai selang memiliki kemungkinan benar lebih besar daripada menduga hanya menggunakan satu angka.  Kalau untuk kasus umur mahasiswa tadi, tentu tebakan kita akan benar kalau bilang, “Umurmu pasti antara 10 – 40 tahun”.  Iya kan…

 

Meskipun dugaan itu benar, dengan cara memperlebar selang, tapi tidak banyak gunanya.  Tidak ada gunanya kalau kita cerita ke ibu kita, terus kita bilang: “Bu, tadi aku ketemu cewek, umurnya kira-kira 10-40 tahun.”  Si ibu pasti mikir, anakku kenapa.

 

Konsep selang kepercayaan akan saya lanjutkan di bagian berikutnya.

Categories: statistika
Tagged: , , ,