sekedar pet crepet

Entries from September 2008

Selang Kepercayaan (Bagian 2)

September 30, 2008 · Leave a Comment

Beberapa hal yang dapat disimpulkan ulang dari bagian pertama adalah:

-         menduga dengan satu titik hampir tidak pernah benar

-         menduga dengan selang memiliki peluang benar yang lebih besar

-         semakin lebar selang dugaan, semakin besar peluang benarnya

-         tapi… semakin lebar selang dugaan, semakin tidak ada gunanya

 

So, yang benar belum tentu ada gunanya.  Jadi jangan heran kalau tidak pernah ketemu selang kepercayaan 100%, karena tidak ada gunanya.  Kita lebih sering berjumpa dengan selang kepercayaan 95%, 90%, atau 99%.   Apa maksud persentase itu?

 

Namanya adalah tingkat kepercayaan; confidence level.  Sesuai namanya, kalau kita mengatakan bahwa sebuah selang nilai adalah SK 95%, maka itu artinya bahwa kita yakin dan kita percaya dengan tingkat keyakinan 95%, nilai parameter yang kita duga berada dalam selang tersebut.

 

Kalau kita punya SK 100%, berarti kita mengatakan nilai parameter yang kita duga pasti dan yakin seyakin-yakinnya ada dalam selang tersebut.  Bagaimana membuat selang kepercayaan 100%?  Mudah sekali.  Selang nilainya adalah dari nilai terkecil dan terbesar yang mungkin.  Misalnya saja, kalau seorang kandidat bupati bertanya ke tim suksesnya berapa kira-kira persentase warga yang akan memilih dia.  Supaya pasti benar, jawab saja:  “Bos, saya gak mungkin salah, persentase yang milih antara 0% – 100%”.  Dugaan tim sukses tadi tidak mungkin salah, 100% pasti benar.  Tapi lagi-lagi, jawaban yang benar itu tidak memberikan informasi apa-apa.  Si kandidat jadi tidak bisa memutuskan langkah apa yang harus dilakukan berikutnya.

 

Atas dasar itu kemudian adat trade-off,  jangan terlalu lebar tapi tingkat kepercayaannya jadi turun.  Angka tingkat kepercayaan 95% dianggap sebagai angka yang tidak moderat, dan seolah-olah menjadi tradisi dan angka yang paling sering dipilih.

 

Bagaimana mendapatkan selang kepercayaan dengan tingkat kepercayaan tertentu.  Secara teori ini sangat tergantung pada informasi sebaran (distribution) dari variabel yang mau diduga parameternya.  Namun untuk ukuran sampel yang sangat besar, formula ini dapat digunakan sebagai pendekatan mendapatkan SK bagi rata-rata populasi

 

 

dengan x-bar adalah rata-rata yang dihitung dari sampel, dan sigma adalah standar deviasi data populasi, dan z adalah skor normal yang tergantung pada tingkat kepercayaan yang digunakan.  In case, sigma diganti dengan standar deviasi yang dihitung dari contoh, maka nilai z diganti dengan nilai dari sebaran t-student.  Beberapa orang tetap menggunakan z karena nilai t-student dan z tidak berbeda untuk n yang sangat besar.  Untuk tingkat kepercayaan 95%, nilai z = 1.96, sedangkan untuk 90% dan 99% masing-masing adalah 1.645 dan 2.57.

 

Untuk dugaan proporsi, formulanya

Categories: statistika
Tagged: , , ,

Selang Kepercayaan (Bagian 1)

September 27, 2008 · Leave a Comment

Bahasa Inggris-nya: confidence interval.  Dalam bidang pendugaan secara statistika, istilah ini tentu sangat populer.  Sayangnya tidak semua pengguna statistika ingat untuk mencantumkan SK dipublikasinya supaya orang lebih memahami angka hasil dugaannya.

 

Apa sebenarnya SK?  Tapi di bagian ini saya akan menceritakan dulu dua jenis pendugaan, bagian kedua nanti kita akan diskusi lebih banyak tentang SK. 

 

Sebelumnya saya akan perkenalkan kembali beberapa istilah dasar di statistika.  Kalau kita punya data sampel, maka tujuan utama yang biasa dilakukan, apapun analisisnya, adalah menduga parameter populasi.  Misal, temen2 di marketing research ngumpulin data responden untuk menduga berapa persen pengguna sabun merek tertentu.  Angka berapa persen market share yang ingin diketahui itu parameter.  Nah, sementara angka berapa persen yang didapat dari hasil survey itu adalah statistik.  Yang terakhir itu (statistik) yang kita tahu, yang pertama (parameter) kita gak tahu.  Itu kenapa statistik tidak lain adalah penduga bagi parameter.

 

Yang menjadi persoalan adalah, angka dugaan kita bisa berbeda-beda tergantung pada data sampel yang kita miliki.  Kalau saya bertanya kepada 500 orang hari ini tentang siapa yang bakal mereka pilih jadi bupati, dan seseorang lain juga melakukan hal yang sama pada 500 orang lain, maka dapat dipastikan angka berapa persen yang memilih calon nomor satu akan berbeda nilainya.  Kalau yang melakukan survey ada 10 orang atau lembaga, maka akan diperoleh 10 angka dugaan yang berbeda-beda.

 

Dan yang lebih menarik lagi adalah, 10 angka dugaan yang dihasilkan dapat dipastikan tidak sama persis dengan angka parameter yang sebenarnya.  Coba saja bandingkan angka dugaan hasil quickcount dengan hasil perhitungan KPU.  Gak ada yang sama persis.  Ada yang bedanya sedikit, ada yang bedanya lumayan jauh.

 

Dalam konsep pendugaan, ada istilah point estimation (pendugaan titik) dan interval estimation (pendugaan selang).  Menduga dengan satu titik berarti menduga dengan hanya satu angka.  Dan sekali lagi, untuk kasus ini hampir dapat dipastikan dugaannya salah karena hampir mustahil dapat menduga angka parameter dengan tepat.  Kemudian dikenal pendugaan selang yang berupa selang nilai.  Bukan menduga bahwa market share produk tertentu sebesar 30%, tapi menyatakan dalam bentuk 28% – 32%.  Kalau ternyata angka pastinya adalah 31%, maka dugaan titik yang 30% itu salah, sedangkan kalau pakai selang jadi benar.

 

Sama saja kalau kita diminta menduga umur seseorang mahasiswa.  Kita nebak 19 tahun, dan padahal umurnya 18 tahun, maka tebakan kita salah.  Tapi kalau kita bilang, “ya… sekitar 17-20 tahun deh”, maka tebakan kita benar.

 

Singkat kata, menduga atau menebak pakai selang memiliki kemungkinan benar lebih besar daripada menduga hanya menggunakan satu angka.  Kalau untuk kasus umur mahasiswa tadi, tentu tebakan kita akan benar kalau bilang, “Umurmu pasti antara 10 – 40 tahun”.  Iya kan…

 

Meskipun dugaan itu benar, dengan cara memperlebar selang, tapi tidak banyak gunanya.  Tidak ada gunanya kalau kita cerita ke ibu kita, terus kita bilang: “Bu, tadi aku ketemu cewek, umurnya kira-kira 10-40 tahun.”  Si ibu pasti mikir, anakku kenapa.

 

Konsep selang kepercayaan akan saya lanjutkan di bagian berikutnya.

Categories: statistika
Tagged: , , ,

Regresi Linear

September 25, 2008 · Leave a Comment

Ini site tentang regresi linear yang udah lama kubuat, tapi gak terurus. Hehe

http://www.geocities.com/bagusco4/bagusco_reg_linear.html

Selamat membaca

Categories: modeling

Regresi Logistik Menggunakan Solver di Excel

September 18, 2008 · Leave a Comment

Seorang teman menanyakan bagaimana mendapatkan penduga koefisien regresi logistik, sementara dia tidak punya software statistik. Tulisan berikut mudah-mudahan dapat membantu. Kita dapat menghitung dan menguji koefisien regresi logistik dengan memanfaatkan solver add-ins di MS Excel. Silakan klik link ini.
pdf file juga dapat diperoleh di
Semoga bermanfaat. Situs lain saya kira juga banyak yang menyediakan hal yang sama.

Categories: modeling
Tagged: , , ,

Ukuran sampel besar tidak selalu lebih baik

September 18, 2008 · Leave a Comment

Teori mengatakan bahwa dengan ukuran sampel (sampel size), sering dinotasikan n, yang besar maka akurasi dugaan berdasarkan data akan semakin baik karena errornya mengecil. Tidak ada yang salah dengan teori itu, tapi yang harus diingat bahwa teori ini menganggap bahwa proses pengumpulan datanya dilakukan sedemikian rupa sehingga seluruh proses seragam. Prakteknya tidak demikian. Yang ingin dipaparkan ini barangkali sudah banyak ditulis di berbagai buku metodologi survei.Pendugaan menggunakan data sampel selalu memuat dua jenis error. Pertama disebut sampling error dan yang kedua adalah non-sampling error. Error yang pertama tidak bisa dihindari karena ini adalah kesalahan yang timbul karena kita memang hanya menggunakan sampel, yang artinya hanya sebagian data dari populasi. Sedangkan error yang kedua adalah kesalahan-kesalahan yang diakibatkan oleh proses yang kita lakukan dalam mengumpulkan, merekam, dan mengolah data.

Sampling error ini yang disebutkan dalam teori di paragrap pertama. Benar bahwa n yang semakin besar akan diikuti sampling error yang semakin kecil. Namun perlu diperhatikan bahwa pada umumnya, n yang besar akan menyebabkan non-sampling error semakin besar. Kenapa demikian?

Dengan bertambahnya target jumlah sampel yang harus diperoleh, maka ada beberapa hal yang bisa dilakukan, antara lain adalah: (a) tambah saja jumlah petugas pengumpul data, (2) tidak usah nambah orang, tapi waktunya diperpanjang, atau (3) proses pengumpulannya dipercepat untuk setiap sampel, misal wawancaranya to the point dan sebagainya.

Apapun yang dilakukan, mengandung resiko adanya kesalahan. Memperbanyak orang berarti membuka peluang semakin beragamnya proses pengumpulan data. Besar kemungkinan timbul kesalahan karena perbedaan kemampuan setiap individu petugas pengumpul data. Memperpanjang waktu dapat juga berarti menambah kelelahan dan kejenuhan yang juga dapat berujung kepada timbulnya kesalahan. Wawancara terburu-buru agar target jumlah responden tercapai juga tidak menutup kemungkinan adanya kesalahan, baik kesalahan catat maupun kesalahan responden mengartikan pertanyaan.

Tidak hanya disitu, kesalahan juga dapat timbul pada proses perekaman data. Baik perekaman waktu petugas survei mencatat jawaban, atau perekaman data pada saat entry data di komputer. Semua itu adalah kesalahan-kesalahan yang mungkin terjadi. Dan dengan n yang semakin besar, pada umumnya kesalahan yang demikian semakin mungkin untuk terjadi.

Tentu ini bisa dicegah. Pelatihan kepada orang yang terlibat, pembuatan aplikasi entry data secara hati-hati, perencanaan kerja yang baik, insentif yang memadai, dan lain-lain dapat dilakukan untuk mengurangi non-sampling error.

Sebagai penutup, banyak orang menyarankan untuk mengoptimalkan ukuran sampel. Tidak usah terlalu besar kalau memang itu beresiko menimbulkan non-sampling error yang tinggi. Sayangnya memang, besarnya tingkat kesalahan jenis ini tidak dapat dihitung secara kuantitatif.

Categories: sampling
Tagged: , ,

Pengacakan tidak menjamin datamu acak

September 18, 2008 · Leave a Comment

 

Dalam banyak analisis dan pemodelan statistika, terutama statistika klasik, banyak disebutkan bahwa data atau error pada data harus bersifat acak. Tanpa adanya pemenuhan terhadap asumsi atau syarat tersebut, hasilnya jadi diragukan. Kemudian muncul pertanyaan, apakah data yang saya miliki ini memenuhi sifat tersebut. Acak tidak selalu dapat dipenuhi dengan mengambil sample secara acak. Proses pengumpulan dan karakteristik individu sumber data juga dapat mempengaruhi sifat keacakan data. Let’s look closer to this property.Pertama, acak dapat dikaitkan dengan tidak adanya unsur ketergantungan/kebebasan antar individu/objek/responden yang kita amati atau kita wawancarai. Contohnya begini. Pada suatu survey, misalnya, kita melakukan wawancara kepada beberapa orang siswa di sekolah. Metode wawancara yang dilakukan adalah mengumpulkan 6 orang siswa yang dipilih secara acak di suatu ruangan, kemudian ditanya pertanyaan yang sama. Masing-masing anak bergantian menjawab. Nah, jawaban anak pertama bisa saja mempengaruhi anak kedua. Itu kita sebut tidak bebas. Pada kasus ini, keacakan data diragukan meskipun responden dipilih secara acak.

Contoh yang lain adalah dalam pengumpulan data dengan percobaan. Andaikan kita menanam beberapa tanaman dalam suatu petak, kemudian setelah beberapa bulan berikutnya tanaman-tanaman tersebut diukur tingginya. Kalau kandungan hara di tanah petak tersebut terbatas, maka akan terjadi persaingan antar tanaman dalam mendapatkan hara untuk tumbuh. Besar kemungkinan, tanaman yang pertama tumbuh tinggi sedangkan tanaman yang kedua tidak karena tidak kebagian unsur hara lagi. Data tinggi tanaman-tanaman tersebut lagi-lagi tidak saling bebas, atau tidak acak.

Konsep yang kedua berhubungan dengan waktu pengumpulan data. Teman-teman di bagian quality control di pabrik kertas misalnya ingin melihat karakteristik mutu kertas yang dia produksi. Kalau datanya diperoleh dari kertas yang dihasilkan oleh batch bubur kertas yang sama, maka jelas tidak acak. Contoh yang lain lagi terkait dengan kelelahan petugas survei atau operator percobaan. Andaikan petugas survei berangkat pagi hari untuk menjalankan tugas dan ini hari pertama, besar kemungkinan proses mengumpulkan data pada responden-responden pertama berbeda dengan responden di sore hari. Di suatu percobaan, pada pengamatan kesekian di sore hari ada kemungkinan operator sudah lelah sehingga pengamatan dan pengukuran yang dia lakukan tidak seteliti pada pagi hari. Hal-hal seperti ini harus dengan baik diperhatikan untuk memastikan keacakan, kalau tidak maka data kita memiliki korelasi dengan waktu pengumpulan data sehingga bersifat auto-correlated.

Hal serupa juga dapat terjadi karena pengaruh jarak. Itu kenapa kemudian dikenal adanya data yang bersifat spatially auto-correlated.

 

Sekedar mengingatkan saja bahwa proses pengacakan di suatu survey atau percobaan bukan satu-satunya jaminan data bersifat acak. Manajemen pelaksanaan pengumpulan data juga memegang peranan yang besar dalam kasus ini.

Categories: sampling
Tagged: , ,