Regresi Logistik Menggunakan Solver di Excel

Seorang teman menanyakan bagaimana mendapatkan penduga koefisien regresi logistik, sementara dia tidak punya software statistik. Tulisan berikut mudah-mudahan dapat membantu. Kita dapat menghitung dan menguji koefisien regresi logistik dengan memanfaatkan solver add-ins di MS Excel. Silakan klik link ini.
pdf file juga dapat diperoleh di
Semoga bermanfaat. Situs lain saya kira juga banyak yang menyediakan hal yang sama.

Ukuran sampel besar tidak selalu lebih baik

Teori mengatakan bahwa dengan ukuran sampel (sampel size), sering dinotasikan n, yang besar maka akurasi dugaan berdasarkan data akan semakin baik karena errornya mengecil. Tidak ada yang salah dengan teori itu, tapi yang harus diingat bahwa teori ini menganggap bahwa proses pengumpulan datanya dilakukan sedemikian rupa sehingga seluruh proses seragam. Prakteknya tidak demikian. Yang ingin dipaparkan ini barangkali sudah banyak ditulis di berbagai buku metodologi survei.Pendugaan menggunakan data sampel selalu memuat dua jenis error. Pertama disebut sampling error dan yang kedua adalah non-sampling error. Error yang pertama tidak bisa dihindari karena ini adalah kesalahan yang timbul karena kita memang hanya menggunakan sampel, yang artinya hanya sebagian data dari populasi. Sedangkan error yang kedua adalah kesalahan-kesalahan yang diakibatkan oleh proses yang kita lakukan dalam mengumpulkan, merekam, dan mengolah data.

Sampling error ini yang disebutkan dalam teori di paragrap pertama. Benar bahwa n yang semakin besar akan diikuti sampling error yang semakin kecil. Namun perlu diperhatikan bahwa pada umumnya, n yang besar akan menyebabkan non-sampling error semakin besar. Kenapa demikian?

Dengan bertambahnya target jumlah sampel yang harus diperoleh, maka ada beberapa hal yang bisa dilakukan, antara lain adalah: (a) tambah saja jumlah petugas pengumpul data, (2) tidak usah nambah orang, tapi waktunya diperpanjang, atau (3) proses pengumpulannya dipercepat untuk setiap sampel, misal wawancaranya to the point dan sebagainya.

Apapun yang dilakukan, mengandung resiko adanya kesalahan. Memperbanyak orang berarti membuka peluang semakin beragamnya proses pengumpulan data. Besar kemungkinan timbul kesalahan karena perbedaan kemampuan setiap individu petugas pengumpul data. Memperpanjang waktu dapat juga berarti menambah kelelahan dan kejenuhan yang juga dapat berujung kepada timbulnya kesalahan. Wawancara terburu-buru agar target jumlah responden tercapai juga tidak menutup kemungkinan adanya kesalahan, baik kesalahan catat maupun kesalahan responden mengartikan pertanyaan.

Tidak hanya disitu, kesalahan juga dapat timbul pada proses perekaman data. Baik perekaman waktu petugas survei mencatat jawaban, atau perekaman data pada saat entry data di komputer. Semua itu adalah kesalahan-kesalahan yang mungkin terjadi. Dan dengan n yang semakin besar, pada umumnya kesalahan yang demikian semakin mungkin untuk terjadi.

Tentu ini bisa dicegah. Pelatihan kepada orang yang terlibat, pembuatan aplikasi entry data secara hati-hati, perencanaan kerja yang baik, insentif yang memadai, dan lain-lain dapat dilakukan untuk mengurangi non-sampling error.

Sebagai penutup, banyak orang menyarankan untuk mengoptimalkan ukuran sampel. Tidak usah terlalu besar kalau memang itu beresiko menimbulkan non-sampling error yang tinggi. Sayangnya memang, besarnya tingkat kesalahan jenis ini tidak dapat dihitung secara kuantitatif.

Pengacakan tidak menjamin datamu acak

 

Dalam banyak analisis dan pemodelan statistika, terutama statistika klasik, banyak disebutkan bahwa data atau error pada data harus bersifat acak. Tanpa adanya pemenuhan terhadap asumsi atau syarat tersebut, hasilnya jadi diragukan. Kemudian muncul pertanyaan, apakah data yang saya miliki ini memenuhi sifat tersebut. Acak tidak selalu dapat dipenuhi dengan mengambil sample secara acak. Proses pengumpulan dan karakteristik individu sumber data juga dapat mempengaruhi sifat keacakan data. Let’s look closer to this property.Pertama, acak dapat dikaitkan dengan tidak adanya unsur ketergantungan/kebebasan antar individu/objek/responden yang kita amati atau kita wawancarai. Contohnya begini. Pada suatu survey, misalnya, kita melakukan wawancara kepada beberapa orang siswa di sekolah. Metode wawancara yang dilakukan adalah mengumpulkan 6 orang siswa yang dipilih secara acak di suatu ruangan, kemudian ditanya pertanyaan yang sama. Masing-masing anak bergantian menjawab. Nah, jawaban anak pertama bisa saja mempengaruhi anak kedua. Itu kita sebut tidak bebas. Pada kasus ini, keacakan data diragukan meskipun responden dipilih secara acak.

Contoh yang lain adalah dalam pengumpulan data dengan percobaan. Andaikan kita menanam beberapa tanaman dalam suatu petak, kemudian setelah beberapa bulan berikutnya tanaman-tanaman tersebut diukur tingginya. Kalau kandungan hara di tanah petak tersebut terbatas, maka akan terjadi persaingan antar tanaman dalam mendapatkan hara untuk tumbuh. Besar kemungkinan, tanaman yang pertama tumbuh tinggi sedangkan tanaman yang kedua tidak karena tidak kebagian unsur hara lagi. Data tinggi tanaman-tanaman tersebut lagi-lagi tidak saling bebas, atau tidak acak.

Konsep yang kedua berhubungan dengan waktu pengumpulan data. Teman-teman di bagian quality control di pabrik kertas misalnya ingin melihat karakteristik mutu kertas yang dia produksi. Kalau datanya diperoleh dari kertas yang dihasilkan oleh batch bubur kertas yang sama, maka jelas tidak acak. Contoh yang lain lagi terkait dengan kelelahan petugas survei atau operator percobaan. Andaikan petugas survei berangkat pagi hari untuk menjalankan tugas dan ini hari pertama, besar kemungkinan proses mengumpulkan data pada responden-responden pertama berbeda dengan responden di sore hari. Di suatu percobaan, pada pengamatan kesekian di sore hari ada kemungkinan operator sudah lelah sehingga pengamatan dan pengukuran yang dia lakukan tidak seteliti pada pagi hari. Hal-hal seperti ini harus dengan baik diperhatikan untuk memastikan keacakan, kalau tidak maka data kita memiliki korelasi dengan waktu pengumpulan data sehingga bersifat auto-correlated.

Hal serupa juga dapat terjadi karena pengaruh jarak. Itu kenapa kemudian dikenal adanya data yang bersifat spatially auto-correlated.

 

Sekedar mengingatkan saja bahwa proses pengacakan di suatu survey atau percobaan bukan satu-satunya jaminan data bersifat acak. Manajemen pelaksanaan pengumpulan data juga memegang peranan yang besar dalam kasus ini.