data sadel;
do x = -1 to 1 by 0.1;
do y = -1 to 1 by 0.1;
z = sin(x)**2 + cos(y)**2;
output;
end;
end;
proc g3D data=sadel;
plot x*y=z/rotate=10 to 90 by 10;
run;
data sadel;
do x = -1 to 1 by 0.1;
do y = -1 to 1 by 0.1;
z = sin(x)**2 + cos(y)**2;
output;
end;
end;
proc g3D data=sadel;
plot x*y=z/rotate=10 to 90 by 10;
run;
Categories: statistika
Silakan dicoba
data cone;
do x = -1 to 1 by 0.01;
do y = -1 to 1 by 0.01;
z = sqrt(x**2 + y**2);
if z le 1 then output;
end;
end;
proc g3D data=cone; plot x*y=z; run;
data sadel;
do x = -1 to 1 by 0.1;
do y = -1 to 1 by 0.1;
z = sin(x)**2 + cos(y)**2;
output;
end;
end;
proc g3D data=sadel; plot x*y=z; run;
Ini tentang kamar tidur, bukan kamar lain seperti kamar mandi, kamar belajar, kamar bermain, atau yang lainnnya. Dengan budget tertentu seseorang bisa dengan leluasa memilih rumah dengan jumlah kamar yang dia sukai. Sementara dengan budget yang terbatas, tipe 21 hingga 36 dengan hanya 1 atau 2 kamar tidur barangkali hanya satu-satunya pilihan. Tapi, tampaknya tidak hanya budget yang perlu kita pertimbangkan untuk memilih kamar. Pertimbangan lain adalah berapa banyak yang anak yang ingin kita miliki.
Grafik berikut saya olah dari data yang saya copy dari www.nationmaster.com. Grafik yang memperlihatkan hubungan antara rata-rata banyaknya orang di setiap kamar tidur dengan prediksi tingkat pertumbuhan penduduk dari berbagai negara. Korelasinya cukup besar, yaitu 0.59 untuk Pearson Corr dan 0.56 untuk Spearman Corr Coef. Negara dengan kamar tidur yang banyak penghuninya, cenderung tinggi tingkat pertumbuhan penduduknya.
Tentu ini tidak selalu bicara sebab akibat. Bisa didebat, apakah gara-gara satu kamar banyak orang jadi banyak yang hamil terus pertumbuhan penduduk tinggi. Ataukah karena pertumbuhannya tinggi, makanya satu kamar terpaksa diisi banyak orang. Namun karena data jumlah orang per kamar adalah data tahun kemarin, sedangkan pertumbuhan itu proyeksi ke tahun 2050, pendapat pertama mungkin masuk akal.
Yang menarik lain dari gambar ini adalah:
Tambahnya program pemerintah membangun RSS dengan tipe kecil, bisa dijadikan sarana tak langsung untuk menekan pertumbuhan jumlah penduduk. Siapa tahu…
Categories: data and facts
Tagged: jumlah penduduk, korelasi
There were 3,417 total deaths, including 1,265 on election days. The Election Day average was 158, versus 134 on the other Tuesdays. The crashes involved drivers, passengers and pedestrians. (http://health.yahoo.com/news/ap/med_deadly_voting.html)
Paragrap di atas ini saya kutip dari salah satu artikel di Yahoo!Health. Kreatif juga studinya.
Bagi yang malas baca artikelnya, kira-kira rangkuman ceritanya begini (mudah2an tidak salah memahami). Pemungutan suara di Amerika setiap empat tahun sekali diadakan di hari Selasa. Bukan hari libur. Biasanya hanya sekolah saja yang diliburkan, itupun tidak semua sekolah. Yang menarik dari data yang ditampilkan di atas adalah, rata-rata angka kematian kecelakaan lalulintas di hari pemungutan suara lebih tinggi dibandingkan angka kematian karena kecelakaan pada hari-hari Selasa lainnya.
Nah… jadi ada kemungkinan kecelakaan dan pemungutan suara ada hubungannya. Beberapa alasan yang dapat disebutkan oleh para peneliti (1) orang2 pada ngebut menuju TPS, mereka biasanya pergi sebelum jam kerja atau sesudah jam kerja, (2) biasanya TPS tidak selalu di lingkungan tempat tinggal, makanya mereka gak paham jalan menuju TPS, (3) mereka nyetir sambil mikir enaknya nyoblos siapa ya…
Ada-ada saja… Padahal Amerika kan udah maju, nyoblosnya online aja gitu. Internet based voting.
Untungnya di Indonesia di hari libur ya… dan gak jauh2 dari rumah hehe. Tapi sepertinya korban pemilu di Indonesia tidak pas hari pemungutan suara. Tapi pas kampanye terus berkelahi, sama pas kalah terus ngamuk.
Categories: data and facts
VIF (variance inflation factor) merupakan salah satu statistik yang dapat digunakan untuk mendeteksi gejala multikolinear (multicollinearity, collinearity) pada analisis regresi yang sedang kita susun. VIF tidak lain adalah mengukur keeratan hubungan antar variabel bebas, atau X.
Bagaimana menghitung VIF? Ini tidak lain adalah fungsi dari R2 model antar X.
Andaikan kita memiliki tiga buah variabel bebas: X1, X2, dan X3 dan ketiganya mau diregresikan dengan sebuah variabel tak bebas Y. Nilai VIF kita hitung untuk masing-masing X.
Untuk X1, prosedurnya adalah
- regresikan X1 terhadap X2 dan X3, atau modelnya X1 = b0 + b1X2 + b2X3 + e
- hitung R2 dari model tersebut
- VIF untuk X1 adalah VIF1 = 1 / (1 – R2)
Untuk X2, senada saja dengan prosedur di atas
- regresikan X2 terhadap X1 dan X3, atau modelnya X2 = b0 + b1X1 + b2X3 + e
- hitung R2 dari model tersebut
- VIF untuk X2 adalah VIF2 = 1 / (1 – R2)
Perhatikan bahwa R2 dalam hitungan di atas adalah ukuran keeratan antar X. Jika R2 = 0, maka VIF = 1. Kondisi ini adalah kondisi ideal. Jadi idealnya, nilai VIF = 1.
Semakin besar R2, maka VIF semakin tinggi (semakin kuat adanya collinearity). Misal R2 = 0.8 akan menghasilkan VIF = 5.
Tidak ada batasan baku berapa nilai VIF dikatakan tinggi, nilai VIF di atas 5 sudah membuat kita harus hati-hati.
Categories: modeling
Tagged: collinearity, regresi, VIF
Data ini saya dapatkan dari web-nya CIA. Ini data struktur usia penduduk Indonsia, estimasi Juli 2008.
0-14 years : 28.4% (male 34,343,198/female 33,175,135)
15-64 years : 65.7% (male 78,330,830/female 77,812,339)
65 years and over: 5.8% (male 6,151,305/female 7,699,548)
Yang mnarik adalah pada usia di bawah 65 tahun, penduduk laki-laki sedikit lebih banyak dibandingkan perempuan (50.4% lk dibanding 49.6% pr). Sedangkan di kelompok usia di atas 65 tahun, wanita yang lebih banyak (44.4% lk dibanding 55.6% pr).
Simak juga data sex ratio ini
at birth: 1.05 male(s)/female
under 15 years: 1.03 male(s)/female
15-64 years: 1.01 male(s)/female
65 years and over: 0.8 male(s)/female
total population: 1 male(s)/female (2008 est.)
Wanita Indonesia tampaknya lebih cenderung memiliki angka harapan hidup yang lebih tinggi dibandingkan kaum Adam. Berbahagialah…
Categories: data and facts
Tagged: data demografi
Kutipan jawaban saya atas pertanyaan teman…..
Pertanyaannya begini:
di kantor saya kan tingkat turn over karyawannya lumayan tinggi..
saya sebelumnya sudah melakukan survey, posisi apa yang paling tinggi tingkat turn overnya berikut alasannya (sudah ada hasilnya). sekarang, saya ingin melakukan Climate Survey untuk memahami iklim kerja di masing- masing unit kerja baik di Kantor Pusat, Regional Maupun cabang?
rencananya saya mau menggunakan IPA…. kuesionernya sudah saya rancang, tapi saya masih bingung dalam pemilihan metode survey nya. atasan saya maunya seluruh pegawai di jadikan responden, tapi kan sangat banyak sekali. membutuhkan waktu dan biaya yang tidak sedikit…
metode survey apa yang paling cocok untuk kondisi seperti itu?
Melakukan pengambilan data terhadap semua orang memang akan melelahkan, tapi kalau hasil hitung-hitungan waktu dan biaya tidak ada masalah ya monggo saja. Saya asumsikan hitungannya menyebut angka yang tidak reasonable sehingga sampling survey menjadi pilihan.
Beberapa pertanyaan awal yang harus dijawab sebelum merancang proses survey dan saya sarankan untuk dicari adalah:
1. Pengambilan kesimpulan mengenai iklim kerja dilakukan di level mana? Level perusahaankah? Level Regional kah? Level cabang kah? atau per bagian/divisi kah? Kenapa ini penting… Kalau kita mau buat sebutlah deskripsi iklim kerja di setiap cabang, maka harus ada responden dari setiap cabang. Tapi kalau yang mau dibuat di level perusahaan, maka gak perlu data dari setiap cabang.
2. Bagaimana variasi iklim kerja di perusahaan ini? Apakah ada perbedaan antar cabang? Apakah ada perbedaan antar divisi? atau justru sama saja? Ini sebenarnya akan mengarahkan kita untuk memilih cluster sampling apa stratified sampling. Variasi saya kira bisa dilihat dari data turn-over yang katanya sudah dikumpulkan. Mudah-mudahan datanya cukup detail untuk dapat memperoleh informasi variasi ini.
3. Ini terkait dengan proses pengambilan datanya (termasuk organisasi pelaksanaan dan desain instrumen): interviewed atau self-administered. Apa teknologinya tersedia untuk melakukan pengisian kuesioner online? atau via e-mail? Seberapa rumit informasi yang ingin didapatkan? Apa harus menggunakan tenaga khusus untuk melakukan wawancara? dsb. dsb.
Mudah-mudahan dengan berbagai pertanyaan di atas, bisa membantu. Temen2 lain silakan saja kalau ingin menambahkan.
Categories: sampling
Tagged: cluster, rencana survey, sampling, stratified
Sebelum jauh-jauh bicara orthogonal array (OA) dan penggunaannya dalam perancangan percobaan, ada baiknya kita lihat terlebih dahulu susunan angka di bawah ini.
0 0 0 0 1 1 1 1
0 0 1 1 0 0 1 1
0 1 0 1 0 1 0 1
0 1 1 0 0 1 1 0
Susunan di atas terdiri atas 4 baris dan 8 kolom. Setiap baris, cuma ada dua jenis angka 1 dan 0. Apa menariknya susuan tersebut? Kalau diperhatikan pelan-pelan, hehe gak usah buru-buru, setiap kita pilih tiga baris, yang manapun, maka kita akan menemukan setiap kemungkinan kombinasi angka. Karena ada dua jenis setiap barisnya, maka kalau ada tiga baris ya ada 2 x 2 x 2 = 8 kemungkinan kombinasi yaitu 000, 001, 010, 001, 011, 101, 110, 111.
Sekali lagi, ambil tiga baris yang manapun, maka delapan kombinasi itu ada semua, dan masing-masing ada satu.
Berbeda dengan susunan berikut.
0 0 0 0 1 1 1 1
0 0 1 1 0 0 1 1
0 1 0 1 0 1 0 1
1 0 1 0 0 1 0 1
Kalau kita pilih 3 baris, misalnya baris ke-1, ke-3, dan ke-4, maka ini yang kita dapatkan
0 0 0 0 1 1 1 1
0 1 0 1 0 1 0 1
1 0 1 0 0 1 0 1
Tidak semua 8 kombinasi ada. Sebut saja, 000 tidak ada dalam kombinasi tersebut.
Bagaimana seandainya kita pilih 2 baris? Karena cuma dua baris, maka ada empat kemungkinan kombinasi yaitu 00, 01, 10, 11. Sekarang ceritanya lain. Dari susunan yang kedua (juga yang pertama), kalau kita ambil sembarang dua baris, maka keempat-empat kombinasi itu ada, dan masing-masing kombinasi muncul dua kali. Kombinasi 00 ada dua, 01 ada dua, 10 ada dua, terakhir 11 juga ada dua.
Well, now we are ready to define clearly about orthogonal array. Ini rekapnya:
Susunan pertama disebut sebagai OA dengan strength 3, sedangkan yang kedua OA dengan strength 2. Istilah strength, mengacu pada jumlah baris terbanyak sehingga semua kombinasi ada dengan frekuensi kemunculan sama besar.
Mengulang saja, OA adalah susunan baris-kolom, dimana kalau kita ambil beberapa baris dengan jumlah tertentu, maka kombinasi yang mungkin terbentuk muncul dengan frekuensi yang sama.
Mudah-mudahan sampai sini sudah cukup jelas pengertian tentang orthogonal array.
Categories: orthogonal array
Tagged: orthogonal array
Sering sekali para peneliti menggunakan beberapa pertanyaan untuk menangkap informasi suatu variabel. Misalnya saja untuk memperoleh informasi mengenai seberapa besar minat responden terhadap Pemilu, mereka ditanya tentang aktivitas baca koran, aktivitas nonton berita TV, aktivitas diskusi politik, dan sebagainya. Permasalahan yang sering kali muncul adalah proses penggabungan dari beberapa pertanyaan tadi menjadi satu variabel sehingga analisisnya menjadi lebih mudah.
Ini kutipan jawaban saya dalam suatu milis tentang hal tersebut. Hasil penggabungan variabel akan digunakan oleh yang bersangkutan dalam analisis regresi.
Dalam kuisioner yang saya distribusikan, terdapat 5 independent variabel dimana masing2 independent variabel tersebut terdiri dari 3-5 pertanyaan. Bagaimana data dari 5 pertanyaan tersebut diolah sehingga dapat mewakili suatu variabel independent? Saya sangat bingung dan tidak tahu langkah apa yang harus dilakukan
Dear ***,
ada beberapa cara yang dilakukan orang mulai dari yang sederhana sampai yang agak rumit untuk menghadapi model regresi yang dihadapi, terutama dalam hal menjadikan beberapa item pertanyaan menjadi satu variabel.
Sebelumnya, pastikan dulu bahwa setiap kelompok item (yang mau dijadiin satu) sudah reliable. Penggunaan cronbach’s-alpha saya kira sudah cukup.
Beberapa alternatif analisis yang bisa mbak lakukan adalah:
1. Secara sederhana, penggabungan dapat dilakukan dengan menjumlah atau merata-ratakan beberapa pertanyaan menjadi satu variabel. Ini yang paling gampang. Kalau sudah dirata-ratakan, misal ada tiga pertanyaan kemudian dapat rata-rata untuk setiap responden, lakukan ini untuk setiap kelompok variabel, maka regresi tinggal mengikuti saja menggunakan variabel gabungan tadi.
2. Yang juga bisa dilakukan adalah menggabung; tapi ada bobot untuk masing-masing pertanyaan. Kalau cara pertama disebut simple average, yang ini disebut weighted average. Bobotnya tentu berdasarkan keahlian ***. Misal pertanyaan pertama bobot setengah; pertanyaan kedua seperempat; pertanyaan ketiga seperempat. Jadi variabel gabungan didapat dari
gabungan = 0.25 p1 + 0.25 p2 + 0.25 p3
Pertanyaan paling penting diberi bobot lebih besar
3. Teknik yang juga bisa dilakukan adalah Factor Analysis. di SPSS *** bisa cari menu Variable Reduction (di Analyze). Kemudian pilih option, number of factor = 1, artinya tiga variabel tadi mau direduksi jadi 1. SPSS akan menghitung bobot yang optimal untuk masing2 variabel. Topik factor analysis ini biasanya ada di buku-buku multivariate analysis. Lakukan ini untuk setiap kelompok variabel.
4. cara lain yang bisa dilakukan adalah penggunaan SEM (structural equation model). basic-nya sih factor analysis juga. Software yang biasa dipakai orang LISREL sama AMOS.
Categories: modeling · statistika
Tagged: factor analysis, menggabung variabel, SEM
Andaikan seorang peneliti bidang medis ingin menguji apakah obat A lebih baik dibandingkan obat B dalam mempertahankan tekanan darah penderita penyakit jantung. Di saat lain perusahaan atau agen riset pasar ingin menentukan rasa blend mana yang lebih disukai konsumen, blend A ataukah blend B. Apa yang bisa dilakukan untuk mendapatkan data sehingga bisa disimpulkan untuk memilih satu dari dua pilihan tersebut?
Dua desain atau rancangan percobaan ini biasa digunakan karena kemudahannya: (1) parallel group design, dan (2) cross over design.
Parallel group dilakukan dengan cara, memilih sekelompok orang dengan karakteristik yang serupa, kemudian secara acak membaginya menjadi dua kelompok. Selanjutnya kelompok satu mendapatkan obat atau blend A dan kelompok kedua mendapatkan obat atau blend B. Data respon dari kedua kelompok selanjutnya dapat dibandingkan (misal menggunakan uji-t) untuk mendapatkan kesimpulan mana yang lebih baik.
Desain lain yang dapat digunakana adalah cross-over design. (hehe, ini bukan jenis mobil lho ya…) Awalnya sama, beberapa orang dengan kondisi homogen dibagi jadi dua kelompok. Satu dikasih A, dan kelompok kedua dikasih B, kemudian dicatat responnya. Tapi tidak berhenti disini. Berikutnya dibalik, satu dikasih B dan yang kedua dikasih A, responnya dicatat. Baru deh dilakukan analisis data.
Penggunaan cross over design lebih menguntungkan dari aspek jumlah orang atau responden. Saya kira dapat dilihat diberbagai jurnal atau buku perancangan percobaan, bahwa desain ini punya efisiensi minimal dua kali lipat. Artinya untuk akurasi yang sama, ukuran sample yang diperlukan cukup separo saja dibandingkan parallel group design.
Tapi, ada tapi-nya nih. Dengan cross-over ada kemungkinan terjadi carry-over effect. Ini adalah kasus dimana respon pada periode kedua, terpengaruh oleh obat atau blend yang dicoba pada periode pertama. Kalau ini bisa dihilangkan maka pemakaian cross-over design sangat menguntungkan. Teman2 di marketing research misalnya ngasih cracker atau air putih atau apalah untuk menghilangkan rasa yang tertinggal setelah nyoba produk yang pertama (beberapa orang nyebut sebagai wash-out). Tapi tidak semua bisa begitu. Kasus-kasus di bidang medis atau peternakan dan pertanian seringkali sulit dihindari.
Categories: experimental design
Tagged: carry over effect, cross over design, parallel group design, perancangan percobaan