Perbedaan Output Regresi Logit antara Minitab dg SPSS

Tulisan ini menyambung tulisan sebelumnya yang menjawab pertanyaan salah seorang pengunjung blog ini (Dian). Kali ini kita akan membahas pertanyaan mengenai “ Apa kelebihan olah data logit menggunakan Minitab dibandingkan SPSS”. Agar pembahasan ini bisa dipahami, silakan baca dulu tulisan sebelumnya

Ada beberapa perbedaan output Minitab dengan SPSS, terutama dalam hal jenis-jenis ukuran yang disajikan. Untuk latihan, kita tetap menggunakan contoh data latihan dari tulisan sebelumnya tersebut yang diolah dengan Minitab dan SPSS. Selanjutnya, pada bagian ini hanya akan ditampilkan sebagian output yang terpenting saja sebagai berikut:

Perbedaan Output Model Regresi

beda1

Perbedaan Output Ukuran Asosiasi

Minitab menampilkan output ukuran asosiasi (antara variabel respons/terikat dan probabilita prediksinya) serta ringkasan dari ukuran-ukuran tersebut dalam bentuk ukuran Somers’ D, Goodman-Kruskal Gamma dan Kendall’s Tau-a. Sebaliknya, SPSS hanya menampilkan tabel klasifikasi yang memperlihatkan keterkaitan antara observasi dan prediksinya.

beda2

Untuk ukuran asosiasi dalam Minitab sudah dibahas pada tulisan sebelumnya. Sekarang kita bahas sekilas mengenai tabel klasifikasi SPSS diatas.

Cara membacanya adalah: observasi Y bernilai 0 dan diprediksi 0 (berdasarkan model), sebanyak 5 observasi. Observasi Y yang bernilai 0 tetapi diprediksi 1 sebanyak 1 observasi. Observasi Y yang bernilai 1 tetapi diprediksi 0 sebanyak 2 dan diprediksi bernilai 1 sebanyak 7.

Ada enam observasi yang bernilai 0, tetapi hanya lima diantaranya yang diprediksi bernilai 0. Sehingga persentase benarnya adalah 5/6 = 83.3 persen. Ada sembilan observasi yang bernilai 1, tetapi hanya tujuh diantaranya yang diprediksi bernilai 1, sehingga persentase benarnya adalah 7/9=77.8 persen.

Jumlah prediksi yang benar adalah 5 + 7 = 12, sehingga persentase benar secara keseluruhan adalah  12/15= 80 persen.

Catatan: Cara mencari prediksi sama seperti tulisan sebelumnya. Selanjutnya dibawah tabel adalah tulisan The cut value is 0.500. Ini menunjukkan bahwa jika nilai prediksi  dibawah 0,5 dianggap sama dengan 0, tetapi jika diatas 0,500 dianggap sama dengan 1. Cut Value ini bisa diganti-ganti dalam pilihan SPSS.

Perbedan Ukuran-Ukuran Lainnya

Ukuran-ukuran lainnya yang ditampilkan SPSS adalahChi-Square, Chi-Square Hosmer and Lemeshow (option), Cox & Snell R Square dan Nagelkerke R Square. Sedangkan Minitab menampilkan output Chi-Square Pearson, Chi-Square Deviance dan Chi-Square Hosmer and Lemeshow

beda3

Perhitungan Somers’ D, Goodman-Kruskal Gamma, Kendall’s Tau-a Pada Regresi Logit

Seorang pengunjung blog ini (Dian) bertanya sebagai berikut:

Salam.
Pak,saya  sedang olah data menggunakan logit. Hasil yang saya peroleh nilai somers’d, goodman-kruskal gamma, dan kendall’s tau-a masing-masing  adalah 0.83, 0.84, & 0.30

Pertanyaannya:
1. Apa nilai-nilai  tersebut sudah bisa mengatakan bahwa model saya bagus Pak? Nilai Somers’d dan goodmn-kruskal gamma memang mendekati angka1, namun nilai kendall’s tau-a jauh dari 1..
2. Sebenarnya maksud dari nilai-nilai tersebut sebagai  ringkasan asosiasi tabel concordant&discordant itu apa ya Pak? Apa interpretasi untuk masing-masing nilai (somer’s D,goodmn-krskl gamma,&kendall’s tau-a).
3. Apakah ada indikator atau batasan nilai yang pasti untuk somers’d,goodman-kruskal gamma,&kendall’s tau-a, jika dikatakan daya prediksi model bagus dan tidak bagus?soalnya dari penjelasan hanya dikatakan semakin mendekati 1 berarti semakin baik..jadi tidak ada batas bawahnya yang pasti.
4. Apa kelebihan olah data logit menggunakan minitab dibandingkan dengan spss?

Wuih. Pertanyaannya banyak sekali. Tapi ndak apa-apa. Saya senang karena hal tersebut juga menunjukkan adanya respons yang baik terhadap tulisan-tulisan dalam blog ini.

Baiklah, untuk pertanyaan 1 – 3 akan dijawab dalam tulisan ini. Pertanyaan keempat akan dijawab pada tulisan berikutnya (biar tidak terlalu panjang postingannya)

Ketika kita menggunakan regresi logit pada Minitab, salah satu output yang didapatkan adalah ukuran asosiasi antara variabel respons (variabel terikat) dengan probabilita prediksi dari variabel respons tersebut. Ukuran-ukuran tersebut adalah ringkasan dari tabel concordant, discordant, ties, yaitu Somer’s D,  Goodman-Kruskal Gamma, Kendall’s Tau-a.

Apa makna dari masing-masing ukuran tersebut dan bagaimana menghitungnya ?

Untuk memperjelasnya, mari kita lihat contoh berikut:

Misalnya, kita ingin meregresikan umur  (X) terhadap keputusan membeli mobil (Y). Umur dalam satuan tahun dan keputusan membeli mobil  dalam bentuk variabel dummy ( 1 = membeli mobil, 0 = tidak membeli mobil). Misalnya kita punya data sebanyak 15 responden sebagai berikut:

somer1

Output minitab untuk regresi binary logitnya sebagai berikut: (agar lebih fokus, hanya ditampilkan bagian yang akan dibahas. Untuk  mengetahui prosedur penggunaan minitab silakan lihat tulisan sebelum ini)

somer2

Dari output tersebut, kita dapatkan persamaan regresi logistiknya sebagai berikut:

somer3

(Catatan: hati-hati menginterpretasikan persamaan ini. Lihat tulisan disini mengenai interpretasi tersebut)

Dimana P(xi) adalah peluang membeli mobil dan 1-P(xi) adalah peluang tidak membeli mobil.

Oleh karenanya, ln [P(xi)/1-P(xi)] secara sederhana merupakan log dari perbandingan antara peluang membeli mobil dengan peluang tidak membeli mobil. Oleh karenanya juga, koefisien dalam persamaan (0.18648) ini menunjukkan pengaruh dari umur terhadap peluang relative individu membeli mobil yang dibandingkan dengan peluang tidak membeli mobil.

Sekarang kita lihat bagian output Measures of Association, yang mengukur asosiasi/hubungan antara variabel response (variabel terikat) dengan prediksi probabilita dari variabel terikat tersebut.

Pertama-tama, kita lihat dulu pengertian Concordant, Discordant dan Ties dari output tersebut.

Secara definisi: suatu pasangan observasi adalah concordant jika observasi dengan nilai respons (variabel terikat) 1 mempunyai prediksi probabilita (berdasarkan model) yang lebih tinggi dibandingkan dengan nilai respons 0. Sebaliknya suatu pasangan observasi adalah discordant jika observasi dengan nilai respons  1 mempunyai prediksi probabilita yang lebih rendah dibandingkan dengan nilai respons 0. Selanjutnya, suatu pasangan adalah ties jika observasi  dengan nilai respons 1 mempunyai prediksi probabilita yang sama dengan nilai respons 0.

Bingung dengan definisi tersebut ? Mari kita hitung secara manual dan bertahap untuk mempermudahnya. Lihat tabel dibawah ini:

somer4

Kolom (1) adalah nilai Y, kolom (2) adalah nilai X.

Kolom (3) adalah prediksi probabilita dari masing-masing observasi kita. Bagaimana cara menghitungnya ? Masukkan masing-masing nilai X (umur) dalam persamaan regresi logistik diatas. Misalnya  untuk umur 60 (baris pertama), nilai g(x) = -6.386 + 0.18648(60) = 4.7978. Demikian seterusnya

Kolom (4) adalah rangking untuk g(x), dengan nilai terendah diberik ranking 1, dstnya.

Kolom (5) adalah nilai concordant. Untuk menghitungnya, bandingkan ranking g(x) pada observasi dengan nilai respons= 1 terhadap observasi dengan nilai respons=0, dan hitung berapa banyak ranking g(x) untuk observasi respons=0 yang lebih rendah dibandingkan observasi respons=1.

Misalnya untuk  baris pertama, ranking g(x)=15.  Ternyata seluruh observasi dengan respons=0 (ada 6 observasi) memiliki ranking lebih kecil dari 15. Sehingga pada baris pertama ini concordantnya = 6.

Misalnya untuk baris keempat, ranking g(x)=4. Sekarang perhatikan ranking g(x) untuk observasi dengan respons=0.  Ada tiga ranking yang berada dibawah ranking 4, yaitu 1, 1, dan 3. Dengan demikian concordant pada baris keempat ini adalah 3. Demikian seterusnya.

Kolom (6) adalah nilai discordant. Cara menghitungnya adalah kebalikan dari concordant. Dalam hal ini yang dicari adalah ranking yang lebih besar. Misalnya pada baris kesembilan, ranking g(x) = 6. Perhatikan ranking g(x) untuk respons=1. Ada dua ranking yang lebih besar dari 6 yaitu 7 dan 8. Sehingga discordant pada baris kesembilan ini adalah 2.

Kolom (7) adalah nilai ties. Cara menghitungnya dengan mencari ranking yang sama antara respons =1 dan respons=0.  Perhatikan pada baris keempat, ranking g(x) = 4. Pada respons=0 juga terdapat satu ranking yang bernilai 4, sehingga ties pada baris keempat ini adalah 1.

Concordant, Discordant dan Ties ini kemudian dijumlahkan untuk menghitung  Somer’s D,  Goodman-Kruskal Gamma, Kendall’s Tau-a.

Rumus masing-masingnya sebagai berikut:

Somers’ D           = (nc – nd) / (nc + nd + nt)

Goodman-Kruskal Gamma = (nc – nd) / (nc + nd)

Kendalls Tau-a   = (nc – nd) / (0.5 x N x (N-1))

dimana

nc           = jumlah concordant

nd           = jumlah discordant

nt            = jumlah ties

N             = banyaknya observasi

Dari tabel  perhitungan tadi, maka nilai masing-masingnya adalah sebagai berikut:

Somers D             = (49 – 4) / (49 + 4 + 1) = 0,83

Goodman-Kruskal Gamma = (49 – 4) / (49 + 4) = 0,85

Kendalls Tau-a   = (49 – 4) / (0.5 x 15 x (15-1)) = 0,43.

Beberapa catatan penting dari ketiga pengukuran ini adalah:

Somers’ D memperhitungkan ties dalam faktor pembaginya sedangkan Goodman-Kruskal Gamma mengabaikan (tidak mengikutkan dalam perhitungan) nilai ties ini. Sehingga ketika ada ties, nilai Somers’D akan lebih kecil dibandingkan Goodman-Kruskal Gamma. Tetapi ketika tidak ada ties, nilai Somers’ D akan sama dengan Goodman-Kruskal Gamma.

Oleh karenanya, jika data kita memiliki banyak ties, ukuran yang lebih cermat adalah menggunakan Somers D.

Berbeda dengan dua pengukuran lainnya, Kendalls Tau-a, menggunakan jumlah observasi sebagai faktor pembagi.  Berdasarkan rumus tersebut, semakin banyak observasi maka akansemakin kecil nilai Kendalls Tau-a (dengan asumsi proporsi  concordant, discordant dan ties tidak berubah). Oleh karenanya, penggunaan Kendalls Tau-a ini menurut saya lebih tepat digunakan pada sampel kecil.

Lalu bagaimana kita menginterpretasi nilai-nilai yang diperoleh ?

Sebagaimana jenis pengukuran asosiasi/korelasi lainnya, tidak ada patokan baku untuk menyatakan suatu nilai asosiasi/korelasi memiliki hubungan yang kuat (atau mungkin saya belum ketemu referensinya ya). Patokannya hanya, semakin mendekati 1 maka akan semakin kuat hubungan yang diuji.

Ada juga yang menyatakan kalau angkanya diatas 0,5 maka dianggap hubungannya sudah kuat (karena kalau rentang 0 – 1 kita bagi dua, jika lebih setengah dianggap sudah mendekati 1).

Ada juga yang menyatakan kalau angkanya diatas 0,7 baru dianggap hubungannya kuat. Dengan dalih, kalau korelasi tersebut dikuadratkan, maka akan mendapatkan koefisien determinasi diatas 0,5.

Kalau menurut saya, untuk menginterpretasikan kuat atau lemahnya suatu angka asosiasi/korelasi sangat bersifat kasuistis. Tergantung pada kasus yang akan diuji hubungannya tersebut.  Ini pendapat saya lho. Silakan cari referensi yang mungkin lebih mendukung.

Salam. Kita sambung pada tulisan berikutnya.

Forecasting dengan Minitab (Seri 4 Peramalan)

Bagian ini akan membahas mengenai cara peramalan nilai (forecasting) setelah kita memilih model peramalan terbaik. Sebagai seri keempat dari tulisan yang membahas mengenai peramalan, sebaiknya Anda terlebih dahulu membaca tulisan seri 1, 2 dan 3 yang ada di blog ini. Selanjutnya, sebagaimana halnya dengan seri ketiga, tulisan ini juga akan mengaplikasikan program Minitab.

Mengikuti data yang diberikan pada tulisan seri 3, setelah dilakukan analisis trend didapatkan nilai-nilai MAPE, MAD dan MSD untuk model linear, kuadratik, pertumbuhan eksponensial dan Kurva S sebagai berikut:

Ukuran

Linear

Kuadratik

Pertumbuhan Eksponensial

Kurva S

MAPE

15.1528

14.2028

18.7619

14.3849

MAD

1.4400

1.2442

1.6291

1.4344

MSD

3.5200

2.2465

3.8937

3.9012

Catatan: Pada tulisan seri 3, kita hanya mencontohkan cara mengestimasi untuk model Linear. Untuk latihan, silakan dengan data yang sama lakukan estimasi untuk model-model lainnya, untuk mendapatkan nilai MAPE, MAD dan MSD nya.

Dari tabel diatas terlihat bahwa untuk ketiga pengukuran (MAPE, MAD dan MSD), model kuadratik memberikan nilai yang terkecil. Oleh karenanya, kita menetapkan model kuadratik sebagai model terbaik yang akan digunakan untuk peramalan data kita.

Selanjutnya, pada program Minitab klik Stat > Time Series > Trend Analysis. Akan muncul tampilan berikut:

trend-seri-4

Pada kotak variable isikan nama variabel yang akan diramalkan (dalam kasus kita adalah penjualan). Pada Model Type, klik Quadratic. Kemudian klik Generate forecast. Selanjutnya isikan pada Number of forecast jumlah periode peramalan kita kedepan (misalnya 5 tahun kedepan). Pada Starting from origin, isikan tahun dasar peramalan. Dalam contoh, tahun dasarnya adalah periode ke 10 (ingat pada seri ketiga data kita ada 10 periode). Anda dapat mengisi dengan angka yang berbeda, misalnya menggunakan tahun dasar periode 6, 7 atau 8 dstnya. Jika kotak ini dikosongkan, Minitab akan mengartikan bahwa kita akan melakukan peramalan menggunakan tahun dasar terakhir (dalam kasus ini sama dengan periode 10).

Setelah mengisi semua pilihan tadi, kemudian klik OK dan akan keluar tampilan berikut: (Catatan: untuk pilihan lain, silakan dicoba-coba untuk melihat output yang dihasilkan Minitab).

grap-seri-4

Tampilan 1 di atas adalah tampilan grafik yang menyajikan grafik data aktual (sebenarnya), grafik data fit (nilai data periode lalu menggunakan model kuadratik) dan grafik forecast (nilai peramalan kedepan).

Selanjutnya, output Minitab pada Windows Session memberikan hasil sebagai berikut:

Trend Analysis

Data Penjualan

Length 10.0000

NMissing 0

Fitted Trend Equation

Yt = 1.81667 + 0.691667*t + 0.155303*t**2

Accuracy Measures

MAPE: 14.2028

MAD: 1.24424

MSD: 2.24652

Row Period Forecast

1     11   28.2167

2     12   32.4803

3     13   37.0545

4     14   41.9394

5     15   47.1348

Tampilan output pada windows Session Minitab memberikan model kuadratik dari peramalan, ukuran keakuratan (MAPE, MAD dan MSD) dan nilai peramalan selama lima periode kedepan. Dalam contoh terlihat bahwa pada periode ke 11 (tahun 2009 dalam kasus kita) nilai penjualan diperkirakan sebesar 28,2167, pada periode ke 12 (tahun 2010) sebesar 32,4803 dan seterusnya.

Ok. Sekian dulu tulisan pada bagian ini. Pada seri berikutnya, kita akan mengaplikasikan program paket komputer lainnya untuk peramalan.

Estimasi dan Pemilihan Model dengan Minitab (Seri 3 Peramalan)

Tulisan seri 3 peramalan ini akan memberikan tahapan estimasi model untuk metode peramalan sederhana, sekaligus cara memilih model terbaik dari model-model yang ada. Secara lebih khusus, tulisan ini akan membahas aplikasi untuk program Minitab. (Pada seri-seri berikutnya, dengan topik yang sama, akan dibahas aplikasi untuk program statistik lainnya).

Sebagai latihan, misalnya kita punya data penjualan selama 10 tahun terakhir (1999 – 2008), secara berurut sebagai berikut: 2, 3, 6, 9, 10, 11, 14, 16, 18, 27 (angka-angkanya dibuat kecil hanya untuk menyederhanakan).

Buka program Minitab, ketikkan angka tersebut pada worksheet Minitab secara berurut pada satu kolom (misalnya di kolom C1 dan beri nama kolom tersebut dengan nama Penjualan). Angka tahun tidak perlu diinputkan.

Selanjutnya, Klik: Stat > Time Series > Trend Analysis. Akan muncul tampilan berikut:

Tampilan 1. Trend Analysis

1-seri3

Masukkan nama variabel yang akan dianalisis pada kotak variable (dalam contoh kita misalnya Penjualan). Pilih Model Type (dalam contoh kita misalnya adalah Linear), kemudian klik OK. Akan muncul output berikut:

Tampilan 2. Output Grafik

2-seri-3


Baris pertama dari output grafik adalah judul grafik. Baris kedua adalah model trend yang kita pilih (linear). Baris ketiga adalah persamaan model trend linear yang terbentuk dari data yang kita input sebelumnya yaitu Yt = -1.6 + 2.4T.

Selanjutnya diberikan dua grafik, dengan sumbu vertikal adalah variabel yang dianalisis (dalam contoh kita adalah penjualan) dan sumbu horizontal adalah periode waktu (dalam Minitab periode waktu dinyatakan sebagai periode 1, 2, …. dst). Terdapat grafik dengan garis tidak terputus-putus dan berwarna hitam. Garis dan titik-titik pada grafik tersebut adalah menggambarkan trend dari data sebenarnya (Actual). Berikutnya, terdapat grafik dengan garis terputus-putus dan berwarna biru. Garis dan titik-titik pada grafik tersebut menggambarkan nilai pendugaan dari model (Fits).

Sebagaimana yang dikemukakan sebelumnya, ramalan tidak akan pernah tepat 100 %. Oleh karenanya, usaha yang dapat kita lakukan hanyalah menentukan model yang memberikan peramalan dengan nilai kesalahan (ketidaktepatan) sekecil mungkin.

Lalu bagaimana kita dapat memperkirakan nilai kesalahan peramalan kita untuk masa yang akan datang ?

Tentunya kesalahan peramalan untuk masa yang akan datang (sesuatu yang belum terjadi) tidak dapat kita hitung secara pasti. Hal tersebut hanya dapat dilakukan melalui pendekatan dengan membandingkan nilai fits dan actual dari data pada masa yang lalu. Secara grafis, ini ditunjukkan oleh perbedaan antara titik-titik pada garis biru putus-putus dengan titik-titik pada garis hitam tidak terputus-putus dari grafik di atas (pada tahun yang sama).Secara numeris, nilai-nilai yang umum adalah : MAPE (Mean Absolute Percentage Error), MAD (Mean Absolute Deviation), atau MSD (Mean Square Deviation).

Semakin kecil nilai-nilai MAPE, MAD, atau MSD, semakin kecil nilai kesalahannya. Oleh karenanya, dalam menetapkan model yang akan digunakan dalam peramalan, pilihlah model dengan nilai MAPE, MAD atau MSD yang paling kecil.

Output grafik Minitab diatas memberikan nilai MAPE, MAD dan MSD masing-masingnya sebesar 15.1528, 1.44 dan 3.52 seperti yang terlihat di sudut kanan bawah. Makna dari masing-masing pengukuran dan perhitungannya secara manual diberikan sebagai berikut:

MAPE (Mean Absolute Percentage Error), mengukur ketepatan nilai dugaan model, yang dinyatakan dalam bentuk rata-rata persentase absolut kesalahan.

3-seri31

MAD (Mean Absolute Deviation), mengukur ketepatan nilai dugaan model,yang dinyatakan dalam bentuk rata-rata absolut kesalahan

4-seri31

MSD (Mean Squarred Deviation), mengukur ketepatan nilai dugaan model, yang dinyatakan dalam rata-rata kuadrat dari kesalahan

7-ramal

Dari contoh data kita, maka nilai MAPE, MAD dan MSD masing-masingnya dapat dihitung sebagai berikut:

tahun

Y

Ŷ

Y-Ŷ

abs Y – Ŷ

abs (Y-Ŷ/Y)

(Y-Ŷ)2

(1)

(2)

(3)

4=(2-3)

5= abs(4)

6=5/2

7=(2-3)2

1

2

0.80

1.20

1.20

0.60

1.44

2

3

3.20

-0.20

0.20

0.07

0.04

3

6

5.60

0.40

0.40

0.07

0.16

4

9

8.00

1.00

1.00

0.11

1.00

5

10

10.40

-0.40

0.40

0.04

0.16

6

11

12.80

-1.80

1.80

0.16

3.24

7

14

15.20

-1.20

1.20

0.09

1.44

8

16

17.60

-1.60

1.60

0.10

2.56

9

18

20.00

-2.00

2.00

0.11

4.00

10

27

22.40

4.60

4.60

0.17

21.16

Jumlah

116

116.00

0.00

14.40

1.52

35.20

Catatan: kolom 3 adalah nilai dugaan yang diperoleh dengan memasukkan angka urutan tahun kedalam persamaan model Ŷ= -1.6 + 2.4T. Misalnya untuk tahun ketiga, maka Ŷ=-1.6 + 2.4(3)=5.60

MAPE = (1.52/10)x100 = 15.2 %

MAD = 14.40/10 = 1.44

MSD = 35.20/10 = 3.52

Dengan cara yang sama, kita dapat memilih model kuadratik, model pertumbuhan eksponensial maupun kurva S (dari tampilan 1). Selanjutnya, nilai-nilai MAPE, MAD dan MSD masing-masing model dibandingkan, dan pilihlah model dengan nilai-nilai tersebut yang paling kecil sebagai model terbaik untuk peramalan.

Namun demikian, ada dua catatan penting terkait dengan aplikasi program Minitab ini untuk peramalan.

1. Dalam output Minitab, persamaan model trend pertumbuhan eksponensial adalah:

Yt = β0cT

Dimana c = eT

Bandingkan rumus ini dengan rumus trend pertumbuhan eksponensial pada tulisan seri 2. Ini sebenarnya adalah identik.

2.Model kurva S dalam Minitab adalah model Pearl-Reed logistic dengan rumus sebagai berikut:

7-seri3

Perhatikan, model ini memiliki perbedaan dengan model kurva S seperti yang dibahas pada seri 2 tulisan ini.

Selanjutnya, setelah mendapatkan model terbaik, kita akan melakukan peramalan dengan model tersebut. Hal ini akan dibahas pada seri ke 4 tulisan ini.


Metode Hubungan Deret Waktu untuk Peramalan (Seri 1 Peramalan)

Ramalan (forecast) merupakan dugaan atau perkiraan mengenai terjadinya suatu kejadian atau peristiwa di waktu yang akan datang. Ramalan ini sangat berguna dalam berbagai bidang kehidupan, terutama dalam rangka perencanaan untuk mengantisipasi berbagai keadaan yang terjadi pada masa yang akan datang.

Ramalan memang tidak akan pernah tepat 100%, karena masa depan mengandung masalah ketidakpastian. Namun demikian, dengan pemilihan metode yang tepat, kita membuat peramalan dengan tingkat kesalahan yang kecil atau memberikan perkiraan yang sebaik mungkin terhadap keadaan masa yang akan datang.

Ramalan bisa dilakukan secara kualitatif maupun kuantitatif. Terkait dengan ramalan kuantitatif, metode peramalannya pada dasarnya dapat dibedakan atas:

1. Metode peramalan melalui analisis suatu variabel yang akan diperkirakan dengan variabel waktu, yang dikenal dengan metode hubungan deret waktu. Data yang digunakan adalah data deret waktu (time series).

2. Metode peramalan melalui analisis pola hubungan antara variabel yang akan diperkirakan dengan variabel-variabel lain yang mempengaruhinya (waktu dan/serta bukan waktu). Metode ini sering disebut metode hubungan sebab akibat (causal method). Data yang digunakan dapat berupa data time series maupun data cross section.

Tulisan ini merupakan seri pertama (pengantar) dari seri tulisan yang akan memperkenalkan berbagai metode peramalan hubungan deret waktu. Secara lebih khusus, seri tulisan ini akan mencakup beberapa jenis model/metode peramalan hubungan deret waktu yaitu:

  1. Model Linear
  2. Model Quadratic
  3. Model Exponential Growth
  4. Model S-Curve (Pearl-Reed Logistic)
  5. Model Moving Average
  6. Model Single Exponential Smoothing
  7. Model Double Exponential Smoothing
  8. Metode Winter
  9. Model ARIMA

Masing-masing model/metode akan dibahas pada seri berikutnya dari seri tulisan ini.

Mudah Memahami Regresi Logit

Dalam salah satu tulisan di blog ini, kita sudah pernah membahas bagaimana memperlakukan variable independent (variable bebas) yang bersifat kualitatif (skala pengukuran nominal atau ordinal) dalam model regresi, yaitu dengan membentuk variable dummy.

Nah, pada tulisan kali ini kita akan melihat bagaimana jika dalam model regresi tersebut yang bersifat kualitatif adalah variable dependent (terikat). Dalam model dengan variabel kualitatif, terdapat beberapa macam teknik pendekatan model yang salah satunya adalah model logit yang menjadi focus dalam tulisan ini. Selain itu, tulisan ini juga lebih menfokuskan pada variable kualitatif yang hanya mempunyai dua kemungkinan nilai, misalnya kesuksesan (sukses – gagal), kesetujuan (setuju – tidak setuju), keinginan membeli (ya – tidak). Variabel kualitatif yang hanya mempunyai dua kemungkinan nilai ini disebut dengan variable biner. (Pada tulisan-tulisan berikutnya, mudah-mudahan akan kita bahas untuk variable kualitatif dengan lebih dari dua kemungkinan nilai).

Selanjutnya, dalam mengestimasi model logit juga terdapat beberapa metode yaitu metode maximum likelihood, noninteractive weighted least square dan discriminant function analysis. Namun demikian, metode yang umum digunakan dalam software paket-paket statistic adalah metode maximum likelihood. Tulisan menggunakan program Minitab yang juga mengaplikasikan metode maximum likelihood dalam estimasi model logit.

Sesuai dengan judul tulisan kali ini, kita tidak akan membahas teori-teori model logit dan maximum likelihood, tetapi lebih pada penekanan bagaimana mengolah data dan menginterpretasikan hasilnya. Bagi yang berminat mendalami teori-teori yang melatarbelakanginya, tersedia banyak literature yang terkait dengan hal tersebut.

Misalnya kita ingin memprediksi bagaimana pengaruh umur, jenis kelamin dan pendapatan terhadap pembelian mobil. Berdasarkan hasil survai terhadap 130 responden, didapatkan datanya sebagai berikut: (silakan download di sini, masih dalam bentuk word, tetapi bisa anda copy ke Minitab).

Dimana:

Y : 1 = jika konsumen membeli mobil; 0 = jika konsumen tidak membeli mobil

X2: umur responden dalam tahun

X3: 1= jika konsumen berjenis kelamin wanita; 0 = jika konsumen berjenis kelamin pria

X4: 0= jika konsumen berpendapatan rendah; 1 = jika konsumen berpendapatan sedang; 2= jika konsumen berpendapatan tinggi

Pengolahan data dilakukan melalui tahapan-tahapan berikut:
1. Buka program Minitab. Tampilan awal program Minitab terdiri dari dua halaman. Halaman atas dinamakan halaman Session, untuk tampilan perintah dan hasil. Halaman bawah dinamakan halaman worksheet untuk penulisan data.
2. Ketik data di halaman worksheet, atau sebagai latihan copy data seperti yang diberikan di tas. (lihat tampilan 1)
logit11

3. Setelah itu klik Stat> Regression> Binary Logistic Regression. Kotak dialog yang ditampilkan sebagai berikut:

logit2

4. Isikan pada kotak Response variabel Y dengan cara, klik kotak response, klik variabel Y kemudian klik Select. Selanjutnya isikan pada model variabel X2,X3 dan X4 dengan cara klik kotak Model, klik (atau blok sekaligus) X2, X3 dan X4, kemudian klik Select.

Selanjutnya, karena variabel X4 merupakan peubah kategori (ordinal) dengan lebih dari kategori (yaitu 0=pendapatan rendah, 1=pendapatan sedang dan 2=pendapatan tinggi) maka diubah terlebih dahulu ke dalam 2 variabel dummy, untuk mengembangkan model yang logis dan mudah diinterpretasi, sebagai berikut:

X4_1 = 1, jika konsumen berpendapatan sedang; 0 = jika selainnya

X4_2 = 1, jika konsumen berpendapatan tinggi; 0 = jika selainnya

Dalam program Minitab untuk mengkonversi ini dengan cara memasukkan peubah X4 ke dalam kotak isian Factors. Dengan cara demikian, Minitab secara otomatis akan menjadikan variabel X4 menjadi dua variabel dummy yaitu X4_1 dan X4_2. Peubah X3 sebenarnya juga dapat dimasukkan ke dalam kotak isian Factors, tetapi karena berisi data numerik ( 1 atau 0) maka tidak perlu dimasukkan.

Hasil pemasukan variabel tersebut dapat dilihat dalam tampilan berikut:

logit3

5. Setelah itu klik, OK. Maka akan muncul hasil regresi logit di halaman Session sebagai berikut (disini hanya ditampilkan bagian-bagian terpenting saja yang akan dibahas):

logit7

Dalam pelaporannya, model regresi logistiknya dapat dituliskan sebagai berikut:

logit4

Yang dari output minitab contoh kita menjadi sebagai berikut:

logit5

Model ini merupakan model peluang membeli mobil [(P(xi)] yang dipengaruhi oleh faktor-faktor umur, jenis kelamin dan pendapatan. Dapat kita lihat bahwa model tersebut adalah bersifat non-linear dalam parameter. Selanjutnya, untuk menjadikan model tersebut linear, maka dilakukan transformasi dengan logaritma natural, (transformasi ini yang menjadi hal penting dalam regresi logistik dan dikenal dengan istilah “logit transformation”), sehingga menjadi:

logit6

1-P(xi) adalah peluang tidak membeli mobil, sebagai kebalikan dari P(xi) sebagai peluang membeli mobil. Oleh karenanya, ln [P(xi)/1-P(xi)] secara sederhana merupakan log dari perbandingan antara peluang membeli mobil dengan peluang tidak membeli mobil. Oleh karenanya juga, koefisien dalam persamaan (3) ini menunjukkan pengaruh dari umur, jenis kelamin dan pendapatan terhadap peluang relative individu membeli mobil yang dibandingkan dengan peluang tidak membeli mobil.

Sebagaimana halnya dengan model regresi linear dengan metode OLS, kita juga dapat melakukan pengujian arti penting model secara keseluruhan. Jika pada metode OLS kita menggunakan uji F, maka pada model ini, kita menggunakan uji G. Statistik G ini menyebar menurut sebaran Khi-kuadrat (χ2). Karenanya dalam pengujiannya, nilai G dapat dibandingkan dengan nilai χ2 tabel pada α tertentu dan derajat bebas k-1. (kriteria pengujian dan cara pengujian persis sama dengan uji F pada metode regresi OLS). Tetapi, anda juga bisa melihat nilai p-value dari nilai G ini yang biasanya ditampilkan oleh sofware-software statistik.

Dari hasil Minitab kita, didapatkan nilai G sebesar 14,447 dengan p-value 0,006. Karena nilai ini jauh dibawah 10 % (jika kita menggunakan pengujian dengan α=10%), atau jauh dibawah 5% (jika kita menggunakan pengujian dengan α=5%), maka dapat disimpulkan bahwa model regresi logistik secara keseluruhan dapat menjelaskan atau memprediksi keputusan konsumen dalam membeli mobil.

Selanjutnya, untuk menguji faktor mana yang berpengaruh nyata terhadap keputusan pilihan membeli mobil tersebut, dapat menggunakan uji signifikansi dari parameter koefisien secara parsial dengan statistik uji Wald, yang serupa dengan statistik uji t atau uji Z dalam regresi linear biasa, yaitu dengan membagi koefisien terhadap standar error masing-masing koefisien.

Dari output minitab ditampilkan nilai Z dan p-valuenya. Dari hasil kita, berdasarkan nilai p-value (dan menggunakan kriteria pengujian α=10%), kita dapat melihat seluruh variabel (kecuali X4_1), berpengaruh nyata (memiliki p-value dibawah 10%) terhadap keputusan membeli mobil.

Lalu, bagaimana kita menginterpretasikan koefisien regresi logit dari persamaan (3) di atas ? Dalam model regresi linear, koefisien β1 menunjukkan perubahan nilai variabel dependent sebagai akibat perubahan satu satuan variabel independent. Hal yang sama sebenarnya juga berlaku dalam model regresi logit, tetapi secara matematis sulit diinterpretasikan.

Koefisien dalam model logit menunjukkan perubahan dalam logit sebagai akibat perubahan satu satuan variabel independent. Interpretasi yang tepat untuk koefisien ini tentunya tergantung pada kemampuan menempatkan arti dari perbedaan antara dua logit. Oleh karenanya, dalam model logit, dikembangkan pengukuran yang dikenal dengan nama odds ratio (ψ). Odds ratio untuk masing-masing variabel ditampilkan oleh Minitab sebagaimana yang terlihat di atas.

Apa yang dimaksud dengan odds ratio dan bagaimana memahaminya? Odds ratio secara sederhana dapat dirumuskan: ψ = eβ, dimana e adalah bilangan 2,71828 dan β adalah koefisien masing-masing variabel. Sebagai contoh, odds ratio untuk variabel X3 = e0.7609 = 2,14 (lihat output minitab).

Dalam kasus variabel X3 (jenis kelamin dimana 1 = wanita dan 0 = pria), dengan odds ratio sebesar 2,14 dapat diartikan bahwa peluang wanita untuk membeli mobil adalah 2,14 kali dibandingkan pria, jika umur dan pendapatan mereka sama. Artinya wanita memiliki peluang lebih tinggi dalam membeli mobil dibandingkan pria.

Dalam kasus variabel X2 (umur), dengan odds ratio sebesar 0,90 dapat diartikan bahwa konsumen yang berumur lebih tua satu tahun peluang membeli mobilnya adalah 0,90 kali dibandingkan konsumen umur yang lebih muda (satu tahun), jika pendapatan dan jenis kelamin mereka sama. Artinya orang yang lebih tua memiliki peluang yang lebih rendah dalam membeli mobil.

Dalam konteks umur ini (yang merupakan variabel dengan skala ratio), hati-hati menginterpretasikan nilai perbedaan peluangnya. Jika perbedaan umur lebih dari 1 tahun, misalnya 10 tahun, maka odds rationya akan menjadi 0,36, yang diperoleh dari perhitungan sbb: ψ=e(10 x -0.10322) . Artinya peluang membeli mobil konsumen yang berumur lebih tua 10 tahun adalah 0,36 dibandingkan konsumen yang lebih muda (10 tahun) darinya.

Selanjutnya, dalam konteks variabel pendapatan, terlihat bahwa X41 tidak berpengaruh signifikan. Artinya, peluang membeli mobil antara konsumen pendapatan sedang dan pendapatan rendah adalah sama saja. Sebaliknya, untuk X42, dapat diinterpretasikan bahwa peluang membeli mobil konsumen pendapatan tinggi adalah 2,26 kali dibandingkan pendapatan rendah, jika umur dan jenis kelaminnya sama. (Perhatikan, baik untuk X41 maupun untuk X42, perbandingannya adalah dengan pendapatan rendah. Lihat penjelasan ini lebih lanjut pada tulisan mengenai variabel dummy yang ada di blog ini).

Output Minitab juga menampilkan ukuran-ukuran asosiasi (hubungan) antara nilai aktual (sebenarnya) dari variabel dependent (Y) dengan dugaan peluangnya, yang dapat kita interpretasikan sebagai berikut:

Dari nilai Concordant dapat disimpulkan bahwa 70,2 persen pengamatan dengan kategori membeli (Y=1) diduga mempunyai peluang lebih besar pada kategori membeli. Dari nilai Discordant dapat disimpulkan bahwa 28,4 persen pengamatan dengan kategori tidak membeli (Y=0) diduga mempunyai peluang lebih besar pada kategori membeli. Nilai Ties merupakan persentase pengamatan dengan peluang pada kategori membeli sama dengan peluang kategori tidak membeli. Hubungan yang kuat (dan sekaligus menunjukkan semakin baiknya daya prediksi model) ditandai oleh besarnya nilai Concordant dan kecilnya nilai Discordant dan Ties.

Selanjutnya juga terdapat ukuran-ukuran ringkas (Sommer’s D, Goodman-Kruskal Gamma dan Kendall’s Tau-a). Semakin besar ukuran asosiasi ini ke nilai 1, maka semakin baik daya prediksi dari model dugaan yang diperoleh.