Regresi Dengan Variabel Terikat Dummy

  • Uploaded by: AgungHndoko
  • 0
  • 0
  • February 2021
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Regresi Dengan Variabel Terikat Dummy as PDF for free.

More details

  • Words: 2,891
  • Pages: 19
Loading documents preview...
EKONOMETRIKA (AKKC 156)

MODEL REGRESI DENGAN VARIABEL TERIKAT DUMMY

Dosen Pembimbing: Drs. H. Karim, M.Si Indah Budiarti, M.Pd

Oleh: Agung Handoko

(A1C111037)

Program Studi Pendidikan Matematika Jurusan Pendidikan Matematika dan Ilmu Pengetahuan Alam Fakultas Keguruan dan Ilmu Pendidikan Universitas Lambung Mangkurat Banjarmasin 2013

DAFTAR ISI DAFTAR ISI.............................................................................................................. i A.

KAJIAN TEORI................................................................................................ 1

B.

DATA ................................................................................................................ 3



KASUS .............................................................................................................. 3



DEFINISI OPERASIONAL .............................................................................. 4

ANALISIS DATA ..................................................................................................... 5 

TAHAPAN-TAHAPAN ESTIMASI MENGGUNAKAN SPSS......................... 5



INTERPRETASI OUTPUT SPSS ..................................................................... 7

1.

Identifikasi Data yang Hilang ............................................................................ 7

2.

Pemberian kode variabel respon oleh SPSS ....................................................... 7

3.

Uji Signifikansi Omnibus terhadap Model ......................................................... 8

4.

Menilai Keseluruhan Model (Overall Model Fit) dan Menilai Kelayakan Model

Regresi ...................................................................................................................... 9 5.

Menguji Koefisien Regresi ............................................................................... 11

7.

Penafsiran dan Prediksi ................................................................................... 13

DAFTAR PUSTAKA .............................................................................................. 17

Regresi dengan Variabel Terikat Dummy

i

A. KAJIAN TEORI

Beberapa penelitian kausal seringkali dibatasi oleh keberadaan variabel dependen yang terbatas. Metode regresi linier seperti yang kita kenal hanya dapat mengakomodir data yang bersifat kontinu dan menyebar normal, tapi bagaimana dengan data terbatas seperti mortalitas, peluang kandidat dalam pemilu, keputusan pembelian, hasil ujian, dan lain sebagainya yang hanya menyisakan 2 kemungkinan atau dikotomi. Regresi linier tidak dapat menyelesaikan kasus dimana variabel depen dennya bersifat dikotomi dan kategorik dengan dua atau lebih kemungkinan (misalnya sukses atau gagal; terpilih atau tidak terpilih; lulus atau tidak lulus; melakukan pembelian atau tidak; mendapat promosi atau tidak, dan lain-lain). Untuk itu kita memerlukan metode yang tepat seperti metode regresi binary logistic. Dengan kata lain, metode regresi binary logistic adalah metode untuk menyelesaikan kasus dimana variabel dependennya bersifat dikotomi atau memiliki 2 kategori. Asumsi-asumsi dalam regresi binary logistic diantaranya adalah sebagai berikut: 

Tidak mengasumsikan hubungan linier antar variabel dependen dan independen.



Variabel dependen harus bersifat dikotomi (2 variabel).



Variabel independen tidak harus memiliki keragaman yang sama antar kelompok variabel.



Sampel yang diperlukan dalam jumlah relatif besar. Ketika suatu data dapat memenuhi asumsi normalitas, linieritas dan

keragaman yang homogen, kita dapat menggunakan prosedur analisis diskriminan untuk mengevaluasi hubungan antara variabel dependen non-metrik, namun regresi logistik akan lebih baik dalam memaparkan hubungan tersebut karena dapat menjelaskan hubungan antar variabel layaknya persamaan linier. Persamaan regresi binary logistic menghasilkan rasio peluang yang dinyatakan dengan transformasi fungsi logaritma (log), dengan demikian fungsi

Regresi dengan Variabel Terikat Dummy

1

transformasi log ataupun ln yang dinamakan model logit (logit transformation) diperlukan untuk p-value. Dengan demikian dapat dinyatakan bahwa logit (p) merupakan log dari peluang (odds ratio) atau likelihood ratio dengan kemungkinan terbesar nilai peluang adalah 1. Dengan demikian, persamaan regresi logistik menjadi: Logit (p) = log (p/1-p) = ln (p/1-p) Dimana: p bernilai antara 0-1. Bentuk umum model yang digunakan pada regresi binary logistic adalah: Ln (p / 1 – p) = β0 + β1X1 + β2X2 + …. + βkXk Dimana: p adalah kemungkinan bahwa Y = 1. X1, X2, X3 adalah variabel independen. β adalah koefisien slope dari persamaan regresi dimana slope di sini adalah perubahan nilai rata-rata dari Y dari satu unit perubahan nilai X.

Regresi dengan Variabel Terikat Dummy

2

B. DATA  KASUS

Ingin diprediksi pengaruh umur, jenis kelamin dan sejarah keluarga terhadap kemungkinan seseorang memiliki kolesterol tinggi. Berdasarkan hasil survei terhadap 40 responden, didapatkan datanya sebagai berikut:

No.

Kolesterol Tinggi (Y)

Umur (dalam tahun) (X1)

Jenis Kelamin (X2)

Sejarah Keluarga (X3)

1

1

51

0

1

2

1

39

1

0

3

1

50

0

1

4

1

45

1

1

5

1

49

0

1

6

1

52

1

1

7

1

37

1

1

8

1

40

1

0

9

1

42

0

1

10

1

29

0

1

11

1

29

1

0

12

1

35

1

1

13

1

41

0

0

14

1

50

1

1

15

1

55

1

1

16

1

39

0

1

17

1

28

1

1

18

1

34

0

0

Regresi dengan Variabel Terikat Dummy

3

19

1

37

0

1

20

1

48

1

1

21

1

55

1

1

22

1

33

1

0

23

1

46

1

1

24

1

38

0

0

25

1

42

0

1

26

0

39

0

0

27

0

38

1

0

28

0

33

0

0

29

0

46

1

0

30

0

45

1

0

31

0

34

0

0

32

0

37

0

1

33

0

27

1

0

34

0

30

0

0

35

0

47

0

0

36

0

54

1

0

37

0

30

0

1

38

0

41

0

0

39

0

35

0

1

40

0

30

1

0

 DEFINISI OPERASIONAL

Variabel dependen: 0,seseorang dengan kolesterol normal Y={ 1,seseorang dengan kolesterol tinggi

Regresi dengan Variabel Terikat Dummy

4

Variabel independen: X1 = umur seseorang dalam tahun X2 = {

0, berjenis kelamin pria 1, berjenis kelamin wanita

0, tidak ada sejarah keluarga kolesterol tinggi X3 = {1, memiliki sejarah keluarga kolesterol tinggi

ANALISIS DATA  TAHAPAN-TAHAPAN ESTIMASI MENGGUNAKAN SPSS

1.

Setelah data diinput dalam lembar kerja SPSS kemudian klik Analyze > Regression > Binary Logistic

2.

Masukkan Y sebagai variabel dependen dengan cara klik Y di kotak kiri, kemudian klik tanda panah di samping kotak Dependent. Masukkan X1, X2 dan X3 ke dalam kotak Covariates, dengan cara klik masing-masing variabel, kemudian klik tanda panah di samping kotak Covariates.

Regresi dengan Variabel Terikat Dummy

5

3.

Kemudian klik Classification plots, Hosmer-Lemeshow goodness-of-fit, Correlation of estimates, dan Iteration of History. Selanjutnya klik Continue.

4.

Selanjutnya klik OK.

5.

Akan keluar output SPSS untuk Model Regresi Binary Logistic.

Regresi dengan Variabel Terikat Dummy

6

 INTERPRETASI OUTPUT SPSS 1.

Identifikasi Data yang Hilang

Case Processing Summary Unweighted Casesa Selected Cases

N Included in Analysis Missing Cases Total

Unselected Cases Total

Percent 40

100.0

0

.0

40

100.0

0

.0

40

100.0

a. If weight is in effect, see classification table for the total number of cases.

Tabel 1 Tabel 1 menunjukkan jumlah responden yang menjadi sampel dalam pembuatan model, dimana berjumlah 48. Dari jumlah tersebut, data keputusan konsumen dalam pembelian mobil, umur, jenis kelamin dan pendapatan semuanya digunakan dalam analisis atau pembuatan model. Selanjutnya, dapat dilihat tidak ada data yang hilang (missing cases) yang diindikasikan N (jumlah) adalah 0.

2.

Pemberian kode variabel respon oleh SPSS

Dependent Variable Encoding Original Value

Internal Value

kolesterol normal

0

kolesterol tinggi

1

Regresi dengan Variabel Terikat Dummy

7

Tabel 2 Tabel 2 menunjukkan kode variabel terikat, yang dalam hal ini adalah 0 untuk konsumen tidak membeli mobil dan 1 untuk konsumen membeli mobil.

3.

Uji Signifikansi Omnibus terhadap Model

Omnibus Tests of Model Coefficients Chi-square Step 1

df

Sig.

Step

12.822

3

.005

Block

12.822

3

.005

Model

12.822

3

.005

Tabel 4 Tabel 4 merupakan nilai Chi Square (χ2) dari model regresi. Sebagaimana halnya model regresi linear dengan metode Ordinary Least Square (OLS), kita juga dapat melakukan pengujian arti penting model secara keseluruhan. Jika metode OLS menggunakan uji F, maka pada model logit menggunakan uji G. Statistik G ini menyebar menurut sebaran Chi Square (χ2). Karenanya dalam pengujiannya, nilai G dapat dibandingkan dengan nilai χ2 tabel pada α tertentu dan derajat bebas (df) = k-1 (kriteria pengujian dan cara pengujian persis sama dengan uji F pada metode regresi OLS). Tetapi, kita juga bisa melihat nilai p-value dari nilai G ini yang biasanya ditampilkan oleh sofware-software statistik, termasuk SPSS. Dari Tabel 4, didapatkan nilai χ2 sebesar 12,822 dengan p-value sebesar 0,005. Karena nilai tersebut signifikan atau jauh di bawah α = 10%, maka dapat disimpulkan bahwa model regresi logistik secara keseluruhan dapat menjelaskan kemungkinan seseorang memiliki kolesterol tinggi.

Regresi dengan Variabel Terikat Dummy

8

4.

Menilai Keseluruhan Model (Overall Model Fit) dan Menilai Kelayakan Model Regresi

Model Summary Step -2 Log likelihood

Cox & Snell R Square

40.103a

1

Nagelkerke R Square

.274

.374

a. Estimation terminated at iteration number 5 because parameter estimates changed by less than .001.

Tabel 5 Cox & Snell R Square merupakan ukuran yang mencoba meniru ukuran R2 pada multiple regression yang didasarkan pada teknik estimasi likelihood dengan nilai maksimum kurang dari 1 sehingga sulit diinterpretasikan. Dilihat dari Tabel 5, nilai Cox & Snell R Square adalah 0,274. Nagelkerke R Square merupakan modifikasi dari koefisien Cox & Snell R Square untuk memastikan bahwa nilainya bervariasi dari 0 sampai 1. Kisaran nilai Nagelkerke R Square adalah 0 hingga 1. Semakin nilai Nagelkerke R Square mendekati angka 1, maka semakin kuat variabel bebas memprediksi variabel terikat. Hal ini dilakukan dengan cara membagi nilai Cox & Snell R Square dengan nilai maksimumnya. Oleh karena itu, nilai Nagelkerke R Square dapat diinterpretasikan seperti nilai R2 pada multiple regression. Dilihat dari output SPSS, nilai Nagelkerke R Square adalah 0,374. Ini berarti variabilitas variabel dependen yang dapat dijelaskan oleh variabilitas variabel independen sebesar 0,374 %. Hipotesis untuk menilai model fit adalah: H0 = Model yang dihipotesakan fit dengan data. HA = Model yang dihipotesakan tidak fit dengan data. Dari hipotesis ini jelas bahwa kita tidak akan menolak H0 agar supaya model fit dengan data.

Regresi dengan Variabel Terikat Dummy

9

Dalam data ini digunakan hipotesisnya sebagai berikut: H0 = tidak ada perbedaan yang nyata antara klasifikasi yang diprediksi (predicted) dengan klasifikasi yang diamati (observed). H1= ada perbedaan yang nyata antara klasifikasi yang diprediksi (predicted) dengan klasifikasi yang diamati (observed).

Hosmer and Lemeshow Test Step 1

Chi-square 13.030

df

Sig. 8

.111

Tabel 6 Hosmer and Lemeshow Test menguji hipotesis nol bahwa data empiris cocok atau sesuai dengan model (tidak ada perbedaan antara model dengan data sehingga model dapat dikatakan fit). Dasar pengambilan keputusannya adalah dengan memperhatikan nilai signifikansi dari Chi Square terhadap kriteria pengujian α = 0.1 pada Hosmer and Lemeshow Test yaitu:  Jika probabilitas > 0,1 maka H0 diterima  Jika probabilitas < 0,1 maka H1 diterima Tabel 6 menunjukkan bahwa besarnya nilai Hosmer and Lemeshow Test sebesar 7,211 dengan probabilitas signifikansi 0,111 > α = 0,1 maka H0 diterima. Hal ini berarti model regresi binary logistic layak digunakan untuk analisis selanjutnya, karena tidak ada perbedaan yang nyata antara klasifikasi yang diprediksi dengan klasifikasi yang diamati.

Regresi dengan Variabel Terikat Dummy

10

5.

Menguji Koefisien Regresi

Variables in the Equation B Step

1a

S.E.

Wald

df

Sig.

Exp(B)

X1

.031

.053

.336

1

.562

1.031

X2

.994

.821

1.464

1

.226

2.702

X3

2.408

.856

7.913

1

.005

11.115

-2.264

2.090

1.174

1

.279

.104

Constant

a. Variable(s) entered on step 1: X1, X2, X3.

Tabel 7 Tabel 7 memberikan estimasi koefisien model dan pengujian hipotesis parsial dari koefisien model. Regresi logistik menghasilkan rasio peluang (odds ratios) terkait dengan nilai setiap prediktor. Peluang (odds) dari suatu kejadian diartikan sebagai probabilitas hasil yang muncul yang dibagi dengan probabilitas suatu kejadian tidak terjadi. Secara umum, rasio peluang (odds ratios) merupakan sekumpulan peluang yang dibagi oleh peluang lainnya. Rasio peluang bagi prediktor diartikan sebagai jumlah relatif dimana peluang hasil meningkat (rasio peluang > 1) atau turun (rasio peluang < 1) ketika nilai variabel prediktor meningkat sebesar 1 unit. Odds ratio pada SPSS dilambangkan dengan Exp(B). Dari tabel 7 diperoleh nilai Exp (B) sebagai faktor pengali (p). Adapun nilai Exp(B) dari variabel independen umur sebesar 1,031, variabel independen jenis kelamin sebesar 2,702, variabel independen sejarah keluarga sebesar 11,115, Penafsirannya adalah:  Angka negatif dianggap probabilitas = 0.  Angka > 1 dianggap probabilitas = 1.  Angka di antara 0 sampai 1, probabilitasnya sesuai angka yang tertera. Nilai Exp(B) dari variabel independen umur sebesar 1,031, maka peluang umur sebesar 1 (karena Exp(B) > 1 maka dibulatkan menjadi 1) dapat diartikan bahwa seseorang yang berumur lebih tua satu tahun, peluang memiliki kolesterol

Regresi dengan Variabel Terikat Dummy

11

tinggi adalah 1,031 kali dibandingkan seseorang yang berumur lebih muda (satu tahun), jika sejarah keluarga dan jenis kelamin mereka sama. Artinya orang yang lebih tua memiliki peluang yang lebih tinggi memiliki kolesterol tinggi. Dalam konteks umur ini (yang merupakan variabel dengan skala rasio), hati-hati menginterpretasikan nilai perbedaan peluangnya. Jika perbedaan umur lebih dari 1 tahun, misalnya 10 tahun, maka odds ratio-nya akan menjadi 0,31, yang diperoleh dari perhitungan exp (10 x 0,031). Artinya peluang seseorang memiliki kolesterol tinggi berumur lebih tua 10 tahun adalah 0,31 kali dibandingkan konsumen yang lebih muda (10 tahun) darinya. Nilai Exp(B) variabel independen jenis kelamin (jenis kelamin dimana 1 = wanita dan 0 = pria) sebesar 2,702, maka peluang jenis kelamin sebesar 2,702. Dapat diartikan bahwa peluang wanita memiliki kolesterol tinggi adalah 2,702 kali dibandingkan pria, jika umur dan sejarah keluarga mereka sama. Artinya wanita memiliki peluang lebih tinggi memiliki kolesterol tinggi dibandingkan pria. Nilai Exp(B) variabel independen sejarah keluarga sebesar 11,115, maka peluang orang yang memiliki sejarah keluarga kolesterol tinggi sebesar 11,115. dapat diartikan bahwa peluang seseorang yang memiliki sejaarah keluarga berkolesterol tinggi adalah 11,115 kali dibandingkan seseorang yang tidak memiliki sejarah keluarga berkolesterol tinggi, jika umur dan jenis kelaminnya sama. Untuk menguji faktor mana yang berpengaruh nyata seseorang yang memiliki kolesterol tinggi tersebut, dapat menggunakan uji signifikansi dari parameter koefisien secara parsial dengan statistik uji Wald, yang serupa dengan statistik uji t atau uji Z dalam regresi linear biasa, yaitu dengan membagi koefisien terhadap standar error masing-masing koefisien. Dengan uji t (Uji Wald) dan pvalue-nya (dengan menggunakan kriteria pengujian α = 10%) terlihat bahwa X3 berpengaruh nyata (karena memiliki p-value dibawah 10%) seseorang yang memiliki kolesterol tinggi. Variabel independen umur dan jenis kelamin tidak signifikan pada α = 10%, namun model regresi ini layak digunakan untuk memprediksi variabel seseorang berkolesterol tinggi, karena secara faktual variabel independen berupa umur dan jenis kelamin bisa saja mempengaruhi seseorang

Regresi dengan Variabel Terikat Dummy

12

berkolesterol tinggi. Ketidaksignifikan data ini mungkin disebabkan karena pengumpulan data yang kurang akurat atau terbatasnya sampel yang diambil. 7.

Penafsiran dan Prediksi Persamaan model regresi binary logistic tersebut adalah: p ln ( ) = -2,264 + 0,031 X1 + 0,994 X2 + 2,408 X3 1 p

Dimana: Y

= Seseorang memiliki kolesterol tinggi

X1

= Umur

X2

= Jenis Kelamin

X3

= Sejarah Keluarga

p

= Peluang seseorang berkolesterol tinggi

1 p

= Peluang seseorang berkolesterol normal

a.

Nilai konstanta sebesar  2,264 berarti pada saat umur berkode 0, jenis kelamin berkode 0, sejarah keluarga 0, maka probabilitas seseorang memiliki kolesterol tinggi sebesar: p ln ( ) =  2,264 1 p p 1 p

= e 2,264

p =

e 2,264 1+ e 2,264

= 0,0941487 = 9,4141%

Karena menghasilkan probabilitas 9,4141% , maka dapat disimpulkan bahwa tanpa adanya variabel independen umur, jenis kelamin, dan pendapatan maka seseorang masih meliliki peluang sebesar 9,414% untuk memiliki kolestero tinggi. b.

Apabila jenis kelamin berkode 0 (pria), sejarah keluarga berkode 0 maka probabilitas seseorang memiliki kolesterol tinggi adalah sebagai berikut:  Misalkan kita ambil seseorang berumur 29 tahun p ln ( ) = -2,264 + 0,031 (29) = -1,365 1 p

Regresi dengan Variabel Terikat Dummy

13

p 1 p

p

= e1,365 =

e1,365 1+ e1,365

= 0,2034 = 20,34%

Karena menghasilkan probabilitas 20,34% maka pada umur 29 tahun bisa diprediksi bahwa peluang seseorang memiliki kolesterol tinggi sebesar 20,34%.  Misalkan kita ambil konsumen berumur 51 tahun p ln ( ) = -2,264 + 0,031(51) = -0,683 1 p p 1 p

p

= e-0,683 =

e-0,683 1+ e-0,683

= 0,3355 = 33,55%

Karena menghasilkan probabilitas 33,55% maka pada umur 51 tahun bisa diprediksi bahwa peluang seseorang memiliki kolesterol tinggi sebesar 33,55%. c.

Apabila jenis kelamin berkode 1 (wanita), sejarah keluarga 0 maka probabilitas seseorang memiliki kolesterol tinggi adalah sebagai berikut:  Misalkan kita ambil konsumen berumur 30 tahun p ln ( ) = -2,264+ 0,031(30)+ 0,994 (1) = 0,34 1 p p 1 p

p

= e0,34 =

e0,34 1+ e0,34

= 0,4158 = 41,58%

Karena menghasilkan probabilitas 41,58% maka pada umur 30 tahun bisa diprediksi bahwa peluang seseorang wanita memiliki kolesterol tinggi sebesar 41,58%  Misalkan kita ambil konsumen berumur 45 tahun p ln ( ) = -2,264+ 0,031(45)+ 0,994 (1) = 0,125 1 p

Regresi dengan Variabel Terikat Dummy

14

p 1 p

p

= e0,125 =

e0,125 1+ e0,125

= 0,5312 = 53,12%

Karena menghasilkan probabilitas 53,12% maka seorang wanita pada umur 45 tahun bisa diprediksi bahwa peluang seseorang memiliki kolesterol tinggi sebesar 53,12%. d.

Apabila jenis kelamin berkode 1 (wanita), sejarah keluarga (1) maka probabilitas seseorang memiliki kolesterol tinggi adalah sebagai berikut:  Misalkan kita ambil konsumen berumur 30 tahun p ln ( ) = -2,264+ 0,031(30)+ 0,994 (1) + 2,408(1) = 2,068 1 p p 1 p

p

= e2,068 =

e2,068 1+ e2,068

= 0,8877 = 88,77%

Karena menghasilkan probabilitas 88,77% maka seorang wanita pada umur 30 tahun dan memiliki sejarah keluarga berkolesterol tinggi bisa diprediksi peluang seseorang tersebut memiliki kolesterol tinggi sebesar 88,77%.

e.

Apabila jenis kelamin berkode 0 (pria), sejarah keluarga (1) maka probabilitas seseorang memiliki kolesterol tinggi adalah sebagai berikut:  Misalkan kita ambil konsumen berumur 30 tahun p ln ( ) = -2,264+ 0,031(30) + 2,408(1) = 1,074 1 p p 1 p

p

= e1,074

=

e1,074 1+ e1,074

= 0,7454 = 74,54%

Karena menghasilkan probabilitas 74,54% maka seorang pria pada umur 30 tahun dan memiliki sejarah keluarga berkolesterol tinggi bisa diprediksi peluang seseorang tersebut memiliki kolesterol tinggi sebesar 74,54%.

Regresi dengan Variabel Terikat Dummy

15

. Dengan demikian, dapat diambil kesimpulan bahwa dapat diprediksi peluang seorang wanita dan memiliki sejarah keluarga berkolesterol tinggi adalah lebih tinggi untuk memiliki kolesterol tinggi.

Regresi dengan Variabel Terikat Dummy

16

DAFTAR PUSTAKA http://enistat.lecture.ub.ac.id/files/2012/ ( diakses, 16 desember 2013. 09.20)

http://www.docstoc.com/docs/121543681/MODEL-REGRESI-DENGANVARIABEL-TERIKAT-DUMMY/ (diakses ,16 desember 2013, 09.30)

http://ndhikgoblog.blogspot.com/ekonometrika-estimasi/ (diakses 17 Desember 2013, 15.20)

Regresi dengan Variabel Terikat Dummy

17

Related Documents


More Documents from "GasMaskBob"