So sánh với các giả thiết mà chúng ta đã kỳ vọng ban đầu về dấu của các biến:
- Biến COST: có dấu âm chứng tỏ là khi mà chi phí càng cao thì khả năng về quê của sinh viên càng thấp. Dựa trên mô hình ta thấy rằng cứ tăng thêm 1 đồng chi phí thì khả năng về sẽ giảm 0.0244%.
- Biến DIST: cũng có dấu âm điều đó chứng tỏ rằng là đường về nhà càng xa thì họ càng không muốn về quê, khả năng về quê lại càng giảm đi 0.1381% khi mà quãng đường về nhà tăng thêm 1 Km.
- Biến F&F: có dấu dương điều này thể hiện rằng là khi mà yếu tố gia đình, bạn bè mà lôi kéo hay rủ rê hoặc là sự mong muốn của cha mẹ muốn gặp con sau lâu ngày xa nhà (có lẽ là từ tết đến giờ). Cũng có khi là bạn bè cùng phòng trọ hay kí túc xá về hết ở lại mình buồn không biết làm gì nên cũng về theo, hay là nhà có em đang học lớp 10 hoặc lớp 12 mong anh chị về cho em một ít kinh nghiệm đi thi hay là tư vấn trường nào nên thi vào hoặc là những lời dặn dò gì đó nên lúc đó khả năng về nhà càng tăng lên. Vì đời người ai mà chẳng mong gặp lại những người thân những người bạn để hàn huyên tâm sự để tìm lại hơi ấm tình người sau những ngày sống ở đất khách quê người. Dựa vào mô hình ta sẽ thấy là sự tác động của các yếu tố này tăng lên một lần thì khả năng về tăng lên 0.200907 lần.
- Biến TIME: có dấu dương điều thể hiện rằng là khi số ngày nghỉ tăng lên thì khả năng về quê của họ càng cao. Nếu số ngày nghỉ tăng lên 1 ngày thì khả năng về quê tăng lên 0.084369 lần.
- Biến YEAR: có dấu âm chứng tỏ rằng là khi mà sinh viên càng về về cuối khóa học của mình tức là họ là những sinh viên năm cuối thì khả năng về quê của họ càng thấp bởi vì họ lo học hành và chuẩn bị thi cuối kỳ hay là tìm công ty và chuẩn bị đi thực tập. Họ còn phải tham gia các lớp học báo cáo chuyên đề hay báo cáo luận án tốt nghiệp nên khả năng họ về quê càng thấp xuống. Cụ thể là cứ tăng lên 1 năm thì khả năng về quê của họ giảm đi 0.273875 lần.
30 trang |
Chia sẻ: leddyking34 | Lượt xem: 1941 | Lượt tải: 1
Bạn đang xem trước 20 trang tài liệu Đề tài Những yếu tố ảnh hưởng tới việc về quê hay không của sinh viên khoa kinh tế trong đợt nghỉ lễ 30/4 và 1/5, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
là biến nhận các giá trị tứ 1 đến 4 (sinh viên khoa kinh tế có thời gian học là 4 năm)
Biến TIME
Câu hỏi: Trong đợt nghỉ lễ 30/4 và 1/5 vừa qua, bạn được nghĩ bao lâu?
Trả lời: …………. Ngày
Đơn vị tính: Ngày
Biến F&F
Câu hỏi: Mức độ tác động của gia đình, bạn bè đến quyết định có về quê hay không của bạn?
Đây là biến nhận giá trị từ 0 đến 5 cho ý nghĩa không ảnh hưởng cho tới rất ảnh hưởng
2.3. Bảng số liệu
Obs
YES_NO
COST
DIST
TIME
F_F
YEAR
1
0
4000
2000
5
1
1
2
0
1000
2400
7
0
1
3
0
300
560
2
4
1
4
0
350
600
2
3
1
5
0
1000
800
5
3
3
6
0
700
1000
4
4
3
7
0
1000
1420
4
0
1
8
0
500
800
4
4
2
9
0
600
1300
4
1
3
10
0
2000
2000
6
5
1
11
0
650
800
7
4
4
12
0
500
200
4
5
1
13
0
2000
2000
4
1
1
14
0
800
1216
4
1
4
15
0
200
300
5
0
2
16
0
320
500
4
4
1
17
0
5000
2000
4
3
2
18
0
170
100
4
1
2
19
0
900
1200
4
0
2
20
0
250
350
4
4
1
21
0
160
400
4
3
3
22
0
300
500
5
3
2
23
0
300
520
2
2
3
24
0
500
300
10
1
3
25
0
260
500
5
2
1
26
0
1000
1987
7
2
4
27
0
260
560
2
3
1
28
0
2400
2248
4
3
4
29
0
500
1284
4
5
1
30
0
300
850
4
1
3
31
0
1600
1100
4
1
1
32
0
500
1500
4
4
1
33
0
1500
2000
4
3
1
34
0
240
400
4
5
1
35
0
700
2000
4
2
1
36
0
500
972
4
4
1
37
0
400
370
4
0
1
38
0
400
400
2
4
1
39
0
1200
1000
4
5
1
40
0
1800
1100
4
1
1
41
0
1500
900
4
0
1
42
0
1000
960
4
0
2
43
0
1000
1000
4
4
3
44
0
1000
900
5
0
2
45
0
300
300
5
4
2
46
0
600
1000
4
0
2
47
0
350
650
5
3
2
48
0
1000
700
7
0
3
49
0
200
110
10
3
3
50
0
110
80
9
1
3
51
0
1800
1700
10
2
3
52
1
150
150
10
1
3
53
1
300
190
7
4
3
54
1
200
350
9
0
3
55
1
200
100
10
4
3
56
1
104
70
10
0
3
57
1
300
350
7
4
3
58
1
1300
350
7
5
3
59
1
170
650
10
5
3
60
1
58
80
4
4
3
61
1
300
600
5
0
1
62
1
250
300
5
5
1
63
1
50
55
5
5
1
64
1
14
32
5
0
1
65
1
30
70
4
2
1
66
1
350
600
4
4
2
67
1
50
150
4
2
2
68
1
150
300
7
4
3
69
1
40
130
7
3
3
70
1
80
150
4
1
1
71
1
800
1572
4
3
2
72
1
80
100
4
0
1
73
1
40
50
4
4
1
74
1
5
10
7
0
1
75
1
200
300
4
5
2
76
1
12
70
4
4
2
77
1
300
300
4
4
1
78
1
200
200
4
3
1
79
1
300
500
4
0
1
80
1
54
120
4
5
1
81
1
550
900
4
3
1
82
1
400
500
4
2
1
83
1
20
75
4
3
1
84
1
30
80
4
0
2
85
1
700
600
4
5
2
86
1
240
800
5
5
2
87
1
360
600
5
3
2
88
1
36
102
4
2
2
89
1
10
70
4
0
1
90
1
160
200
4
5
1
91
1
420
700
5
4
2
92
1
24
30
4
2
3
93
1
200
350
5
3
2
94
1
140
200
4
5
1
95
1
200
300
4
4
2
96
1
450
700
5
4
2
97
1
100
180
4
4
3
98
1
350
350
4
3
1
99
1
250
450
8
5
3
100
1
500
600
5
3
2
101
1
500
600
5
4
2
102
1
100
100
7
5
1
103
1
1000
1600
4
3
1
104
1
200
200
5
4
1
105
1
60
100
5
4
2
106
0
350
520
4
1
1
107
0
1000
1700
5
3
2
108
0
350
700
4
3
1
109
0
1000
2300
4
0
1
110
0
1000
1000
7
4
3
111
0
1500
1000
4
5
2
112
0
260
500
4
0
2
113
0
500
900
5
2
2
114
0
300
750
5
1
2
115
0
300
1000
4
2
2
116
0
800
1300
5
0
2
117
0
750
1400
4
0
3
118
0
900
1300
4
1
1
119
0
300
550
4
3
3
120
0
50
100
9
4
1
121
0
800
1700
4
4
1
122
0
500
900
4
5
1
123
0
350
850
4
1
1
124
0
200
300
4
2
2
125
0
1500
900
4
0
1
126
0
150
300
7
5
3
127
0
1000
1600
4
3
1
128
0
2000
1070
7
0
3
129
0
700
950
4
1
1
130
0
280
420
5
0
2
131
0
200
170
4
4
2
132
0
3000
3600
9
1
1
133
1
300
320
5
4
1
134
1
500
473
4
3
1
135
1
400
700
4
3
1
136
1
220
300
4
3
1
137
1
10
90
4
0
3
138
1
80
300
4
1
2
139
1
30
100
6
5
1
140
1
50
100
4
3
1
141
1
300
450
4
4
1
142
1
250
300
4
3
1
143
1
15
47
5
4
3
144
1
500
1200
4
5
3
145
1
60
100
4
5
1
146
1
100
300
6
2
1
147
1
140
240
4
4
1
148
1
250
300
5
4
2
149
0
600
550
4
1
3
150
1
210
300
4
4
1
151
1
60
150
5
2
1
152
1
200
90
4
5
2
153
1
120
100
4
4
2
154
1
60
100
5
4
2
155
1
2400
1200
4
3
1
156
1
500
150
5
3
2
157
1
100
100
4
5
2
158
1
10
30
6
0
1
159
1
40
300
4
0
1
160
1
170
280
7
3
1
161
1
250
150
4
2
1
162
1
150
350
5
5
1
163
1
1000
1000
5
4
3
164
1
300
560
4
3
1
165
1
10
10
4
0
1
166
1
1500
1700
4
5
2
167
1
200
240
4
3
1
168
1
500
900
7
5
1
169
1
400
700
6
3
1
170
1
150
200
6
4
1
PHẦN 3: ƯỚC LƯỢNG VÀ KIỂM ĐỊNH MÔ HÌNH
3.1. Ước lượng mô hình
Bảng ANOVA
Dependent Variable: YES_NO
Method: ML - Binary Probit (Quadratic hill climbing)
Date: 05/27/09 Time: 21:58
Sample: 1 170
Included observations: 170
Convergence achieved after 4 iterations
Covariance matrix computed using second derivatives
Variable
Coefficient
Std. Error
z-Statistic
Prob.
C
0.560535
0.448754
1.249092
0.2116
COST
-0.000244
0.000386
-0.632133
0.5273
DIST
-0.001381
0.000395
-3.493700
0.0005
F_F
0.200907
0.067343
2.983328
0.0029
TIME
0.084369
0.076280
1.106044
0.2687
YEAR
-0.273875
0.152808
-1.792283
0.0731
Mean dependent var
0.535294
S.D. dependent var
0.500226
S.E. of regression
0.400812
Akaike info criterion
1.033392
Sum squared resid
26.34663
Schwarz criterion
1.144067
Log likelihood
-81.83834
Hannan-Quinn criter.
1.078303
Restr. log likelihood
-117.4111
Avg. log likelihood
-0.481402
LR statistic (5 df)
71.14560
McFadden R-squared
0.302976
Probability(LR stat)
5.92E-14
Obs with Dep=0
79
Total obs
170
Obs with Dep=1
91
Từ bảng ANOVA ta có mô hình (số trong ngoặc là Prob)
YES/NO = 0.560535 - 0.000244*COST - 0.001381*DIST + 0.200907*F&F
(0.2116) (0.5273) (0.0005) (0.0029)
+ 0.084369*TIME - 0.273875*YEAR
(0.2687) (0.0731)
N=170 ESS=0.400812 LR statistic= 71.14560 Probability(LR stat)= 5.92E-14 AIC=1.033392 SCHWAR=1.144067
So sánh với các giả thiết mà chúng ta đã kỳ vọng ban đầu về dấu của các biến:
Biến COST: có dấu âm chứng tỏ là khi mà chi phí càng cao thì khả năng về quê của sinh viên càng thấp. Dựa trên mô hình ta thấy rằng cứ tăng thêm 1 đồng chi phí thì khả năng về sẽ giảm 0.0244%.
Biến DIST: cũng có dấu âm điều đó chứng tỏ rằng là đường về nhà càng xa thì họ càng không muốn về quê, khả năng về quê lại càng giảm đi 0.1381% khi mà quãng đường về nhà tăng thêm 1 Km.
Biến F&F: có dấu dương điều này thể hiện rằng là khi mà yếu tố gia đình, bạn bè mà lôi kéo hay rủ rê hoặc là sự mong muốn của cha mẹ muốn gặp con sau lâu ngày xa nhà (có lẽ là từ tết đến giờ). Cũng có khi là bạn bè cùng phòng trọ hay kí túc xá về hết ở lại mình buồn không biết làm gì nên cũng về theo, hay là nhà có em đang học lớp 10 hoặc lớp 12 mong anh chị về cho em một ít kinh nghiệm đi thi hay là tư vấn trường nào nên thi vào hoặc là những lời dặn dò gì đó nên lúc đó khả năng về nhà càng tăng lên. Vì đời người ai mà chẳng mong gặp lại những người thân những người bạn để hàn huyên tâm sự để tìm lại hơi ấm tình người sau những ngày sống ở đất khách quê người. Dựa vào mô hình ta sẽ thấy là sự tác động của các yếu tố này tăng lên một lần thì khả năng về tăng lên 0.200907 lần.
Biến TIME: có dấu dương điều thể hiện rằng là khi số ngày nghỉ tăng lên thì khả năng về quê của họ càng cao. Nếu số ngày nghỉ tăng lên 1 ngày thì khả năng về quê tăng lên 0.084369 lần.
Biến YEAR: có dấu âm chứng tỏ rằng là khi mà sinh viên càng về về cuối khóa học của mình tức là họ là những sinh viên năm cuối thì khả năng về quê của họ càng thấp bởi vì họ lo học hành và chuẩn bị thi cuối kỳ hay là tìm công ty và chuẩn bị đi thực tập. Họ còn phải tham gia các lớp học báo cáo chuyên đề hay báo cáo luận án tốt nghiệp nên khả năng họ về quê càng thấp xuống. Cụ thể là cứ tăng lên 1 năm thì khả năng về quê của họ giảm đi 0.273875 lần.
Chúng ta dễ dàng thấy rằng dấu của các hệ số β đều đúng như kỳ vọng mà chúng ta đã nêu. Bây giờ chúng ta xem xét thử các biến mà chúng ta đã đưa ra có ý nghĩa giải thích đối với mô hình mà chúng ta đã đưa ra ở mức ý nghĩa là 5% hay không? Chúng ta phải dùng tới kiểm định thống kê cho các biến.
3.2. Kiểm định thống kê cho mô hình dự đoán
Mô hình dự kiến là:
YES/NO = β1 + β2COST + β3DIST + β4F&F + β5TIME + β6YEAR
Với mô hình này nhóm đã tiến hành khảo sát và chạy mô hình thì thấy rằng các biến có dấu đúng như kỳ vọng như mà pvalue của các biến lại không như kỳ vọng thông qua kiểm định t-test cho các biến giải thích mô hình này ta có thể đưa ra một số nhận xét.
3.2.1. Kiểm định T- test
Kiểm định giả thiết Ho: β1 = 0 và H1: β1 ± 0. Nhận thấy, Prob = 0.2116, do đó, không thể bác bỏ Ho: β1= 0, tức là β1 không có ý nghĩa giải thích cho mô hình. Tương tự như thế β2, β5, β6 cũng không có ý nghĩa giải thích tại mức ý nghĩa 5%. Hay nói một cách tổng quan hơn là các biến chưa có ý nghĩa giải thích cho mô hình.
Còn lại β3, β4 là các biến có ý nghĩa giải thích cho mô hình
3.2.2. Kiểm định Wald test:
Dùng Eviews chạy kiểm định này cho mô hình với giả thuyết:
H0:β2 = β3 = β4 = β5 = β6 = 0 và H1: không phải H0
Wald Test:
Equation: Untitled
Test Statistic
Value
df
Probability
F-statistic
9.436849
(5, 164)
0.0000
Chi-square
47.18425
5
0.0000
Null Hypothesis Summary:
Normalized Restriction (= 0)
Value
Std. Err.
C(2)
-0.000244
0.000386
C(3)
-0.001381
0.000395
C(4)
0.200907
0.067343
C(5)
0.084369
0.076280
C(6)
-0.273875
0.152808
Restrictions are linear in coefficients.
Theo kết quả của bảng trên thì, vì P value (F=9.436849) = 0.0000 < 0.05 nên ta bác bỏ giả thiết H0, tức là các hệ số hồi quy không đồng thời bằng 0. Hay là trong mô hình này các biến có ý nghĩa giải thích.
Thế như theo kiểm định T-test thì hai biến COST, TIME, YEAR thì không có ý nghĩa giải thích nên chúng ta cần loại nó ra khỏi mô hình để mà tìm ra mô hình phù hợp hơn.
3.3. Tìm mô hình hợp lý sau khi loại biến COST, TIME, YEAR
3.3.1. Lý giải tại sao loại biến COST, TIME, YEAR
Tuy nhiên tại sao một quyết định về quê mà COST, TIME, YEAR lại không có ý nghĩa. Bởi vì sự thật theo thực tế thì khi thời gian nghỉ càng kéo dài thì khả năng về của sinh viên càng lớn chứ, như vậy biến này phải có ý nghĩa. Ta nhận thấy rằng biến COST và biến DIST có thể có sự liên quan hay là quan hệ với nhau nên nó làm cho một biến không có ý nghĩa. Khi kiểm tra sự tương quan giữa hai biến này thì theo ma trận tương quan giữa hai biến thì ta nhận thấy rằng mối quan hệ giữa hai biến này có liên quan với nhau. Thông qua ma trận tương quan giữa hai biến này thì chúng ta cần loại bỏ một trong hai biến.
COST
DIST
COST
1
0.7602244522
DIST
0.7602244522
1
Tại sao chúng tôi lại loại bỏ biến COST vì theo như chúng tôi dựa vào giá trị kiểm định trên thì chúng ta nên bỏ biến COST đi là hợp lý nhất theo phương diện toán học và theo như lập luận thì có lẽ là biến COST sẽ phụ thuộc vào DIST vì là nếu như quãng đường càng dài thì chi phí cho tiền tàu xe hay máy bay (các phương tiện dùng để đi về) cộng với tiền chi phí ăn uống quà cáp dọc đường nữa càng tăng lên nên có thể xem như là biến COST là biến phụ thuộc vào DIST. Mặt khác khi mà họ đã quyết định về quê rồi thì chắc chắn chi phí cũng không là vấn đề và họ sẽ xem coi cái nào đi lại là hợp lý nhất cho vừa khả năng chi phí của mình có được chưa kể là được sự hậu thuẫn của gia đình nếu như gia đình ủng hộ họ về thì cũng sẽ hỗ trợ một phần chi phí do đó chi phí đối với họ không là gì.
Và chúng ta sẽ loại bỏ các biến COST, TIME VÀ YEAR theo thứ tự từ p-value lớn đến nhỏ. Bảng kiết xuất mới khi loại bỏ biến COST như sau:
Dependent Variable: YES_NO
Method: ML - Binary Probit (Quadratic hill climbing)
Date: 05/27/09 Time: 22:04
Sample: 1 170
Included observations: 170
Convergence achieved after 4 iterations
Covariance matrix computed using second derivatives
Variable
Coefficient
Std. Error
z-Statistic
Prob.
C
0.574491
0.446068
1.287900
0.1978
DIST
-0.001574
0.000263
-5.982926
0.0000
F_F
0.202716
0.067007
3.025300
0.0025
TIME
0.080379
0.075726
1.061443
0.2885
YEAR
-0.273394
0.152801
-1.789223
0.0736
Mean dependent var
0.535294
S.D. dependent var
0.500226
S.E. of regression
0.399898
Akaike info criterion
1.024075
Sum squared resid
26.38655
Schwarz criterion
1.116305
Log likelihood
-82.04641
Hannan-Quinn criter.
1.061501
Restr. log likelihood
-117.4111
Avg. log likelihood
-0.482626
LR statistic (4 df)
70.72947
McFadden R-squared
0.301204
Probability(LR stat)
1.59E-14
Obs with Dep=0
79
Total obs
170
Obs with Dep=1
91
Mô hình số trong ngoặc là Prob:
YES/NO = 0.574491-0.001574*DIST+0.202716*F&F+0.080379*TIME-0.273394*YEAR
(0.1978) (0.0000) (0.0025) (0.2885) (0.0736)
Nhận xét là các hệ số đều có dấu giống như kỳ vọng mà chúng ta đã nêu.
Rồi ta tiến hành kiểm định T-test cho các biến:
Với giả thiết Ho: β1 = 0 vs H1: β1 ± 0, rõ ràng β1 với Prob=0.1978 không có ý nghĩa giải thích tại mức 5%. Và tương tự cho β4, β5 cũng không có ý nghĩa giải thích tại mức ý nghĩa 5%.
Tiến hành kiểm định như thế thì ta thấy β2, β3 có ý nghĩa giải thích cho mô hình. Hay là trong mô hình này biến DIST và F&F có ý nghĩa giải thích.
Tuy nhiên, tại sao trong trường hợp biến TIME lại không có ý nghĩa giải thích cho mô hình. Nhận thấy rằng khi số ngày nghỉ tăng lên càng nhiều thì khả năng về vẫn quê sẽ tăng lên và ngược lại. Vì thế biến này phải có ý nghĩa giải thích cho nguyên nhân về quê hay không về quê của sinh viên chứ. Hay nói cách khác là đáng ra là biến TIME phải có ý nghĩa giải thích cho mô hình nhưng khi kiểm định rõ ràng là biến này không có ý nghĩa giải thích cho mô hình này ở mức ý nghĩa 5%.
Bây giờ chúng ta lại tiếp tục bỏ biến TIME ra khỏi mô hình do nó không có ý nghĩa giải thích và ta được bảng kiết xuất ANOVA như sau:
Dependent Variable: YES_NO
Method: ML - Binary Probit (Quadratic hill climbing)
Date: 05/27/09 Time: 22:06
Sample: 1 170
Included observations: 170
Convergence achieved after 4 iterations
Covariance matrix computed using second derivatives
Variable
Coefficient
Std. Error
z-Statistic
Prob.
C
0.872192
0.347358
2.510934
0.0120
DIST
-0.001632
0.000262
-6.223227
0.0000
F_F
0.200312
0.066692
3.003544
0.0027
YEAR
-0.199644
0.134943
-1.479464
0.1390
Mean dependent var
0.535294
S.D. dependent var
0.500226
S.E. of regression
0.402679
Akaike info criterion
1.018993
Sum squared resid
26.91694
Schwarz criterion
1.092776
Log likelihood
-82.61440
Hannan-Quinn criter.
1.048933
Restr. log likelihood
-117.4111
Avg. log likelihood
-0.485967
LR statistic (3 df)
69.59349
McFadden R-squared
0.296367
Probability(LR stat)
5.22E-15
Obs with Dep=0
79
Total obs
170
Obs with Dep=1
91
Mô hình mà chúng ta có thể có là (số trong ngoặc là Prob)
YES/NO=0.872192-0.001632*+0.200312*F&F- 0.199644*YEAR
(0.0120) (0.0000) (0.0027) (0.1390)
Nhận xét thấy rõ rằng là các biến đều có ý nghĩa giải thích cho mô hình ở mức 5% nhưng loại trừ biến YEAR lại không có ý nghĩa giải thích ở mức ý nghĩa này. Do
p-value của biến này là 0.1390 > 0.05 nên ta chấp nhận giả thuyết H0 là β4= 0 có thể xảy ra, nên biến này không có ý nghĩa giải thích cho mô hình.(Dùng kiểm định T-test để kiểm tra).
Kiểm định Wald test: Khi loại bỏ hai biến COST và TIME ra khỏi mô hình thì ta dùng kiểm định Wald test xem hai biến này có nên bỏ không so với mô hình mà chúng ta đã đưa ra đầu tiên. Với giả thiết như sau: H0: β2 = β5 = 0 và H1: khác H0
Ta có bảng kết xuất:
Wald Test:
Equation: Untitled
Test Statistic
Value
df
Probability
F-statistic
0.761087
(2, 164)
0.4688
Chi-square
1.522174
2
0.4672
Null Hypothesis Summary:
Normalized Restriction (= 0)
Value
Std. Err.
C(2)
-0.000244
0.000386
C(5)
0.084369
0.076280
Restrictions are linear in coefficients.
Rõ ràng là P value (F = 0.761087) = 0.4688 > 0.05 nên ta chấp nhận giả thuyết H0. Tức là hai biến này không có ý nghĩa giải thích trong mô hình, nên ta không cần thiết phải đưa nó vào mô hình.
Và tại sao biến YEAR không có ý nghĩa???
Sự thật là nếu như sinh viên càng là sinh viên năm cuối thì khả năng về càng thấp bởi vì phải chuẩn bị thật kỹ càng cho một bước ngoặt trong cuộc đời là tốt nghiệp đó là: tìm kiếm chỗ thực tập và chuẩn bị kiến thức được học tập trong trường một cách vững vàng và đi học các lớp báo cáo chuyên đề để nâng cao trình nên khả năng về là rất thấp. Đó là nguyên nhân giải thích tại sao biến YEAR có ý nghĩa giải thích cho mô hình mà chúng tôi đặt ra. Tuy nhiên khi kiểm định rõ ràng biến này không có ý nghĩa vì thế chúng ta có thể nói rằng là mô hình mà chúng ta đã dự đoán ban đầu là không phù hợp với ý nghĩa của nó.
Xét mô hình sau khi đã loại bỏ biến COST và TIME thì chúng ta lại cũng thấy biến YEAR cũng không có ý nghĩa giải thích mô hình. Thật là khó để tìm lý do tại sao nó lại không có ý nghĩa, vì theo như nhận định nó phải là biến có ý nghĩa giải thích mô hình. Bởi vì trongnhững năm đầu, do yếu tố tâm lý là lần đầu tiê xa nhà và phải làm quen với cuộc sống mới: bon chen, xô bồ nơi thành phố nên họ thấy thiếu tốn tình cảm và hơi ấm gia đình cũng như những tình cảm bạn bè trong sáng thời phổ thông. Nên họ có xu hướng sẽ về nhà thường xuyên hơn. Bên cạnh đó, chương trình học trong nhưngc năm đầu chỉ là những môn đại cương giúp cho sinh viên tiếp cận và làm quen với phương pháp học tại Đại Học giúp cho họ có nhiều thời gian rảnh rỗi hơn là những năm về sau.
3.3.2. Mô hình sau khi loại biến YEAR
Theo như kiểm định thống kê do các biến không có ý nghĩa giải thích cho mô hình thì ta tiếp tục loại bỏ nó ra khỏi mô hình, lần này ta sẽ loại biến YEAR ra khỏi mô hình và ta có bảng kết xuất như sau:
Bảng ANOVA
Dependent Variable: YES_NO
Method: ML - Binary Probit (Quadratic hill climbing)
Date: 05/26/09 Time: 12:49
Sample: 1 170
Included observations: 170
Convergence achieved after 4 iterations
Covariance matrix computed using second derivatives
Variable
Coefficient
Std. Error
z-Statistic
Prob.
C
0.518136
0.247838
2.090629
0.0366
DISTANCE
-0.001632
0.000262
-6.231084
0.0000
F_F
0.200349
0.066301
3.021804
0.0025
Mean dependent var
0.535294
S.D. dependent var
0.500226
S.E. of regression
0.405176
Akaike info criterion
1.020254
Sum squared resid
27.41598
Schwarz criterion
1.075592
Log likelihood
-83.72163
Hannan-Quinn criter.
1.042710
Restr. log likelihood
-117.4111
Avg. log likelihood
-0.492480
LR statistic (2 df)
67.37902
McFadden R-squared
0.286936
Probability(LR stat)
2.33E-15
Obs with Dep=0
79
Total obs
170
Obs with Dep=1
91
Mô hình mà chúng ta có thể lập ra là: (số trong ngoặc là Prob)
YES/NO=0.518136 - 0.001632*DIST + 0.200349*F&F
(0.0366) (0.0000) (0.0025)
Dùng kiểm định thống kê T-test cho mô hình này thì ta thấy hai biến DIST và F&F đều có ý nghĩa giải thích mô hình này. Điều này chứng tỏ là trong mô hình này chỉ có hai biến giải thích rõ rệt nhất cho quyết định về quê hay không về quê của sinh viên là DIST và F&F. Hay nói cách khác là các biến này là các biến có ý nghĩa giải thích cho mô hình này nhất.
Dùng kiểm định Wald test cho mô hình ước lượng này so với mô hình đầu tiên mà chúng ta đã đưa ra.
Ta có giả thiết H0: β2 = β5 = β6 =0 và H1: khác H0
Ta có bảng kết xuất:
Wald Test:
Equation: Untitled
Test Statistic
Value
df
Probability
F-statistic
1.228284
(3, 164)
0.3012
Chi-square
3.684851
3
0.2976
Null Hypothesis Summary:
Normalized Restriction (= 0)
Value
Std. Err.
C(2)
-0.000244
0.000386
C(5)
0.084369
0.076280
C(6)
-0.273875
0.152808
Restrictions are linear in coefficients.
Dễ dàng nhận thấy rằng P(F=1.228284)= 0.3012 > 0.05 thì ta nên chấp nhận giả thiết H0 hay là các biến COST, TIME, YEAR không cần thiết trong mô hình.
Hay nói cách khác là mô hình của chúng ta bây giờ còn hai biến có ý nghĩa giải thích cho mô hình này là DIST và F&F
Ta có bảng so sánh các mô hình như sau:
Variable
Model A
Model B
Model C
Model D
Constant
0.518136
0.872192
5.2905
0.560535
(0.0366)
(0.0120)
(0.1978)
(0.2116)
DIST
-0.001632
-0.001632
-0.001574
-0.001381
(0.0000)
(0.0000)
(0.0000)
(0.0005)
F&F
0.200349
0.200312
0.202716
0.200907
(0.0025)
(0.0027)
(0.0027)
(0.0029)
YEAR
-0.199644
-0.273394
-0.273875
(0.1390)
(0.0736)
(0.0731)
TIME
0.080379
0.084369
(0.2885)
(0.2687)
COST
-0.000244
(0.5273)
ESS
0.405176
0.402679
0.399898
0.400812
LR-stat
67.37902
69.59349
70.72947
71.14560
Probability(LR stat)
2.33E-15
5.22E-15
1.59E-14
5.92E-14
AIC
1.020254
1.018993
1.024075
1.033392
SCHWAR
1.075592
1.092776
1.116305
1.144067
Dựa vào bảng so sánh thì ta thấy mô hình A là mô hình có các thông số tốt nhất. Như vậy có thể xem đây là mô hình hoàn chỉnh nhất trong các mô hình mà chúng ta có thể chọn để giải thích vấn đề này.
Và mô hình hợp lý trong trường hợp này là:
YES/NO=0.518136 - 0.001632*DIST + 0.200349*F&F
(0.0366) (0.0000) (0.0025)
Thế nhưng có nhiều ý kiến trong nhóm lại không đồng tình với mô hình này và bắt phải tìm ra một mô hình khác.
3.4. Nguyên nhân chọn mô hình mới
Trong quá trình làm đề tài nhóm chúng tôi dự đoán 2 biến DIST và F&F vẫn chưa đủ để giải thích mô hình. Dễ dàng nhận thấy biến COST không chỉ là chi phí về xe không thôi mà còn là chi phí lặt vặt khi đi đường như ăn uống, quà vặt, mua quà về nhà… và DIST thể hiện rằng họ sẽ chọn phương tiện gì để di chuyển.Lúc đó DIST thể hiện thông qua chi phí là COST. Nếu như DIST càng lớn và COST càng lớn chứng tỏ là họ sử dụng những phương tiện tiên tiến như tàu lửa hay là máy bay.
Không thể nào phủ nhận một điều là khi thời gian được nghỉ càng dài thì khả năng về của sinh viên càng cao và nếu như đó là những sinh viên năm thứ 3 và sinh viên năm 4 thì khả năng về của họ lại càng nhỏ. Nên không thể loại bỏ 2 biến TIME và YEAR khỏi mô hình.
Qua nhiều lần tranh luận chúng tôi nhận thấy hai biến COST, DIST có mối quan hệ chặt chẽ với nhau nên đã quyết định kết hợp 2 biến đó thành một biến tích COST*DIST nhằm mục đích là tăng độ giải thích của nó lên so với khi mà chúng ta để hai biến này có ý nghĩa giải thích độc lập. Bởi lẽ khi quãng đường và chi phí kết hợp lại mà tăng lên quá lớn thì họ sẽ e ngại việc đi lại bởi vì quá khó khăn. Vì có những trường hợp quãng đường ngắn nhưng chi phí xe cộ cũng là một vấn đề đáng lưu tâm, ngoài ra còn có có nhiều lý do khác như: sự nguy hiểm trên đường về, khó khăn trong việc mua vé,… Cũng có những trường hợp quãng đường không phải vấn đề quá đáng lưa tâm nhưng chi phí lại là một vấn đề nan giải thì họ sẽ chần chừ không dám về, còn đối với một số người thì chi phí không thành vấn đề nhưng do quãng đường quá dài đi. Đường dài, chi phí lại cao, nên sự kết hợp của hai biến này làm tăng khả năng không về nhà của sinh viên, khi đó chúng ta kết hợp 2 biến này thành biến COST*DIST với kỳ vọng mang dấu âm.
Tương tự, với 2 biến F&F, TIME chúng tôi lập thành tích F&F*TIME nhằm tăng độ giải thích của nó lên vì khi thời gian nghỉ dài với một bên là sự khuyến khích của gia đình cùng lời mời của bạn bè một bên phải đối mặt với tình cảnh ở nhà trọ một mình cô đơn không bạn bè, điều này làm cho người ta có xu hướng quyết định về nhà hơn. Do đó mức tác động của việc kết hợp hai yếu tố này sẽ mạnh hơn là sự tác động riêng lẻ của từng yếu tố. Và chúng ta kỳ vọng nó mang dấu dương.
Biến YEAR thì ý nghĩa như đã giải thích ở trên, chúng ta vẫn kỳ vọng nó mang dấu âm.
Lúc này chúng tôi đưa ra hai mô hình mới là:
3.4.1.Mô hình 1:
YES/NO = β1 + β2*(COST*DIST) + β3*(F&F*TIME) + β4*YEAR
Bảng kết xuất ANOVA
Dependent Variable: YES_NO
Method: ML - Binary Probit (Quadratic hill climbing)
Date: 05/27/09 Time: 22:15
Sample: 1 170
Included observations: 170
Convergence achieved after 9 iterations
Covariance matrix computed using second derivatives
Variable
Coefficient
Std. Error
z-Statistic
Prob.
C
0.507294
0.286116
1.773035
0.0762
COST_DIST
-8.67E-07
1.84E-07
-4.713704
0.0000
F_F_TIME
0.036788
0.011586
3.175228
0.0015
YEAR
-0.278524
0.131262
-2.121901
0.0338
Mean dependent var
0.535294
S.D. dependent var
0.500226
S.E. of regression
0.424681
Akaike info criterion
1.118695
Sum squared resid
29.93869
Schwarz criterion
1.192479
Log likelihood
-91.08908
Hannan-Quinn criter.
1.148636
Restr. log likelihood
-117.4111
Avg. log likelihood
-0.535818
LR statistic (3 df)
52.64412
McFadden R-squared
0.224187
Probability(LR stat)
2.18E-11
Obs with Dep=0
79
Total obs
170
Obs with Dep=1
91
Các file đính kèm theo tài liệu này:
- BAI LAM KINH TE LUONG(1).doc
- bang so liệu.xls