Giả định của mô hình hồi qui đa biến
(1) Giả định 1: Tuyến tính các tham số hồi qui (linear in parameters).
(2) Giả định 2: Các giá trị mẫu của xjđược ước lượng đúng, không có sai số
(random sampling): Giá trị các biến giải  thích là các số đã được xác định.
(3) Giả định 3: Kỳ vọng hoặc trung bình số
học của các sai số là bằng 0 (zero conditional mean).
E(u/xi) = 0
                
              
                                            
                                
            
 
            
                 54 trang
54 trang | 
Chia sẻ: maiphuongdc | Lượt xem: 13863 | Lượt tải: 1 
              
            Bạn đang xem trước 20 trang tài liệu Bài giảng Phân tích mô hình hồi qui đa biến, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
1Phân tích mô hình 
hồi qui đa biến
 Khái niệm về phân tích hồi quy
 Mô hình hồi qui hai biến
 Phương pháp bình phương nhỏ nhất
 Các giả định của mô hình hồi qui đa 
biến
 Độ chính xác và sai số chuẩn của ước 
lượng
 Kiểm định giả thuyết mô hình
 Ví dụ mô hình hồi qui đa biến
2Khái niệm về phân tích hồi quy
 Phân tích hồi quy đề cập đến việc 
nghiên cứu sự phụ thuộc của một biến 
số, biến phụ thuộc, vào một hay nhiều 
biến số khác, biến độc lập, với ý định 
ước lượng và/hoặc dự đoán giá trị
trung bình (tổng thể) của biến phụ
thuộc dựa trên những giá trị đã biết 
hay cố định của biến độc lập. 
3Ví dụ 1
 Chúng ta quan tâm đến việc dự báo chiều 
cao trung bình của những người con khi 
biết chiều cao của người cha.
 Dùng biểu đồ phân tán để biểu diễn 
phân phối chiều cao của những người con 
trong một tổng thể tương ứng với chiều 
cao của những người cha được cho trước 
hay cố định
4Chiều 
cao 
của 
người 
con
(tính 
bằng 
inch)
Chiều cao của người cha
(tính bằng inch)
Hình 1.1 Phân phối giả thiết của chiều cao của những người con 
trai tương ứng với chiều cao của người cha được cho trước
Giá trị trung bình
5Ví dụ khác
 Một nhà kinh tế có thể quan tâm đến việc 
nghiên cứu sự phụ thuộc của chi tiêu cá nhân 
vào thu nhập cá nhân sau thuế hay thu nhập 
khả dụng thực tế. 
 Một nhà độc quyền, người có thể ấn định giá 
hay sản lượng (nhưng không cả hai) có thể
muốn tìm ra phản ứng của cầu đối với sản 
phẩm khi giá thay đổi. Thực nghiệm này có 
thể cho phép sự ước lượng hệ số co giãn 
theo giá
 …
6Mô hình hồi qui hai biến
 Hàm hồi qui tổng thể (population 
regression function – PRF) có dạng:
E(Y/Xi) = f(Xi)
Nếu PRF có 1 biến độc lập thì được gọi là 
hàm hồi qui đơn (hồi qui hai biến), nếu 
có từ 2 biến độc lập trở lên được gọi là 
hàm hồi qui bội
 Hàm hồi qui tổng thể cho biết giá trị
trung bình của biến Y sẽ thay đổi như
thế nào khi biến X nhận các giá trị khác 
nhau.
7Một ví dụ giả thiết
 Giả sử có một tổng thể gồm 60 hộ gia đình, 
có thu nhập (X) và chi tiêu (Y) hàng tuần 
như sau
8Một ví dụ giả thiết
 Mặc dù có sự biến động lớn của Y ứng với 
mỗi giá trị của X, nhưng, một cách tổng 
quát, 
X thì Y
 Giá trị kỳ vọng của Y ứng với một giá trị nào 
đó của X đgl Giá trị kỳ vọng có điều kiện, 
ký hiệu: E(Y|X)
 Ví dụ: E(Y|X=80) = 65; E(Y|X=260) = 173
 Giá trị kỳ vọng không có điều kiện: 
E(Y) = 7273/60 = 121,20
9Phân phối có điều kiện của chi tiêu ứng với 
các mức thu nhập khác nhau 
10
Hàm hồi quy tổng thể
 Đường nối các điểm tròn đen trong hình là 
đường hồi quy tổng thể, biểu diễn sự hồi 
quy của Y vào X.
 Về mặt hình học, một đường hồi quy tổng 
thể là quỹ tích các giá trị trung bình có điều 
kiện của biến phụ thuộc ứng với mỗi giá trị cố
định của biến giải thích.
 Ứng với mỗi giá trị của X, có một tổng thể
các giá trị của Y, dao động xung quanh giá trị
kỳ vọng có điều kiện của Y.
11
Đường hồi quy tổng thể
12
Mô hình hồi quy tuyến tính
 Vậy kỳ vọng có điều kiện E(Y|Xi) là 
một hàm số của Xi:
E(Y|Xi) = f(Xi)
 Dạng hàm f(Xi) phụ thuộc vào các mối 
quan hệ kinh tế (thường được xác định 
dựa vào các lý thuyết kinh tế).
 Ở đây, ta thường sử dụng hàm số
tuyến tính:
13
Mô hình hồi qui hai biến
 PRF tuyến tính:
E(Y/Xi) = β1+ β2Xi
trong đó β1, β2 là các tham số chưa biết 
nhưng cố định – các tham số hồi qui.
 β1 là hệ số tự do, cho biết giá trị trung bình 
của biến phụ thuộc Y sẽ thay đổi như thế
nào khi biến X nhận giá trị 0.
 β2 là hệ số góc, cho biết giá trị trung bình 
của biến phụ thuộc Y sẽ thay đổi (tăng or 
giảm) bao nhiêu đơn vị khi giá trị của biến 
độc lập X tăng 1 đơn vị với điều kiện các 
yếu tố khác không thay đổi.
14
Mô hình hồi qui hai biến
 Thuật ngữ “tuyến tính” ở đây được hiểu 
theo hai nghĩa: tuyến tính đối với tham số
và tuyến tính đối với biến.
- E(Y/Xi) = β1+ β2Xi2 là tuyến tính tham 
số
- E(Y/Xi) = β1+ β22Xi là tuyến tính biến 
số.
 Hàm hồi qui tuyến tính luôn được hiểu là 
tuyến tính đối với tham số, nó có thể
không tuyến tính đối với biến.
15
Các hàm số tuyến tính đối với tham 
số
16
Mô hình hồi qui hai biến
 Ứng với mỗi giá trị của X, giá trị Y của một số
quan sát có độ lệch so với giá trị kỳ vọng.
 Giá trị quan sát thứ i của biến phụ thuộc Y được 
ký hiệu là Yi.
- Ký hiệu Ui là chênh lệch giữa Yi và E(Y/Xi)
Ui = Yi - E(Y/Xi)
hay Yi = E(Y/Xi) + Ui (dạng ngẫu nhiên PRF)
Ui đgl đại lượng ngẫu nhiên hay sai số ngẫu 
nhiên
 Lý do cho sự tồn tại của Ui
 Yếu tố đại diện cho các biến không đưa vào 
mô hình (biến không rõ, không có số liệu, 
ảnh hưởng quá nhỏ …)
17
Mô hình hồi qui hai biến
 Trong thực tế, ta thường phải ước lượng các 
hệ số hồi quy của tổng thể từ hệ số hồi quy của 
mẫu.
 Hàm hồi qui mẫu (sample regression function 
– SRF): sử dụng khi chúng ta không thể lấy tất 
cả thông tin từ tổng thể mà chỉ thu thập được 
từ các mẫu riêng lẻ từ tổng thể.
 Nếu hàm PRF có dạng tuyến tính (E(Y/Xi) = 
β1+ β2Xi), ta có SRF: ii XY
 21 
iY
1
2
trong đó là ước lượng điểm của 
E(Y/Xi)
là ước lượng điểm của 
β1;
là ước lượng điểm của 
18
Hàm hồi qui mẫu
 Dạng ngẫu nhiên của SRF: 
ei là ước lượng điểm của Ui và gọi là phần 
dư hay sai số ngẫu nhiên
iii eXY 
21 
19
Hàm hồi qui mẫu SRF
0
100
200
300
400
500
600
0 100 200 300 400 500 600 700 800 900
Ti
êu
 d
ùn
g,
 Y
 (X
D
)
(PRF)
(SRF)
Xi
Yi
E(Y/Xi)
Yi
ei
i
1
1
2
2 
20
Hàm hồi qui mẫu
 Rõ ràng, các ước lượng từ hàm hồi quy 
mẫu có thể ước lượng cao hơn 
(overestimate) hay ước lượng thấp hơn 
(underestimate) giá trị thực của tổng 
thể.
 Vấn đề đặt ra là SRF được xây dựng 
như thế nào để càng gần i thực càng 
tốt, mặc dù ta không bao giờ biết i
thực.
21
Phương pháp bình phương nhỏ nhất 
(OLS)
iiiii
iiiii
XYYˆYe
eYˆeXY
21
21
1ˆ
Ta có hàm SRF:
•Ta muốn tìm và sao cho gần 
bằng với Y nhất, có nghĩa là ei nhỏ nhất. 
Tuy nhiên, ei thường rất nhỏ và thậm chí 
bằng 0 vì chúng triệt tiêu lẫn nhau.
•Để tránh tình trạng này, ta dùng phương 
pháp “Bình phương nhỏ nhất” 
2ˆ Yˆ
22
Phương pháp OLS
 2212   iii XˆˆYe 
1ˆ
• Bây giờ, ta muốn tìm và sao cho ei2
nhỏ nhất. 
• Lưu ý rằng biểu thức trên có thể được xem 
như là một hàm số theo và và chúng 
ta cần tìm các  sao biểu thức đạt cực tiểu2
ˆ
1ˆ 2ˆ
)ˆ,ˆ(fei 21
2  
• Vậy để tìm giá trị cực tiểu của biểu thức trên, ta cần 
tính đạo hàm của hàm số trên theo các  và cho các 
đạo hàm =0. 
23
Phương pháp OLS
 Giải hệ ta được:
 Ta được hệ phương trình chuẩn:
24
Phương pháp OLS
1ˆ và 2ˆ đgl các ước lượng bình 
phương nhỏ nhất của 1 và 2
Các thuộc tính của1ˆ v
à
2ˆ
I. Các ước lượng OLS là các ước lượng điểm, có 
nghĩa là, với mẫu cho trước, mỗi ước lượng chỉ
cho biết duy nhất một giá trị của tham số của tổng 
thể nghiên cứu.
II. Một khi thu được các ước lượng từ mẫu, ta có thể
vẽ được đường hồi quy mẫu và đường này có 
những đặc tính sau:
25
Đặc điểm của đường hồi quy 
mẫu
1. Nó đi qua giá trị trung bình mẫu của X và 
Y, do 
26
Đặc điểm của đường hồi quy mẫu
2. Giá trị ước lượng trung bình của Y bằng 
với giá trị trung bình của Y quan sát.
3. Giá trị trung bình của sai số ei bằng 0: ei
= 0.
4. Sai số ei không có tương quan với giá trị
dự báo Yi.
5. Sai số ei không có tương quan với Xi.
27
Giả định của mô hình hồi qui đa biến
(1)Giả định 1: Tuyến tính các tham số hồi
qui (linear in parameters).
(2)Giả định 2: Các giá trị mẫu của xj được
ước lượng đúng, không có sai số
(random sampling): Giá trị các biến giải
thích là các số đã được xác định.
(3)Giả định 3: Kỳ vọng hoặc trung bình số
học của các sai số là bằng 0 (zero
conditional mean).
E(u/xi) = 0
28
Giả định 3: E(ui/xi) = 0
29
Giả định của mô hình hồi qui đa biến
(4)Giả định 4: Các sai số u độc lập với biến
giải thích. Cov(ui, Xi) = 0
(5) Giả định 5: Các sai số u có phương sai 
bằng nhau (homoscedasticity). 
Var(u/xi) = σ2
30
Giả định 5: Var(u/xi) = σ2
31
Phương sai sai số không đồng nhất: 
var(ui|Xi) = i2
32
Giả định của mô hình hồi qui đa biến
(6) Giả định 6: Các sai số u từng cặp độc lập với 
nhau. Cov(ui, ui’) = E(uiui’) = 0, nếu i  i’
33
Giả định của mô hình hồi qui đa 
biến
(7) Giả định: Không có biến độc lập nào là hằng 
số, và không tồn tại các mối liên hệ tuyến 
tính hoàn toàn chính xác giữa các biến độc 
lập (no perfect multicollinearity).
(8) Số quan sát n phải lớn hơn số biến độc lập.
(9) Mô hình hồi quy được xác định đúng đắn: 
không có sai lệch về dạng mô hình.
34
Sai lệch về dạng mô hình
35
Độ chính xác hay sai số chuẩn của 
các ước lượng OLS
 Các giá trị của ước lượng OLS phụ
thuộc vào số liệu của mẫu. Số liệu giữa 
các mẫu khác nhau lại khác nhau => 
cần đo lường độ chính xác của các ước 
lượng.
 Ta đo lường độ chính xác bằng sai số
chuẩn (standard error – se).
36
Sai số chuẩn của các ước lượng OLS
Trong đó: 
var: phương sai; 
se: sai số chuẩn và 
2: phương sai của sai số, 
có thể được ước lượng 
bằng công thức:
2
2
2
n
e
ˆ i
 2ie : Tổng bình phương của các sai số
(Residual sum of 
squares – RSS)
   222222 iiiii xˆy)YˆY(e 
37
Sai số chuẩn của các ước lượng OLS
2
2
 
n
e
ˆ i
Sai số chuẩn của ước lượng hay còn 
gọi là sai số chuẩn của hồi quy (se): 
nó là độ lệch giữa giá trị Y so với 
đường hồi quy được ước lượng và 
được dùng để chỉ “Độ tin cậy của 
mô hình” (goodness of fit). 
38
Một số đặc điểm của phương sai hay 
se của các ước lượng OLS
1. Phương sai của ước lượng 2 tỷ lệ với 
2, nhưng nghịch biến với xi2. Do vậy, 
X biến động càng lớn, se càng nhỏ => 
ước lượng càng chính xác; n càng lớn, 
càng chính xác.
2. Phương sai của ước lượng 1 tỷ lệ với 
2 và Xi2, nhưng nghịch biến với xi2
và cở mẫu
39
Định lý Gauss-Markov
 Một ước lượng được gọi là “ước lượng không 
chệch tuyến tính tốt nhất” (BLUE) nếu thỏa 
các điều kiện:
 Nó là tuyến tính, có nghĩa là một hàm tuyến tính 
của một biến ngẫu nhiên,
 Nó không chệch,
 Nó có phương sai nhỏ nhất, hay còn gọi là ước 
lượng hiệu quả (efficient estimator).
 Định lý: Với những giả định của mô hình hồi 
quy cổ điển, các ước lượng bình phương bé 
nhất có phương sai nhỏ nhất, trong nhóm 
những ước lượng tuyến tính không chệch, 
tức là, chúng là BLUE.
40
Hệ số xác định R2: một thước đo Độ
tin cậy của mô hình
 Gọi TSS (Tổng bình phương sai số tổng cộng):
TSS = (Yi -Y)2
 ESS: bình phương sai số được giải thích 
ESS = ( -Y)2
 RSS: tổng bình phương sai số:
RSS = ei2
 Ta chứng minh được: TSS = ESS + RSS
iYˆ
TSS
RSS
TSS
ESSR  12
41
Hệ số xác định R2
 R2 cho biết % sự biến động của Y được giải 
thích bởi các biến số X trong mô hình.
 0 < R2 < 1
 R2  1: mô hình giải thích được càng nhiều 
sự biến động của Y  mô hình càng đáng tin 
cậy.
 Một nhược điểm của R2 là giá trị của nó tăng 
khi số biến X đưa vào mô hình tăng, bất 
chấp biến đưa vào không có ý nghĩa.
 Cần sử dụng R2 điều chỉnh (adjusted R2 -R2) 
để quyết định việc đưa thêm biến vào mô 
hình.
42
Hệ số xác định điều chỉnhR2
kn
n)R(R
111 2
2
• Khi k > 1, R2 < R2. Do vậy, khi số biến 
X tăng,R2 sẽ tăng ít hơn R2. 
• Khi đưa thêm biến vào mô hình mà làm 
choR2 tăng thì nên đưa biến vào và 
ngược lại. 
43
Kiểm định giả thuyết mô hình
 CLRM còn giả định ui theo phân phối chuẩn:
ui ~ N(0, 2)  Yi ~ N(1 + 2Xi, 2).
 Do ui theo phân phối chuẩn, các ước lượng 
OLS của 1 và 2 cũng theo phân phối 
chuẩn vì chúng là các hàm số tuyến tính 
của ui.
 Chúng ta có thể áp dụng các kiểm định t, F, 
và 2 để kiểm định các giả thuyết về các 
ước lượng OLS.
44
1. Xây dựng khoảng tin cậy của 1
và 2
 Để xem 2 “gần” với 2 đến mức nào, ta 
cần tìm 2 giá trị  và  sao cho xác suất của 
khoảng: 
(2 - , 2 + ) có chứa giá trị thực của 2 là 
1 -  hay: Pr(2 -   2  2 + ) = 1 - .
 (2 - , 2 + ): là khoảng tin cậy,
 1 - : hệ số tin cậy,
  với (0 <  < 1): là mức ý nghĩa.
 Ví dụ: nếu  = 0,05 = 5%, ta đọc “xác suất 
để khoảng tin cậy chứa giá trị thực của 2 là 
95%.
 
 
45
Khoảng tin cậy của 2
 Do 2 không biết trước, ta thường dùng 
ước lượng không chệch của nó là 2, ta có:
 Biến t sẽ theo phân phối t với bậc tự do n –
k (số tham số được ước lượng kể cả hệ số
tự do).
 Khoảng tin cậy từ phân phối t:
Pr(-t/2 < t < 
t/2)
46
Kiểm định 2 đuôi
 Giả sử ta muốn kiểm định giả thuyết:
H0: 2 = 0 và H1: 2  0.
 Kiểm định các giả thuyết trên gọi là kiểm 
định 2 đuôi. 
 Kiểm định được sử dụng khi ta không biết rõ 
chiều hướng khác biệt của 2 so với 0.
 Quy tắc quyết định: Xây dựng khoảng tin 
cậy 100(1-) cho 2. Nếu giá trị 2 trong giả
thuyết H0 nằm trong khoảng tin cậy này, ta 
chấp nhận H0, nhưng nếu nó nằm ngoài, ta 
bác bỏ H0.
47
Quy tắc quyết định
48
Kiểm định giả thuyết mô hình
1. Kiểm định giả thuyết về từng phần tử của 
Thông thường, giả thuyết được đặt ra là i = 0,
nghĩa là biến Xi không ảnh hưởng đến mô
hình, khi đó chúng ta xét:
)kn(
k
k t~
)ˆ(se
ˆ
t 
Nếu t < t/2, (n-k): ta chấp nhận giả thuyết H0: I = 0 ở
mức độ tin cậy , có nghĩa là Xi không có ảnh hưởng 
đến Y.
Nếu t > t/2, (n-k): ta bác bỏ giả thuyết H0 và chấp 
nhận H1: i  0 ở mức độ tin cậy , có nghĩa là Xi có 
ảnh hưởng đến Y.
49
Kiểm định giả thuyết mô hình
2. Kiểm định ảnh hưởng tất cả các biến 
độc lập cùng lúc
Giả thuyết của kiểm định này là:
H0: 2 = 3 =... = k = 0
2
2
1
1
R
R.
k
knF
 Bác bỏ giả thuyết H0 khi F > F(k-1, n-k),, nghĩa là có 
ít nhất một tham số khác 0 ; hoặc là có ít nhất một 
biến có ảnh hưởng đến Y. 
 F < F(k - 1, n – k), thì chấp nhận giả thuyết H0, nghĩa 
là tất cả các tham số 2, 3, ... , k đều bằng 0; 
hoặc là không có biến độc lập nào ảnh hưởng đến 
Y.
50
Phương pháp dự đoán trong mô 
hình hồi qui
2
2
2021
11
i
o
/ x
)xX(
n
st)Xˆˆ(
 
Cho trước 1 giá trị X0, ta có thể dùng mô 
hình hồi quy để dự báo giá trị Y ứng với một 
mức tin cậy  nào đó. Công thức:
s: sai số chuẩn của ước lượng
2
2
 
n
e
ˆs i
51
Ví dụ: Có bộ số liệu về chi tiêu và thu nhập 
của hộ gia đình ở VN 1998 như sau:
Variable Obs Mean Std.Dev Min Max Label
pcexp 5999 3210 2682 337.705 54886.9 Chi tieu/nguoi
rincome 5999 15274 18535 -29524.4 445334 Tong thu nhap thuc
hhsize 5999 4.77 1.97 1 19 So nhan khau
child 5999 1.66 1.40 0 8 So tre em
Ta cần kiểm định mối quan hệ giữa mức chi tiêu/đầu 
người với thu nhập của hộ gia đình, số nhân khẩu, 
số trẻ em trong gia đình.
52
Kết quả ước lượng mô hình hồi 
quy
Source SS df MS Number of obs = 5999
F( 3, 5995) = 1116.09
Model 1.55E+10 3 5.16E+09 Prob > F = 0
Residual 2.77E+10 5995 4619197 R-squared = 0.3584
Adj R-squared = 0.358
Total 4.32E+10 5998 7195461 Root MSE = 2149.2
pcexp Coef. Std. Err. t P>t [95% Conf. Interval]
rincome 0.082 0.00 51.90 0.000 0.08 0.08
hhsize -376.468 20.22 -18.62 0.000 -416.11 -336.83
child -145.951 27.57 -5.29 0.000 -199.99 -91.91
_cons 4001.691 75.15 53.25 0.000 3854.37 4149.01
53
Trình bày Kết quả
d145,95chil-ze376,47hhsi4001,69 
rincome,exppc 0820
se (75,148) (0,0015) (20,222)
(27.567)
t 53.25*** 51,90*** -18,62***
-5,29***
• R2 = 35,8%, chứng tỏ, các biến độc lập trong mô 
hình giải thích được 35,8% sự biến động của chi tiêu 
bình quân đầu người trong hộ.
• Do giá trị t của các hệ số đều lớn hơn giá trị t5%, ta 
bác bỏ các giả thuyết H0, cho rằng các hệ số bằng 0. 
Hay ta có thể gọi các hệ số được ước lượng đều có ý 
nghĩa ở mức 5%.
54
Trình bày và giải thích Kết quả
d145,95chil-ze376,47hhsi4001,69 
rincome,exppc 0820
se (75,148) (0,0015) (20,222)
(27.567)
t 53.25*** 51,90*** -18,62***
-5,29***
• Khi thu nhập tăng thêm 1 đồng, chi tiêu đầu người 
tăng bình quân 0,082 đồng, trong điều kiện các yếu tố
khác không đổi.
• Khi số nhân khẩu trong gia đình tăng thêm 1 người, 
chi tiêu đầu người giảm bình quân 376.000 đồng, trong 
điều kiện các yếu tố khác không đổi.
• Khi số trẻ em trong gia đình tăng thêm 1, chi tiêu 
đầu người giảm bình quân 146.000 đồng
            Các file đính kèm theo tài liệu này:
 hoi_quy_da_bien_9765.pdf hoi_quy_da_bien_9765.pdf