Bài giảng Xử lý dữ liệu với SPSS - Hồ Thanh Trí

 Correlations ( bảng tương quan ma trận)

 = 1 : chặt chẽ

 Tiến về 0 : không chặt chẽ

 Ở giữa : trung bình

 Model Summary :tóm tắt mô hình

 Anova :phân tích phương sai

 Coefficient : hệ số hồi quy

 Xét cột Sig và VIF(mức độ phóng đại phương sai) ở bảng

Coefficients

 Sig<0,05,VIF<5(VIF giải thích hiện tượng đa cộng tuyến)

 Đa cộng tuyến là kiểm tra xem các biến độc lập trong mô hình có

tương quan chặt chẽ với nhau.

 Xem cột Sig và F ở bảng ANOVAmô hình lý thuyết phù hợp với

dữ liệu thực tế.Các biến độc lập có tương quan tuyến tính với biến

phụ thuộc.

 Xem cột R square,Durbin Watson ở bảng Model Summary

 Hệ số Durbin Watson(1

chuỗi(coi thử các mẫu có lặp đi lặp lại hay không)

 R square có ý nghĩa:các biến độc lập giải thích được bao nhiêu % biến

phụ thuộc

pdf97 trang | Chia sẻ: trungkhoi17 | Lượt xem: 384 | Lượt tải: 1download
Bạn đang xem trước 20 trang tài liệu Bài giảng Xử lý dữ liệu với SPSS - Hồ Thanh Trí, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ợp phương sai  Model fit : độ thích hợp  R squared change :thay đổi R²  Part and partial correlations: phân tích tương quan tuyến tính các biến độc lập  Descriptives : thống kê mô tả  Collinearity diagnostics : kiểm soát đa cộng tuyến HỒI QUY(REGRESSION) HỒI QUY(REGRESSION)  Đồ thị giúp ta biết được sự tương quan giữa các biến độc lập so với biến phụ thuộc  Correlations ( bảng tương quan ma trận)  = 1 : chặt chẽ  Tiến về 0 : không chặt chẽ  Ở giữa : trung bình  Model Summary :tóm tắt mô hình  Anova :phân tích phương sai  Coefficient : hệ số hồi quy ĐỌC DỮ LIỆU TỪ MÔ HÌNH  Xét cột Sig và VIF(mức độ phóng đại phương sai) ở bảng Coefficients  Sig<0,05,VIF<5(VIF giải thích hiện tượng đa cộng tuyến) Đa cộng tuyến là kiểm tra xem các biến độc lập trong mô hình có tương quan chặt chẽ với nhau.  Xem cột Sig và F ở bảng ANOVAmô hình lý thuyết phù hợp với dữ liệu thực tế.Các biến độc lập có tương quan tuyến tính với biến phụ thuộc.  Xem cột R square,Durbin Watson ở bảng Model Summary Hệ số Durbin Watson(1<DW<3):giải thích hiện tượng tương quan chuỗi(coi thử các mẫu có lặp đi lặp lại hay không) R square có ý nghĩa:các biến độc lập giải thích được bao nhiêu % biến phụ thuộc ĐỌC DỮ LIỆU TỪ MÔ HÌNH Giải thích ý nghĩa của hệ số R² GIẢI THÍCH KẾT QUẢ  Viết phương trình dựa vào hệ số Bgọi là phương trình ở dạng chưa chuẩn hóa  Viết phương trình dựa vào hệ số Betaphương trình ở dạng chuẩn hóa nhưng khi giải thích phải lấy phương trình ở dạng chuẩn hóa GIẢI THÍCH Ý NGHĨA PHƯƠNG TRÌNH  Beta nào càng lớn thì càng ảnh hưởng đến biến phụ thuộc  Ưu tiên giải pháp cho Beta lớn nhất nhưng cũng phải giải thích các biến bị loại  Sau đó xét tới hệ số Mean(GTTB) của từng thành phần nếu: Caoduy trì  Thấptìm giải pháp nâng cao lên GIẢI THÍCH Ý NGHĨA PHƯƠNG TRÌNH 1. Dùng Lệnh Analysis > Regression > Cure Estimation để định dạng và tìm các thông số b0, b1, b2, b3của hàm (nguyên tắc giá trị F càng lớn là càng phù hợp). 2. Dùng lệnh Transform > Compute Variable để tính lại giá trị tuyến tính của biến bằng cách thế các thông số b0, b1, b2,b3vào công thức tính. 3. Chạy hồi quy bằng SPSS dạng tuyến tính. 4. Viết phương tr.nh hồi quy dạng đổi biến và dạng gốc. BIẾN ĐỔI BIẾN 1. Linear. Model whose equation is Y = b0 + (b1 * t). The series values are modeled as a linear function of time. 2. Logarithmic. Model whose equation is Y = b0 + (b1 * ln(t)). 3. Inverse. Model whose equation is Y = b0 + (b1 / t). 4. Quadratic. Model whose equation is Y = b0 + (b1 * t) + (b2 *t**2). The quadratic model can be used to model a series which "takes off" or a series which dampens. 5. Cubic. Model defined by the equation Y = b0 + (b1 * t) + (b2 * t**2) + (b3 * t**3). 6. Power. Model whose equation is Y = b0 * (t**b1) or ln(Y) = ln(b0) + (b1 * ln(t)). CÁC HÀM ĐỔI BIẾN 7. Compound. Model whose equation is Y = b0 * (b1**t) or ln(Y) = ln(b0) + (ln(b1) * t). 8. S-curve. Model whose equation is Y = e**(b0 + (b1/t)) or ln(Y) = b0 + (b1/t). 9. Logistic. Model whose equation is Y = 1 / (1/u + (b0 * (b1**t))) or ln(1/y-1/u)= ln (b0) + (ln(b1)*t) where u is the upper boundary value. After selecting Logistic, specify the upper boundary value to use in the regression equation. The value must be a positive number, greater than the largest dependent variable value. 10. Growth. Model whose equation is Y = e**(b0 + (b1 * t)) or ln(Y) = b0 + (b1 * t). 11. Exponential. Model whose equation is Y = b0 * (e**(b1 * t)) or ln(Y) = ln(b0) + (b1 * t). CÁC HÀM ĐỔI BIẾN ƯỚC LƯỢNG ĐƯỜNG CONG Đưa biến phụ thuộc vào ô Dependent Đưa biến độc lập vào ô independent Chọn các hàm để ước lượng ƯỚC LƯỢNG ĐƯỜNG CONG Chọn hàm có giá trị Rsquare vượt trội Nếu R ngang nhau chọn hàm F lớn nhất Dựa vào constant, b1,b2, b3 để viết lại hàm mới Đơn giản chỉ có vậy bạn hãy nhớ mình cần đọc những gì và giải thích nó như thế nào?  Cách 1:  Vào Variable View đặt tên biến mới  Sau đó vào TransformCompute Variable  Ô Target Variable(biến mục tiêu) đánh lại tên biến đã đặt ở trên  Sau đó chọn biến độc lập để mã hóa  VD: Gioitinh=1nam,Gioitinh=2nu  Cách 2: vào TransformRecode into Different variable(tạo một biến giả mới) MÃ HÓA BIẾN(BIẾN GIẢ DUMMY)  Áp dụng trong trường hợp biến phụ thuộc là biến định tính có 2 thuộc tính(VD: có hay không; tăng hay giảm.)  Analyse  Regression  Binary Logistic  Chuyển biến phụ thuộc Y vào Dependent variable box.  Chuyển các biến độc lập có liên quan vào Covariates box.  Chọn Enter trong ô Method  Click Option  Đánh dấu vào CI for Exp(B), 95%  Click Continue  Click OK  Xem bảng Variable in the equation  Xem cột sig. nếu biến Xi có sig. <0.05  có ý nghĩa thống kê với mức ý nghĩa 5%.  Cột EXP(B)= của từng biến độc lập HỒI QUY LOGISTIC Giới thiệu: Theo tiêu chuẩn của World Bank (1 USD/người/ngày), năm 2010, tỷ lệ nghèo ở Việt Nam là 10,3%. Tuy nhiên, nếu áp dụng chuẩn mới ( 2 USD/người/ngày) thì tỷ lệ nghèo sẽ cao hơn nhiều. Nền kinh tế không thể phát triển bền vững khi còn tình trạng nghèo cao. Đó là thách thức và đương đầu của các nước đang phát triển. Cải thiện tình trạng nghèo theo quá trình tăng trưởng và phát triển đang được Chính phủ Việt Nam quan tâm. Để giải quyết điều này, trước hết phải nhận diện được các yếu tố ảnh hưởng đến nghèo. Tuy nhiên, cách nào để định lượng mối quan hệ giữa các yếu tố và nghèo vẫn còn bỏ ngỏ trong nghiên cứu. Phần nghiên cứu này sẽ giải quyết vấn đề đặt ra, tập trung vào các nội dung: (1) Cơ sở lý thuyết để hình thành mô hình hồi quy Binary Logistic đối với tình trạng nghèo; (2) Phân tích mô hình dựa trên chương trình SPSS 18. MÔ HÌNH CÁC YẾU TỐ ẢNH HƯỞNG ĐẾN NGHÈO Ở NÔNG THÔN 1. Các yếu tố ảnh hưởng đến nghèo Các công trình nghiên cứu tại Việt Nam trước đây như: Van de Walle, D. và Dileni, G.(2001), Minot, N. (2004), WB (2007), Đinh Phi Hổ và Nguyễn Trọng (2007), đã nhận diện có tám yếu tố ảnh hưởng đến nghèo.  Nghề nghiệp, tình trạng việc làm  Trình độ học vấn  Giới tình chủ hộ  Quy mô hộ  Số người sống phụ thuộc  Quy mô diện tích đất của hộ gia đình  Quy mô vốn vay từ định chế chính thức  Khả năng tiếp cận cơ sở hạ tầng CƠ SỞ LÝ THUYẾT CỦA MÔ HÌNH  Nghề nghiệp, tình trạng việc làm Người nghèo thường không có việc làm, làm thuê hoặc làm việc trong nông nghiệp, trong khi người giàu thường có việc làm trong những lĩnh vực có thu nhập cao và tương đối ổn định như buôn bán, dịch vụ, công chức.  Trình độ học vấn Vì không có đủ tiền để trang trải cho chi phí học tập nên con cái họ thường bỏ học rất sớm hay thậm chí không đi học. Hơn nữa, người nghèo không những thiếu hiểu biết mà còn thiếu khả năng tiếp thu kiến thức chuyên môn cần thiết trong hoạt động kinh tế. Hệ quả là rơi vào cái bẫy: ít học – nghèo.  Giới tình chủ hộ Ở vùng nông thôn, những hộ gia đình có chủ hộ là nữ có nhiều khả năng nghèo hơn những hộ có chủ là nam. Điều đó do nữ thường ít cơ hội làm việc với thu nhập cao, mà thường làm việc nhà và sống dựa vào nguồn thu từ người nam trong gia đình.  Quy mô hộ Quy mô hộ gia đình càng lớn thì hộ có chi tiêu bình quân đầu người thấp hơn. Do đó, có nhiều khả năng nghèo hơn hộ có ít người.  Số người sống phụ thuộc Tỷ lệ người ăn theo càng cao, họ phải gánh chịu nhiều chi phí hơn cho học hành, khám chữa bệnh. Do đó nhiều khả năng nghèo hơn hộ có ít người phụ thuộc.  Quy mô diện tích đất của hộ gia đình Ở nông thôn, đất là tư liệu sản xuất chủ yếu của nông nghiệp, nguồn tạo ra thu nhập. Không có đất hoặc quy mô đất ít thường đi đôi với nghèo.  Quy mô vốn vay từ định chế chính thức Thiếu vốn đầu tư dẫn tới năng suất thấp, kéo theo thu nhập hộ gia đình thấp. Do đó, vay vốn từ định chế chính thức là công cụ quan trọng giúp hộ nông thôn thoát nghèo.  Khả năng tiếp cận cơ sở hạ tầng Cơ sở hạ tầng nông thôn bao gồm đường giao thông, điện, chợ, nước sạch, hệ thống thông tin liên lạc. Cơ sở hạ tầng nông thôn phát triển, nhất là thông qua thực hiện các dự án phát triển cơ sở hạ tầng, sẽ tạo nhiều cơ hội việc làm cho người nghèo ở vùng nông thôn.  Mô hình hồi quy Binary Logistic phân tích những yếu tố tác động đến khả năng nghèo của hộ gia đình như sau:  Y là biến giả, có giá trị bằng 1(nếu hộ gia đình nghèo) và bằng 0 (cho tất cả các hộ gia đình khác); Xj là các yếu tố ảnh hưởng đến nghèo (j=1-n); u là phần dư. Mô hình định lượng  Dạng tổng quát của mô hình hồi quy Binary Logistic:  Trong đó, P(Y=1)=Po: Xác xuất hộ nghèo;  P(Y=0)=1-Po: Xác xuất hộ không nghèo Mô hình định lượng  Hệ số Odds:  Do đó, Log của hệ số Odds là một hàm tuyến tính với các biến độc lập Xi (i=1,2,n)  Dựa vào số liệu điều tra về nghèo của 182 hộ gia đình ở An Giang trong năm 2008, hàm hồi quy Binary Logistic về các yếu tố ảnh hưởng đến nghèo như sau: Mô hình định lượng  Bảng 1: Giải thích các biến trong mô hình Biến phụ thuộc Tên biến Giải thích nội dung biến Nguồn số liệu Kỳ vọng dấu hệ số hồi quy DANGHO Biến giả (dummy), nhận giá trị 1 nếu hộ thuộc diện nghèo và nhận giá trị 0 nếu hộ thuộc diện không nghèo Điều tra BIẾN ĐỘC LẬP Tên biến Giải thích nội dung biến Nguồn số liệu Kỳ vọng dấu hệ số hồi quy DTOC Biến giả, nhận giá trị 1 nếu hộ là người Khmer và nhận giá trị 0 nếu hộ là người Kinh Hoa. Điều tra + GTINH Biến giả, nhận giá trị 1 nếu chủ hộ thuộc giới nam và nhận giá trị 0 cho trường hợp thuộc giới nữ. Điều tra - HOCVAN Số năm đi học của chủ hộ Điều tra - PTHUOC Tổng số người trên 15 tuổi mà không tạo ra được thu nhập trong hộ gia đình. + NGHE Biến giả, nhận giá trị 0 nếu chủ hộ làm việc liên quan tới nghề nông hay nhận giá trị 1 nếu chủ hộ làm việc trong các ngành phi nông nghiệp. - KCACH Số Km từ nhà hộ gia đình đến chợ mà người dân có thể mua bán. + DUONGOTO Biến giả, nhận giá trị 1 nếu hộ có đường ô tô đến tận nhà và nhận giá trị 0 nếu hộ không có đường ô tô đến nhà. - LAMXA Biến giả, nhận giá trị 1 nếu hộ có người đi làm xa và nhận giá trị 0 nếu hộ không có người đi làm xa. - DTICH Diện tích đất mà hộ gia đình canh tác (1000 m2) - COVAY Biến giả, nhận giá trị 1 nếu hộ có vay và nhận giá trị 0 nếu hộ không có vay từ các tổ chức tín dụng chính thức - PHÂN TÍCH MÔ HÌNH DỰA TRÊN CHƯƠNG TRÌNH SPSS  Dữ liệu và nhập vào SPSS  Số liệu điều tra 182 hộ gia đình ở An Giang năm 2008 (Phụ lục 3.1.1)  Sử dụng chương trình SPSS 18.0  Vào giao diện SPSS/Nhập dữ liệu vào SPSS. Kết quả như sau:  Nhập dự liệu vào mô hình hồi quy Binary Logistic  Analyze/ Regression/ Binary Logistic, sẽ xuất hiện hộp thoại  Đưa biến DANGHO vào hộp thoại Dependent (biến phụ thuộc). Đưa các biến còn lại vào Covariates (biến độc lập).  Chọn hộp thoại Save. Kết quả như sau: Chọn các bảng số liệu cần thiết, Copy và Paste qua giao diện Excel hoặc World để phân tích 1. Phân tích các kiểm định.  Kiểm định hệ số hồi quy Phân tích hồi quy Binary Logistic Các biến trong mô hình (Variables in the Equation) B S.E. Wald df Sig. Exp(B) 95% C.I.for EXP(B) Lower Upper Step 1a DANTOC 1.528 .580 6.952 1 .008 4.609 1.480 14.352 GIOITINH -.558 .492 1.286 1 .257 .572 .218 1.502 HOCVAN -.326 .099 10.739 1 .001 .722 .594 .877 PHUTHUOC .227 .241 .888 1 .346 1.255 .783 2.012 NGHE -1.951 .669 8.493 1 .004 .142 .038 .528 KCACH .188 .166 1.276 1 .259 1.206 .871 1.670 DUONG -1.368 .516 7.025 1 .008 .255 .093 .700 LAMXA -1.689 1.019 2.746 1 .097 .185 .025 1.361 DIENTICH .015 .028 .275 1 .600 1.015 .961 1.071 COVAY -2.238 .594 14.195 1 .000 .107 .033 .342 Constant .798 .644 1.536 1 .215 2.222 a. Variable(s) entered on step 1: DANTOC, GIOITINH, HOCVAN, PHUTHUOC, NGHE, KCACH, DUONG, LAMXA, DIENTICH, COVAY.  Biến DANTOC có Sig = 0,008 < 0,01. Do đó, biến DANTOC tương quan có ý nghĩa với biến DANGHO với độ tin cậy 99%.  Biến GIOITINH có Sig = 0,257 > 0,05. Do đó, biến GIOITINH tương quan không có ý nghĩa với biến DANGHO với độ tin cậy 95%.  .  Kiểm định mức độ phù hợp của mô hình. Phân loại dự báo (Classification Table) Classification Table a Observed Predicted Hộ nghèo và không nghèo Percentage Correct không nghèo nghèo Step 1 Hộ nghèo và không nghèo không nghèo 111 18 86.0 nghèo 21 32 60.4 Overall Percentage 78.6 Với 132 hộ không nghèo (xem theo cột) mô hình dự đoán đúng 111 hộ (xem theo hàng), vậy tỷ lệ đúng là 86%. Còn 50 hộ nghèo, mô hình dự đoán sai 18 hộ, tỷ lệ đúng là 60,4%. Do đó tỷ lệ dự báo đúng của toàn bộ mô hình là 78,6%. - Mức độ phù hợp của mô hình Kiểm định Omnibus đối với các hệ số của mô hình (Omnibus Tests of Model Coefficients) Omnibus Tests of Model Coefficients Chi-square df Sig. Step 1 Step 86.154 10 .000 Block 86.154 10 .000 Model 86.154 10 .000 Kiểm định Omnibus cho thấy Sig < 0,01 (độ tin cậy 99%). Như vậy các biến độc lập có quan hệ tuyến tính với biến phụ thuộc trong tổng thể. Nói cách khác, mô hình lựa chọn là phù hợp tốt. Thông qua các kiểm định, có thể khẳng định: Các yếu tố ảnh hưởng đến nghèo theo thứ tự tầm quan trọng là thành phần dân tộc, vay tiền từ định chế tín dụng chính thức, nhà gần đường ô tô, làm việc ở khu vực phi nông nghiệp và trình độ văn hóa của chủ hộ. Gợi ý chính sách:  Cần có chính sách giảm nghèo riêng cho người dân tộc thiểu số.  Phát triển ngành nghề dịch vụ ở nông thôn.  Mở rộng hoạt động tín dụng cho người nghèo.  Phát triển cơ sở hạ tầng nông thôn, nhất là đường nông thôn.  Nâng cao trình độ văn hóa cho người dân nông thôn. Kết luận:  Vận dụng mô hình hồi quy Binary Logistic phân tích các nhân tố ảnh hưởng đến quyết định cho vay của ngân hàng thương mại cổ phần.chi nhánh Đề tài gợi ý 1. Lựa chọn biến số Với mô hình hồi quy Binary Logistic cần phải xác định biến nào là biến độc lập và biến phụ thuộc. Các biến được lựa chọn như sau: a)Biến phụ thuộc Trong nghiên cứu này biến phụ thuộc (Y) được lựa chọn như sau Y = 1 nếu KH có khả năng đảm bảo trả nợ Y = 0 nếu KH không có khả năng trả được toàn bộ nợ b)Biến độc lập Đề tài: Xây dựng mô hình logistic về khả năng trả nợ của khách hàng. NC trường hợp ngân hàng. Bảng 2.10: Biến độc lập sử dụng trong nghiên cứu STT Chỉ tiêu Thang đo Giả thiết Ký hiệu 1 Giới tính 1: Nam – 0: Nữ +/- Gioitinh 2 Tuổi Tuổi - Tuoi 3 Trình độ học vấn 1: Dưới TH 2: TH 3: ĐH 4: Trên ĐH +/- TĐHV 4 Tính chất công việc 1: Cấp quản lý 2: Cấp chuyên viên, kinh doanh có đăng ký 3: Lao động được đào tạo, công nhân, kinh doanh tự do 4: Lao động thời vụ, thất nghiệp, nghỉ hưu +/- TCCV 5 Tình trạng hôn nhân 1: Kết hôn – 0: độc thân - Honnhan 6 Tình trạng nhà ở 1: Sở hữu riêng 2: Sống chung với cha mẹ 3: Thuê - TTNO 7 Thời gian làm công việc hiện tại Tháng + Thoigianlamviec 8 Số người phụ thuộc Người - Songuoiphuthuoc 9 Lịch sử tín dụng 1: Có nợ – 0: Không có thông tin - LichsuTD 10 Số dịch vụ sử dụng Số dịch vụ + Sodichvu 11 Thu nhập hàng tháng Triệu đồng + Thunhap 12 Tiết kiệm hàng tháng Triệu đồng + Tietkiem 13 Số tiền vay Triệu đồng - Tienvay 14 Giá trị tài sản đảm bảo Triệu đồng + Taisan 2. Phân tích thống kê mô tả (Nguồn: Số liệu tính toán từ dữ liệu của Ngân hàng TMCP Sài Gòn) Với bảng 2.11, số liệu khách hàng không có khả năng trả nợ là 19,38% và 80,62% khách hàng có đủ khả năng trả nợ. Ngoài ra, đề tài cũng thống kê mô tả toàn bộ dữ liệu và cho ra các thông số sau: Bảng 2.11: Phân loại khách hàng theo khả năng trả nợ Nhóm (Y) Số lượng Tỷ trọng 0 31 19,38% 1 129 80,62% Tổng 160 100% Bảng 2.12: Số liệu thống kê mô tả mẫu nghiên cứu Biến độc lập Trung bình Mode Độ lệch Maximum Minimum Giới tính 0.49 0.00 0.50 0.00 1.00 Tuổi 44.99 43a 10.65 24.00 77.00 Trình độ học vấn 2.24 2.00 0.69 1.00 4.00 Tính chất công việc 2.33 2.00 0.78 1.00 4.00 Tình trạng hôn nhân 0.86 1.00 0.35 0.00 1.00 Tình trạng nhà ở 1.18 1.00 0.50 1.00 3.00 Thời gian làm việc 70.66 61.00 44.75 6.00 395.00 Số người phụ thuộc 1.06 0.00 0.99 0.00 3.00 Lịch sử tín dụng 0.49 0.00 0.50 0.00 1.00 Số dịch vụ đang sử dụng 0.77 1.00 0.55 0.00 2.00 Thu nhập hàng tháng 21.48 8.00 27.60 4.00 225.00 Tiết kiệm hàng tháng 15.80 4.00 26.13 1.50 215.00 Số tiền vay 473.97 100.00 865.73 30.00 6000.00 Giá trị tài sản 1343.91 160.00 1709.50 82.98 9446.08 Tỷ lệ nợ trên tổng tài sản 0.36 0.5000a 0.20 0.03 0.70 3. Phân tích tương quan Xem xét mối tương quan của các biến (định lượng) đưa vào mô hình. Nếu hệ số tương quan cặp > 0.8 thì sẽ dẫn đến hiện tượng đa cộng tuyến nếu đưa các biến này vào mô hình. Bảng 2.13: Hệ số tương quan cặp các biến định lượng đưa vào mô hình Tuổi Thời gian làm việc Thu nhập hàng tháng Tiết kiệm hàng tháng Số tiền vay Giá trị tài sản Tỷ lệ nợ trên tổng tài sản Tuổi Hệ số tương quan cặp 1 Sig. (2-tailed) Thời gian làm việc Hệ số tương quan cặp 0.324** 1 Sig. (2-tailed) 0.000 Thu nhập hàng tháng Hệ số tương quan cặp -0.003 0.050 1 Sig. (2-tailed) 0.973 0.528 Tiết kiệm hàng tháng Hệ số tương quan cặp -0.015 0.037 0.994** 1 Sig. (2-tailed) 0.854 0.643 0.000 Số tiền vay Hệ số tương quan cặp -0.055 0.052 0.498** 0.461** 1 Sig. (2-tailed) 0.487 0.515 0.000 0.000 Giá trị tài sản Hệ số tương quan cặp 0.064 -0.038 0.409** 0.382** 0.751** 1 Sig. (2-tailed) 0.424 0.636 0.000 0.000 0.000 Tỷ lệ nợ trên tổng tài sản Hệ số tương quan cặp -0.238** 0.119 0.373** 0.351** 0.428** 0.013 1 Sig. (2-tailed) 0.002 0.133 0.000 0.000 0.000 0.874  Theo kết quả bảng 2.13 thể hiện 2 biến thu nhập hàng tháng và tiết kiệm có sự tương quan chặt với nhau (hệ số tương quan = 0.994 > 0.8). Điều này cho thấy nếu cùng đưa 2 biến này vào mô hình thì sẽ xảy ra hiện tượng đa cộng tuyến.  Tuy nhiên, theo Ramanathan (2003), đa cộng tuyến có thể không ảnh hưởng đến khả năng dự báo của mô hình và thậm chí có thể cải thiện khả năng dự báo. Có 2 cách xử lý vấn đề này là vẫn đưa biến vào mô hình để tăng khả năng dự báo hoặc loại bỏ 1 trong 2 biến trên. 4. Ước lượng mô hình hồi quy Mô hình 1: Sử dụng phần mềm thống kê SPSS với phương pháp Enter, đưa tất cả 15 biến vào mô hình, ta được mô hình 1. Mô hình 2: được ước lượng bằng cách loại bỏ những biến có mức ý nghĩa Sig > 0.25 (mức ý nghĩa dành cho mô hình dự báo) từ mô hình 1. Bảng 2.14: Kết quả ước lượng hồi quy Binary Logistic của các mô hình Biến Giả thiết Mô hình 1 Mô hình 2 β Sig. β Sig. Gioitinh +/- 0.704 0.348 Tuoi - 0.084 0.079 0.097 0.020 TĐHV +/- -1.277 0.089 TCCV +/- -1.993 0.008 -1.259 0.017 Honnhan - 2.683 0.024 1.909 0.032 TTNO - -0.260 0.740 Thoigianlamviec + -0.023 0.065 -0.020 0.047 Songuoiphuthuoc - -0.690 0.129 LichsuTD - -0.483 0.526 Sodichvu + 1.449 0.018 1.138 0.033 Thunhap + 0.672 0.050 0.585 0.000 Tietkiem + -0.141 0.744 Tienvay - -0.014 0.000 -0.013 0.000 Taisan + 0.004 0.002 0.003 0.007 TLNTTS - 10.727 0.002 8.193 0.006 Constant -4.568 0.217 -8.739 0.001 OB 0.000 0.000 Độ chính xác 94.40% 90.60% - 2LL 67.96% 74.69% McFadden R-squared 38.64% 17.51% Likelihood ratio 33.98% 37.35% Nhận xét chung  Cả hai mô hình đều có độ phù hợp tổng quát với mức ý nghĩa quan sát (Sig. OB = 0.00 < α).  Độ chính xác của kết quả dự báo của hai mô hình rất cao lần lượt là: 94.40%, 90.60%.  Giá trị “McFadden R-squared” từ ước lượng hồi quy Binary Logistic của hai mô hình lần lượt là: 38.64%, 17.51% sự biến động của xác suất trả được nợ của khách hàng.  Về kiểm định -2LL không cao lắm, điều này thể hiện một độ phù hợp khá tốt của mô hình tổng thể. 5. Đề xuất mô hình xếp hạng tín dụng cá nhân cho Ngân hàng TMCP Sài Gòn  Mô hình 2 đảm bảo tất cả các hệ số hồi quy tìm được trong mô hình đều có ý nghĩa. Trong mô hình cũng không có hiện tượng đa cộng tuyến giữa biến thunhap và tietkiem (đã loại này ra khỏi mô hình 1 do biến tietkiem không có ý nghĩa thống kê vì có số Sig lớn 0.744).  Ta có thể nhận thấy về chỉ tiêu thống kê về mức độ phù hợp mô hình, mức độ chính xác của dự báo thì mô hình 2 là vượt trội nhất, thích hợp cho mô hình XHTD. Vì vậy, tác giả xin đề xuất mô hình 2 là mô hình XHTD cá nhân cho Ngân hàng TMCP Sài Gòn. Tiến hành phân tích và nhận xét mô hình 2: Độ phù hợp mô hình 2:  Kết quả kiểm định giả thuyết về độ phù hợp tổng quát ở Bảng 2.15 có mức ý nghĩa quan sát (Sig. OB = 0.00 < α) nên an toàn ta có thể bác bỏ giả thuyết: H0: β2 = β2 = β4 = β5 = β7 = β10 = β11 = β12 = β13 = β14 = β15 = 0 Bảng 2.15: Omnibus Tests of Model Coefficients Chi-square df Sig. Step 1 Step 82.629 9 0.000 Block 82.629 9 0.000 Model 82.629 9 0.000 Bảng 2.16 cho thấy giá trị của – 2LL = 74.668 không cao lắm, như vậy nó thể hiện một độ phù hợp khá tốt của mô hình tổng thể. Bảng 2.16: Model Summary Step -2 Log likelihood Cox & Snell R Square Nagelkerke R Square 1 74.688a 0.403 0.644 a. Estimation terminated at iteration number 9 because parameter estimates changed by less than .001. Mức độ chính xác của dự báo Mức độ chính xác của dự báo được thể hiện qua bảng Classification Table (Bảng 2.17) Bảng này cho thấy trong 26 trường hợp thực tế là không trả được nợ mô hình đã dự đoán trúng 21 trường hợp, tỷ lệ trúng là 67.7%. Còn 134 trường hợp thưc tế có trả được nợ mô hình dự đoán sai 10 trường hợp, tỷ lệ trúng là 96.1%. Từ đó ta tính được tỷ lệ dự đoán đúng toàn bộ mô hình là 90.6% Bảng 2.17: Classification Tablea Observed Predicted Khả năng trả nợ Percentage CorrectKhông có khả năng trả nợ Có khả năng trả nợ Step 1 Khả năng trả nợ Không có khả năng trả nợ 21 10 67.7 Có khả năng trả nợ 5 124 96.1 Overall Percentage 90.6 a. The cut value is .500 Kiểm định ý nghĩa của các hệ số hồi quy tổng thể Bảng 2.18: Variables in the Equation B S.E. Wald df Sig. Step 1a Gioitinh .704 .750 .880 1 .348 Tuoi .084 .048 3.084 1 .079 TĐHV -1.277 .751 2.890 1 .089 TCCV -1.993 .745 7.149 1 .008 Honnhan 2.683 1.189 5.095 1 .024 TTNO -.260 .786 .110 1 .740 Thoigianlamviec -.023 .013 3.407 1 .065 Songuoiphuthuoc -.690 .455 2.302 1 .129 LichsuTD -.483 .762 .402 1 .526 Sodichvu 1.449 .610 5.641 1 .018 Thunhap .672 .343 3.834 1 .050 Tietkiem -.141 .431 .106 1 .744 Tienvay -.014 .003 17.191 1 .000 Taisan .004 .001 9.589 1 .002 TLNTTS 10.727 3.540 9.181 1 .002 Kiểm định Wald về ý nghĩa cũa hệ số hồi quy tổng thể của các biến tuổi, tính chất công việc, hôn nhân, thời gian làm việc, số dịch vụ, thu nhập, tiền vay, tài sản, tỷ lệ dư nợ vay trên tổng giá trị tài sản đều có mức ý nghĩa sig. nhỏ hơn 0.05 nên ta an toàn bác bỏ giả thuyết H0: β2 = β2 = β4 = β5 = β7 = β10 = β11 = β12 = β13 = β14 = β15 = 0 Như vậy, các hệ số hồi quy tìm được có ý nghĩa và mô hình đưa ra sử dụng tốt. Từ các hệ số hồi quy này ta viết được phương trình Log e [ 𝑃 ( 𝑌 = 1) 𝑃 ( 𝑌=0 ) ] = - 8.793 + 0.097 tuoi – 1.259 TCCV + 1.259 honnhan – 0.020 thoigianlamviec + 1.138 sodichvu + 0.585 thunhap – 0.013 tienvay + 0.003 taisan + 8.193 TLNTTS. (1.1) Có thể diễn dịch ý nghĩa của các hệ số hồi quy Binary Logistic là: Hệ số hồi quy Tuổi (Tuoi): khi hệ số Tuổi làm tăng khả năng trả nợ của khách hàng. Điều này có thể lý giải trong thực tế là các ngân hàng e ngại cho những khách hàng trẻ vay sợ rủi ro, cho các khách hàng lớn tuổi vay ít rủi ro hơn. Tính chất công việc (TCCV): khi hệ số tính chất công việc càng lớn (khách hàng không có khả năng trả nợ càng cao. Trên thực tế, biến tính chất công việc tác giả phân loại thành 4 nhóm: Cấp quản lý; cấp chuyên viên hay kinh doanh có đăng ký; lao động được đào tạo, công nhân, kinh doanh tự do; lao động thời vụ, thất nghiệp, nghỉ hưu. Điều này cho thấy rằng những khách hàng càng có địa vị, chức vụ hay những khách hàng kinh doanh có đăng ký thì thường có một công việc cũng như mức thu nhập ổn định và có khả năng trả nợ cao hơn hai nhóm tính chất công việc còn lại.  Tình trạng hôn nhân (Honnhan): kết quả kiểm định mô hình cho thấy các khách hàng đã lập gia đình có ít rủi ro và có nhiều uy tín tín dụng, vì họ có trách nhiệm hơn người độc thân. Một yếu tố khác có thể làm cho những người đã lập gia đình có nhiều uy tín tín dụng hơn là thu nhập gấp đôi.  Thời gian làm công việc hiện tại (Thoigianlamviec): hệ số thời gian làm việc càng cao càng có khả năng trả nợ. Khi có thâm niên công việc hiện tại, thì thường có thu nhập cao hơn.  Số dịch vụ đang sử dụng (Sodichvu): khách hàng càng sử dụng nhiều dịch vụ của ngân hàng chứng tỏ khách hàng có mối quan hệ thân thiết và uy tín với ngân hàng.  Thu nhập hàng tháng (Thunhap): hệ số thu nhập càng cao khả năng trả nợ càng cao và tăng theo tỷ lệ tương ứng với mức thu nhập. Thu nhập thường được sử dụng đại diện cho sự giàu có về tài chính và khả năng trả nợ của người vay (Đinh & Kleimeier, 2007).  Số tiền vay (Tienvay): khi khoản vay càng tăng, khả năng trả nợ của khách sẽ giảm.  Giá trị tài sản (Taisan): tài sản thế chấp là một hình thức đảm bảo cho khoản vay của khách hàng. Đặc biệt, đối với các khoản vay sử dụng tài sản thế chấp là nhà ở, xác suất kh

Các file đính kèm theo tài liệu này:

  • pdfbai_giang_xu_ly_du_lieu_voi_spss_ho_thanh_tri.pdf