Luận văn Nghiên cứu ứng dụng mô hình arima để dự báo lượng mưa vụ đông xuân ở một số tỉnh vùng đồng bằng bắc bộ

MỤC LỤC

MỞ ĐẦU .1

Chƣơng 1. TỔNG QUAN .3

1.1. Cơ sở khoa học của dự báo khí hậu mùa .3

1.2. Các nghiên cứu trên thế giới.8

1.3. Các nghiên cứu ở trong nước.13

Chƣơng 2. MÔ HÌNH ARIMA VÀ SỐ LIỆU SỬ DỤNG .21

2.1. Giới thiệu cấu trúc của mô hình ARIMA .21

2.1.1. Mô hình tự hồi quy trung bình trượt ARIMA .22

2.1.2. Mô hình động thái ARIMAX.23

2.2. Phương pháp áp dụng mô hình ARIMA và ARIMAX đối với bài toán dự

báo mưa mùa.24

2.2.1. Xác định tính ổn định ngẫu nhiên của chuỗi thời gian .25

2.2.2. Nhận dạng cấu trúc của mô hình .28

2.2.3. Xác định các tham số của mô hình.32

2.2.4. Kiểm định mô hình .35

2.2.5. Phần mềm thống kê SAS đối với mô hình ARIMA và ARIMAX .36

2.3. Các nguồn số liệu được sử dụng.36

2.3.1. Số liệu quan trắc mưa từ các trạm khí tượng.37

2.3.2. Số liệu về các chỉ số khí hậu .37

2.3.3. Số liệu về số vết đen mặt trời (Sunspot Number) .38

2.3.4. Xử lý số liệu.38

Chƣơng 3. KẾT QUẢ VÀ NHẬN XÉT.41

3.1. Xây dựng mô hình dự báo mưa vụ đông xuân bằng mô hình ARIMA .41

3.1.1. Xác định tính ổn định của chuỗi lượng mưa vụ Đông xuân.41

3.1.2. Nhận dạng mô hình ARIMA .43

3.1.3. Xác định các thông và kiểm định mô hình ARIMA .44

3.2. Xây dựng mô hình dự báo lượng mưa vụ đông xuân bằng mô hình động

thái ARIMAX .46

3.2.1. Xác định tính ổn định của chuỗi nhân tố dự báo .46

81 trang | Chia sẻ: mimhthuy20 | Lượt xem: 884 | Lượt tải: 1

Bạn đang xem trước 20 trang tài liệu Luận văn Nghiên cứu ứng dụng mô hình arima để dự báo lượng mưa vụ đông xuân ở một số tỉnh vùng đồng bằng bắc bộ, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

h trượt bậc q (q = 1, 2,) và được ký hiệu là ARIMA(p,d,q). Dạng tổng quát của mô hình ARIMA(p,d,q) có thể được viết như sau [20]: Wt = µ + p1Wt-l + p2Wt-2 ++ ppWt-p - q1at-1 - q2at-2 -- qqat-q + at (2.1) Trong đó: Wt = Δ d yt d là bậc sai phân, μ là hằng số Với d = 0  Wt = yt ; với d = 1  Δyt = yt - yt-1; yt, yt-l, yt-2, , yt-p là giá trị quan trắc ở các bước thời gian t, t-1, t-2,, t-p at, at-1, at-2, , at-q là sai số ngẫu nghiên (giữa giá trị thực và giá trị tính toán) ở các bước thời gian t, t-1, t-2,, t-q; p1, p2, , pp ; q1, q3, ..., qq là các tham số hồi quy. Phương trình 2.1 cũng có thể viết gọn lại thông qua phép toán dịch chuyển lùi 23 tt a Bp Bq W )( )(   hoặc p(B)(1-B)d yt = μ + q(B)at (2.2) Trong đó: yt, at như đã trình bày ở trên B là phép tính dịch chuyển lùi: BWt = Wt-1 hay B k Wt = Wt-k p(B) = (1 – p1B – p2B 2 – – ppB p) là phép toán tự hồi quy q(B) = (1 – q1B – q2B 2 – – qqB q) là phép toán trung bình trượt 2.1.2. Mô hình động thái ARIMAX Mô hình động thái ARIMAX có sự khác biệt cơ bản so với mô hình tự hồi quy trung bình trượt ARIMA là ngoài việc xem xét quá trình tự hồi quy trung bình trượt của chuỗi yếu tố dự báo, nó còn cho phép xem xét ảnh hưởng của các chuỗi thời gian khác tác động đến yếu tố dự báo, chuỗi tác động (biến độc lập) được gọi là chuỗi nhập, chuỗi bị tác động (biến phụ thuộc) được gọi là chuỗi xuất. Giả sử ta có các chuỗi độc lập Xit (i = 1,2m; t=1,2n) và chuỗi phụ thuộc Yt (t=1,2n), khi đó mô hình động thái ARIMAX được viết dưới dạng tổng quát như sau: tti ki m i r i s i t a Bp Bq XB BS BU Y )( )( )( )( , 1     (2.3) Trong đó:  Yt là giá trị quan trắc ở các bước thời gian t; μ là hằng số;  B là phép toán dịch chuyển lùi theo quy tắc : BXt = Xt-1 , B k Xt = Xt-k ;  s isi1i0 B U B U U)( BU s i ; s isi1i0 BS BS S)( BS s i là những trọng số động thái của chuỗi độc lập thứ i;  k là thời điểm tác động của chuỗi độc lập thứ i tại thời điểm t = k;  p(B) = (1 – p1B – p2B 2 – – ppB p ); q(B) = (1 – q1B – q2B 2 – – qqB q ) là phép toán tự hồi quy và trung bình trượt của chuỗi phụ thuộc; 24  at, là sai số ngẫu nghiên (giữa giá trị thực và giá trị tính toán). Lưu ý : các chuỗi Xit và Yt trong công thức 2.3 phải là các chuỗi có tính ổn định ngẫu nhiên, nếu chuỗi không ổn định, sẽ cần phải thông qua bước sai phân để đưa chuỗi về dạng ổn định ngẫu nhiên. Tóm lại: Bản chất của các mô hình ARIMA và ARIMAX là mô hình ngẫu nhiên. Việc phân tích chuỗi thời gian trong các mô hình này bắt buộc phải chấp nhận một giả thiết hết sức cơ bản là tính ổn định của các quá trình ngẫu nhiên, tính ổn định ở đây có nghĩa là các đặc trưng thống kê (hay phân phối xác suất) không thay đổi theo thời gian. Trong thực tế nhiều quá trình ngẫu nhiên có tính ổn định trong một khoảng thời gian gián đoạn hữu hạn nào đó có thể coi là ổn định. Ví dụ chuỗi tổng lượng mưa tháng là chuỗi không dừng, còn chuỗi tổng lượng mưa năm có thể coi là dừng vì khi đó qui luật bên trong năm bị loại trừ. Các chuỗi không dừng có thể trở thành dừng nhờ một số phép biến đổi sai phân. Lợi thế cơ bản của các mô hình này là cho phép dự báo với độ chính xác nhất định, mặc dù chưa hiểu rõ bản chất của các quá trình tác động từ các nhân tố dự báo đến yếu tố dự báo. 2.2. Phƣơng pháp áp dụng mô hình ARIMA và ARIMAX đối với bài toán dự báo mƣa mùa Trong mục 2.1 đã trình bày các dạng tổng quát của mô hình ARIMA và ARIMAX, nó có thể bao gồm nhiều thành phần tham gia vào mô hình như: thành phần tự hồi quy, thành phần trung bình trượt, thành phần sai phân, thành phần ảnh hưởng của các chuỗi nhập khác (các chuỗi nhân tố dự báo), trong mỗi thành phần lại có các thành phần con khác nhau. Bài toán cần giải quyết ở đây là đưa ra được phương pháp xác định các thành phần có ý nghĩa về mặt thống kê để tham gia vào mô hình dự báo mưa hạn mùa. Đây là bài toán khá phức tạp, độ chính xác của mô hình dự báo không chỉ phụ thuộc vào các chuỗi nhập, chuỗi xuất mà còn phụ thuộc việc lựa chọn chính xác các thành phần tham gia vào mô hình dự báo. Để giải quyết bài toán này luận văn đã thực hiện theo các bước sau: 25 1) Áp dụng phương pháp thống kê sai phân để xác định tính ổn định ngẫu nhiên của các chuỗi dữ liệu tham gia vào mô hình ARIMA và ARIMAX; 2) Kế thừa phương pháp Box Jenkin đối với mô hình ARIMA và phương pháp Box Tao đối với mô hình ARIMAX trong việc nhận dạng các thành phần tự hồi quy, thành phần trung bình trượt và thành phần ảnh hưởng của các chuỗi nhập đến chuỗi lượng mưa thông qua việc xem xét sự biến đổi các hàm tự tương quan, tự tương quan riêng phần và tương quan chéo; 3) Sử dụng phương pháp bình phương tối thiểu trong việc xác định các tham số trong mô hình ARIMA và ARIMAX; 4) Áp dụng các phương pháp kiểm nghiệm giả thiết thống kê trong khí hậu để chọn lựa các tham số có đủ độ tin cậy thống kê tham gia trong mô hình ARIMA và ARIMAX; 5) Sử dụng công cụ phần mềm thống kê SAS để tính toán các đặc trưng của chuỗi thời gian và các tham số trong mô hình ARIMA và ARIMAX. Sau đây sẽ trình bày cụ thể từng nội dung này: 2.2.1. Xác định tính ổn định ngẫu nhiên của chuỗi thời gian Chuỗi thời gian là chuỗi số liệu được sắp xếp theo trình tự thời gian. Nếu một chuỗi thời gian có giá trị trung bình và phương sai không đổi theo thời gian thì chuỗi đó được xem là ổn định ngẫu nhiên (chuỗi có tính dừng) hay nói một cách khác cụ thể hơn đó là một chuỗi thời gian không có xu thế, không có chu kỳ, mà chỉ dao động xung quanh kỳ vọng của nó. Một chuỗi quan trắc khí hậu trung bình tháng thường bao gồm 3 thành phần: 1) thành phần ngẫu nhiên là sự tăng lên hay giảm đi thường xen kẽ nhau, góp phần làm cho các trị số khí hậu dao động xung quanh một giá trị nào đó. Giá trị đó có thể là trung bình số học, nếu chuỗi không có thành phần chu kỳ và xu thế. 2) Thành phần chu kỳ là những biến đổi của chuỗi lặp lại nhiều lần sau những khoảng thời gian nhất định nào đó. Mối tương quan giữa các thành phần trong một chu kỳ thường đạt trị số lớn nhất. 3) Thành phần xu thế là biểu hiện xu hướng tăng hoặc 26 giảm theo thời gian của các thành phần trong chuỗi, trị số đầu của xu thế là cực tiểu hoặc cực đại và trị số cuối của xu thế là cực đại hoặc cực tiểu. Biểu đồ minh họa 3 thành phần này được trình bày trong hình 2.1. Hình 2.1. Các thành phần trong chuỗi quan trắc khí hậu [10] Để loại bỏ thành phần xu thế và chu kỳ nhằm đưa các chuỗi quan trắc về dạng ổn định ngẫu nhiên, thường sử dụng phép lọc sai phân, phép lọc Loga, phép lọc căn thức...[10]. Trong luận văn này chúng tôi chọn phép lọc sai phân, cụ thể như sau: - Đối với việc loại bỏ thành phần xu thế: sử dụng phép biến đổi sai phân bậc 1 hoặc bậc 2. Sai phân bậc 1 là chênh lệch giữa 2 giá trị kề nhau trong chuỗi. ΔYt = Yt - Yt-1 (2.5) Trong đó: ΔYt là giá trị của sai phân bậc 1 Yt và Yt-1 là các thời đoạn trước và thời đoạn sau đó. a) b) c) d) 27 Nếu sai phân bậc 1 vẫn còn thể hiện xu thế thì thực hiện tiếp sai phân bậc 2. Sai phân bậc 2 chính là sai phân của sai phân bậc 1: Δ2(Yt) = ΔYt - ΔYt-1 = (Yt - Yt-1) - (Yt-1 - Yt-2) (2.6) Nếu sai phân bậc 2 chưa đạt được tính dừng ta có thể tiếp tục lấy sai phân bậc 3 hoặc cao hơn. - Đối với việc loại bỏ thành phần mùa và chu kỳ: Sai phân mùa là chênh lệch giá trị của hai quan trắc cách nhau khoảng thời gian L, L có thể là một năm, hai năm hay một mùa Ví dụ : nếu là số liệu tổng lượng mưa tháng, ta có L =12. Do đó sai phân mùa bậc 1 có tính mùa là: ΔYt = Yt - Yt-L = Yt - Yt-12 (2.7) Cũng có thể lấy sai phân bậc 2 của sai phân mùa bậc 1 khi chuỗi chưa đạt được độ ổn định: - Kiểm tra tính ổn định ngẫu nhiên của chuỗi Trong thực hành, để kiểm tra các chuỗi thời gian tham ra trong mô hình ARIMA hoặc ARIMAX đã đạt tiêu chuẩn ổn định ngẫu nhiên hay chưa, thường dựa vào hàm tự tương quan. Theo Quenouille đã chứng minh chuỗi thời gian được xem là ổn định ngẫu nhiên khi hầu hết hệ số tự tương quan của chuỗi (rk ) thỏa mản biểu thức giới hạn tin cậy (2.8) và tiến dần về 0, ngoại trừ một số bước trễ như bước mùa, vụ, chu kỳ , nằm ngoài khoảng này [6, 37]. Biểu thức giới hạn tin cậy có thể viết dưới dạng sau: rnkrn StrSt 1,2/1,2/    (2.8) n Sr 1  (2.9) Trong đó: Sr là sai số chuẩn của các hệ số tự tương quan rk ; 1,2/ nt là điểm phần trăm  =0.05 của phân bố Student với n-1 bậc tự do. Hình 2.2 minh họa chuỗi dữ liệu tổng lượng mưa tháng trước khi sai phân và sau khi sai phân. Trên hình này, phần hình A, A‟ ở phía trên ứng với trường hợp 28 chuỗi chưa ổn định, phần hình B, B‟ ứng với chuỗi sau khi sai phân và được xem là chuỗi ổn định ngẫu nhiên. Hình 2.2. Minh họa diễn biến của chuỗi lượng mưa tháng và hàm tự tương quan đối với trạm Hà Nội trước khí sai phân (A,A‟) và sau khi sai phân (B,B‟). 2.2.2. Nhận dạng cấu trúc của mô hình Sau khi đã loại bỏ được các thành phần chu kỳ, xu thế của chuỗi thời gian, sẽ tiến hành nhận dạng cấu trúc của mô hình. Box - Jenkin đã đưa ra phương pháp nhận dạng cấu trúc của mô hình ARIMA thông qua việc xem xét sự biến đổi của hàm tự tương quan (Autocorrelation function - ACF) và tự tương quan riêng phần (Part autocorrelation function - PAFC) để xác định các thành phần tự hồi quy (AR) và thành phần trung bình trượt (MA). Đối với mô hình ARIMAX, Box Tao đã đưa ra một số dáng điệu chính của hàm tương quan chéo (Cross correlation function - CCF) để xác định mức độ ảnh hưởng (hàm truyền) của các chuỗi nhập đến chuỗi yếu tố dự báo. Định nghĩa và thuật toán để tính các hàm ACF, PACF và CCF được trình bày chi tiết trong tài liệu ARIMA [37]. 29 Xuất phát từ bản chất của hàm ACF và PACF, Box - Jenkin đã đưa ra một số dạng biểu đồ thường gặp đối với hàm ACF và PACF, tương ứng với nó là các dạng của mô hình ARIMA nhằm hỗ trợ cho việc nhận dạng cấu trúc của mô hình, các dạng biểu đồ này được trình bày trong hình 2.3. Chi tiết về cách áp dụng biểu đồ này được trình bày dưới đây:  Nếu biểu đồ hàm ACF có dạng nhỏ dần theo các bước trễ thời gian và biểu đồ hàm PACF chỉ có giá trị khác 0 tại bước thời gian t-1, sau đó giảm đột ngột về 0, (cụm từ „khác 0‟ hay „bằng 0‟ ở đây được hiểu theo thuật ngữ thống kê, nếu các giá trị này nằm trong khoảng từ - 1,2/ nt *Sr đến + 1,2/ nt * Sr được xem là bằng 0, ngoài khoảng này được xem là khác 0 ) thì có một thông số tự hồi qui (p=1) được chọn, mô hình có dạng ARIMA(1,0,0). Ngược lại, khi biểu đồ hàm PACF tắt dần, hàm ACF có giá trị khác 0 bước t-1, sau đó giảm đột ngột về 0, trong trường hợp này mô hình có dạng ARIMA(0,0,1). Dáng điệu của hàm ACF và PACF trong các trường hợp này được minh họa trên hình (Hình 2.3a).  Tương tự như trên, nếu biểu đồ hàm ACF tắt dần, hàm PACF có giá trị khác 0 ở các bước thời gian t-1, t-2, sau đó giảm đột ngột về 0 thì mô hình có hai thông số tự hồi qui (p=2), mô hình có dạng ARIMA(2,0,0). Ngược lại, nếu hàm PACF có dạng tắt dần, hàm ACF có giá trị khác 0 ở các bước thời gian t-1, t-2, sau đó giảm đột ngột về 0 thì mô hình có hai thông số trung bình trượt (q=2), mô hình có dạng ARIMA(0,0,2). Đồ thị của hạn ACF và PACF trong các trường hợp này được minh họa trên hình (Hình 2.3b).  Khi biểu đồ hàm ACF có dạng tắt dần và có giá trị khác 0 ở các bước thời gian t-1, t-2t-p, tương tự hàm hàm PACF có dạng tắt dần và có giá trị khác 0 ở các bước thời gian t-1, t-2t-q, trong trường hợp này cả 2 thành phần AR và MA đều có trong mô hình, dạng của mô hình trong trường hợp này sẽ là ARIMA(p,0,q). Đồ thị của hạn ACF và PACF trong các trường hợp này được minh họa trên hình (Hình 2.3c). 30 (2.3a) (2.3b) (2.3c) Hình 2.3 Một số dạng chính của hàm ACF và PACF tưng ứng với các dạng mô hình ARIMA khác nhau [20] Đối với việc xác định ảnh hưởng của từng chuỗi nhập đến yếu tố dự báo trong mô hình ARIMAX, Box Tao cũng sử dụng phương pháp trực quan để xem xét sự biến đổi của hàm tương quan chéo (Cross correlation function - CCF), từ đó đưa 31 ra hàm truyền tương ứng của chuỗi nhập X tham gia trong mô hình ARIMAX. Nội dung của phương pháp có thể bao gồm 4 dạng chính sau: Hình 2.4. Một số dạng chính của hàm tương quan chéo giữa biến nhập (X) và biến phụ thuộc (Y) tưng ứng với các dạng mô hình ARIMA khác nhau [20] 1) Nếu hàm tương quan chéo (CCF) giữa biến độc lập X và biến phụ thuộc Y có giá trị „khác 0‟ tại bước thời gian (t-b), sau đó giảm đột ngột, các bước (2.4A) (2.4B) (2.4C) (2.4D) 32 thời gian khác đều có giá trị „bằng 0‟. Khi đó hàm truyền của biến X tham gia vào mô hình ARIMAX sẽ có dạng U0Xt-b, (hình 2.4A). 2) Nếu hàm CCF có giá trị „khác 0‟ tại bước thời gian (t-b) và (t-b-1), sau đó giảm đột ngột, các bước thời gian khác đều có giá trị „bằng 0‟. Khi đó hàm truyền của biến X tham gia vào mô hình ARIMAX sẽ có dạng (U0 + U1B)Xt-b, (hình 2.4B). 3) Nếu hàm CCF có giá trị „khác 0‟ tại bước thời gian (t-b), sau đó có xu thế giảm dần nhưng vẫn „khác 0‟ ở bước (t-b-1), còn các bước thời gian khác có giá trị „bằng 0‟. Khi đó hàm truyền của biến X tham gia vào mô hình ARIMAX sẽ có dạng sau : (hình 2.4C). 4) Nếu hàm CCF có giá trị „khác 0‟ và tại bước thời gian (t-b-1) và (t-b), đạt cao nhất tại (t-b-1), sau đó có xu thế giảm dần nhưng vẫn „khác 0‟ ở bước (t-b-2), còn các bước thời gian khác có giá trị „bằng 0‟. Khi đó hàm truyền của biến X tham gia vào mô hình ARIMAX sẽ có dạng sau : (hình 2.4D). 2.2.3. Xác định các tham số của mô hình Như đã trình bày ở trên (mục 2.2.2), tùy thuộc vào đặc tính và mối quan hệ của các chuỗi nhập và chuỗi xuất, mô hình ARIMA và mô hình ARIMAX có thể có một trong các dạng chính sau: Khi chỉ có thành phần AR(p), mô hình sẽ có dạng: yt = p1yt-l +p2yt-2 + +ppyt-p + at (2.10) Khi chỉ có thành phần MA(q), mô hình sẽ có dạng: yt = µ + q1at-1 + q2at-2 ++ qqat-q + at (2.11) Khi có đủ cả 2 thành phần AR và MA, mô hình sẽ có dạng: yt = µ - p1yt-l - p2yt-2 -- ppyt-p + q1at-1 + q2at-2 ++ qqat-q + at (2.12) btX BS BUU    1 10 1 btX BS U   1 0 1 33 Khi có đủ tất cả các thành phần AR, MA và thành phần động thái X1, X2,, Xm mô hình ARIMAX có thể có dạng: yt = µ - p1yt-l - p2yt-2 -- ppyt-p + q1at-1 + q2at-2 ++ qqat-q + (Ui1B+ Ui2B 2 ++ UihB h )Xit-b + at; (2.13) trong đó: (i = 1,2,,m; h = 1,2,3,). Việc xác định các tham số hồi quy trong các mô hình này được dựa theo nguyên tắc bình phương tối thiểu, trong đó các hệ số hồi quy được xác định sao cho tổng bình phương độ lệch giữa giá trị thực và giá trị mô phỏng là nhỏ nhất. Chi tiết về phương pháp này được trình bày trong sách giáo trình [10]. Tuy về nguyên tắc việc xác định các tham số trong mỗi thành phần của từng mô hình là giống nhau, nhưng về cách tính cụ thể có nhiều cách xử lý riêng. Do vậy ở đây sẽ trình bày tóm tắt cho một số dạng chính sau. 1) Xác định các thông số pi khi chỉ có thành phần AR(p) tham ra vào mô hình Đây là dạng hàm tương tự như hồi quy tuyến tính nhiều biến, Tuy nhiên các hệ số pi phải thỏa mản tiêu chuẩn hội tụ |p1 + pi ++ pi|<1 và được xác giải thông qua hệ phương trình Yule_Walker [6] Ck = p1Ck-l + p2Ck-2 + + ppCk-p; với k =1, 2,,p (2.14) Ck là các mô men tương quan (Covarian - hiệp phương sai) giữa biến phụ thuộc (yt) và các biến độc lập (yk-p). Ck-l , Ck-2 , Ck-p là các mô men tương quan giữa các biến độc lập với nhau. Đây là hệ p phương trình với các ẩn số là p1, p2 ,,pp và có thể giải được theo nhiều phương pháp khác nhau như: dùng phương pháp ma trận nghịch đảo, phương pháp khử Gauss, phương pháp Cramer 2) Xác định các thông số qi khi chỉ có thành phần MA(q) tham ra vào mô hình Các thông số qi thoả mãn một hệ phương trình tương tự như hệ Yule_Walker, được suy ra từ quan hệ: 22 2 2 1 11 0 k ...1 ... q qkpkk k qqq qqqqq r       (2.15) Trong đó : rk là hệ số tự tương quan của chuỗi yt, 34 γk và γ0 là các mô men tương quan bậc k và bậc 0 (k=0) của chuỗi Cho k = 1,2,...,q ta được một hệ phương trình phi tuyến. Phương pháp để giải hệ phương trình này được trình bày trong sách giáo trình [6,10]. 3) Xác định các thông số pi, qi khi cả 2 thành phần AR(p) và MA(q) tham ra vào mô hình - Đối với thành phần AR(p): để giải quyết độc lập các giá trị pi theo công thức truy hồi Durbin hay hệ phương trình Yule_Walker thì hệ thức (2.15) được viết bắt đầu từ k > q tức là khi ấy các bi = 0. Do đó ta có hệ : Cp+1 = p1Cp + p2Cp-2 + + ppCp+1-p Cp+2 = p1Cp+1 + p2Cp+ + + ppCp+2-p Cp+p = p1Cp+p-1 + p2Cp+p-2 + + ppCp (2.16) Hệ phương trình (2.26) cũng là hệ tuyến tính bậc nhất, do vậy có thể giải ra tìm các nghiệm p1, p2,, pp. - Đối với thành phần MA(q): để tìm các hệ số qi ta cũng xuất phát từ quan hệ (2.15), nhưng khác với mô hình MA(q), ở đây γk và γ0 (hay Ck và C0) không phải là của yt mà là của thành phần ngẫu nhiên at. Nghĩa là γk=γka, Ck=Cka. Quan hệ giữa γka và γky hay Cka và Cky có dạng [6]:     ip h kih p i ky p i ika daaCaC 010 2 (2.17) Với dk = Ck+i +Ck-i Cky chính là mô men tương quan bậc k của y và có thể tính theo công thưc: Cky = [(yt – ytb)(yt+k – ytb)] ; t = 1,2,...,n ; k = 1,2,,m ; (m < n) Sau khi có Cky, sẽ tính được Cka theo (2.17), thay vào (2.15) được một hệ phương trình, giải hệ này ta được các hệ số qi. 4) Xác định các thông số động thái Ui,t-b đối với các biến nhập Xi,t-b và các thông số pi, qi trong mô hình động thái ARIMAX 35 Đối với các thông số Ui,t-b tương ứng với các biến nhập Xi,t-b được xác định tương tự như mô hình hồi quy tuyến tính nhiều biến. Trong đó, biến phụ thuộc là chuỗi Yt, biến độc lập là các chuỗi Xi,t-b (i = 1,2m là ký hiệu biến nhập, t-b là độ chễ thời gian so với biến phụ thuộc). Phương pháp xác định các tham số hồi quy tuyến tính nhiều biến (Ui,t-b) được trình bày trong giáo trình [10]. Đối với việc xác định các thông số pi, qi trong mô hình động thái ARIMAX được xác định tương tự như trong mô hình ARIMA, tuy nhiên chuỗi tham gia vào mô hình ARIMA trong trường hợp này là phần sai số của mô hình hồi quy tuyến tính giữa Yt, biến độc lập Xi,t-b. 2.2.4. Kiểm định mô hình Việc kiểm định để đánh giá sự phù hợp của mô hình là vô cùng quan trọng, một mô hình được xem là phù hợp khi và chỉ khi thỏa mản các tiêu chuẩn như sau: 1) các giá trị sai số của mô hình phải độc lập nhau; 2) giá trị của mỗi thông số cần phải đủ lớn để mô hình có ý nghĩa thống kê; 3) các thông số của mô hình phải độc lập nhau. Dưới đây sẽ đi vào từng vấn đề cụ thể: 1) Kiểm tra tính độc lập của chuỗi sai số Việc kiểm tra tính độc lập của chuỗi sai số chính là xem xét hàm tự tương quan của các sai số đó. Nếu sai số có tính độc lập thì giữa chúng không có tương quan, hay nói cách khác các hệ số tương quan giữa chúng phải thỏa mản biểu thức giới hạn tin cậy (công thức 2.8 mục 2.2.1). Nếu không đạt tiêu chuẩn này thì giữa chúng có mối quan hệ với nhau, như vậy mô hình được chọn chưa phù hợp với các chuỗi số liệu được xem xét. Khi đó cần dựa vào hàm ACF và PACF của chuỗi sai số để điều chỉnh lại dạng của mô hình. 2) Kiểm định độ lớn của các thông số Thực chất các mô hình trong luận văn này là sử dụng phương pháp thống kê, vì vậy các thông số được xác định trong mô hình đều phải kiểm định ý nghĩa thống kê. Theo lý thuyết thống kê, việc kiểm định độ lớn các thông số trong mô hình thường sử dụng công thức sau [6]: ni i ni s n t  (2.18) 36 Trong đó:tni là chỉ tiêu kiểm định độ lớn của thông số thứ i, ni là giá trị của thông số thứ i, sni là độ lệch chuẩn của thông số thứ i. - Nếu tni   tα/2,n-1, (với = 0.05), thông số đó sẽ được giữ lại; - Nếu tni  < tα/2,n-1, thông số đó sẽ bị loại bỏ và quá trình tính toán để xác định giá trị của thông số sẽ được thực hiện lại theo các thông số được giữ lại. 3) Kiểm định tính độc lập giữa các thông số Quá trình phân tích trong bước kiểm định độ lớn của các thông số, đã loại đi nhiều trường hợp. Tuy nhiên, vẫn có thể có một số thông số có sự tương quan mật thiết với nhau. Để xem xét tính độc lập giữa các thông số, sẽ xem xét ma trận tương quan của các thông số. Theo [6], nếu giữa các thông số có tương quan cao (r>0,8- 0,9) thì sẽ loại bỏ một trong 2 thông số tạo nên hệ số tương quan lớn này và một mô hình có số thông số ít hơn sẽ được chọn. 2.2.5. Phần mềm thống kê SAS đối với mô hình ARIMA và ARIMAX Việc tính toán đối với mô hình ARIMA và ARIMAX là bài toán khá phức tạp, các bước kiểm nghiệm lặp lại nhiều lần. Để hỗ trợ trong quá trình tính toán đảm bảo độ chính xác, nhiều phần mềm thống kê như: STATISTICA, NCSS, SYSTAT, SASđều có chức năng tính toán các thông số trong mô hình ARIMA và ARIMAX. Trong luận văn này đã sử dụng phần mềm thống kê SAS trong việc tính toán các đặc trưng thống kê trong mô hình. SAS (Statistical Analysis System) là hệ thống phần mềm thống kê do viện nghiên cứu phần mềm thống kê của Mỹ xây dựng và đã được ở rất nhiều quốc gia trên thế giới sử dụng. Trong phần mềm SAS có đầy đủ các chức năng thống kê như lưu trữ, quản lý, kiểm tra, phân tích dử liệu. Đối với mô hình ARIMA và ARIMAX trong phần mềm SAS bao gồm một hệ thống các câu lệnh được thực hiện trên mã nguồn mở nhằm tính toán các tham số trong mô hình. Chi tiết về cách sử dụng phần mềm này được trình bày trong [37,5]. 2.3. Các nguồn số liệu đƣợc sử dụng Trên cơ sở các mục tiêu và nội dung nghiên cứu luận văn, đã sử dụng các loại số liệu sau: 1) Số liệu quan trắc lượng mưa tại 9 trạm đại diện cho khu vực 37 đồng bằng Bắc Bộ; 2) số liệu về các chỉ số khí hậu; 3) Số liệu vết đen Mặt Trời. Trong đó, chuỗi số liệu từ năm 1951 đến 2008 để phát triển mô hình, từ năm 2009 đến 2013 để kiểm chứng mô hình. Chi tiết về các nguồn số liệu và cách xử lý đối với từng loại số liệu sẽ được trình bày dưới đây: 2.3.1. Số liệu quan trắc mưa từ các trạm khí tượng Bộ số liệu tổng lượng mưa tháng được thu thập tại Trung tâm Tư liệu Khí tượng Thủy văn, hầu hết chuỗi dữ liệu được thu thập từ năm 1961 -2013, (riêng trạm Hà Nội, từ năm 1951 -2013). Nhìn chung, nguồn số liệu này có độ tin cậy cao do đã được kiểm tra, kiểm soát. Bộ số liệu này không chỉ có vai trò làm nhân tố dự báo mà còn được sử dụng làm yếu tố dự báo trong mô hình ARIMA và ARIMAX. 2.3.2. Số liệu về các chỉ số khí hậu Bộ số liệu các chỉ số khí hậu tham gia làm nhân tố dự báo bao gồm: chỉ số dao đông nam (Southern Oscillation Index, SOI), dị thường nhiệt độ mặt nước biển (ASST) trên các vùng NINO1.2, NINO3, NINO4, NINO3.4, vị trí của nhóm nhân tố này được trình bày trên hình 2.5. Các nhân tố này phản ánh khá đầy đủ hoạt động của hiện tượng ENSO trên khu vực xích đạo Thái Bình Dương. Nước ta nằm trong khu vực chịu ảnh hưởng của hiện tượng này, do vậy diễn biến của 5 đặc trương khí tượng hải dương này sẽ có quan hệ với diễn biến của lượng mưa trên các vùng lãnh thổ nước ta. Bộ số liệu này có từ năm 1951 đến nay được cập nhật thường xuyên qua mạng Internet thông qua website: edoc. Hình 2.5 [2] Vị trí nhóm nhân tố ENSO Tahiti Darwin SOI 38 Trong các chỉ số khí hậu thì nhóm nhân tố ENSO có quan hệ rất chặt chẽ với nhau và gần như chúng có chung chu kỳ (hình2.6), do vậy, tại một bước trễ thời gian, các nhân tố dự báo có thể chỉ có từ một đến 2 nhân tố thỏa mãn ý nghĩa thống kê tham gia vào mô hình dự báo. Hình 2.6. [9] Mật độ phổ của chỉ số SOI và nhiệt độ bề mặt nước biển ở các vùng Nino. 2.3.3. Số liệu về số vết đen mặt trời (Sunspot Number) Theo nhiều nghiên cứu [40] vết đen mặt trời có ảnh hưởng đến nhiều hiện tượng vật lý khí quyển, trong đó ảnh hưởng rõ rệt nhất đến lượng mưa, hạn hán và lũ lụt theo các chu kỳ và các thời gian khác nhau, số vết đen mặt trời trong một năm nào đó thường ảnh hưởng đến lượng mưa ở nhiều năm sau đó. Với ý nghĩa quan trọng như vậy, luận văn đã sử dụng số liệu này như là một trong những nhân tố dự báo lượng mưa. Nguồn số liệu vết đen mặt trời được công bố bởi Trung tâm phân tích ảnh hưởng mặt trời (Solar Influences Data analysis Center), thuộc đài quan sát hoàng gia của Bỉ,. Đây là bộ số liệu được quan trắc hàng ngày từ năm 1818 đến nay và được cập nhật thường xuyên trên trang webside: data/dailyssn.php. 2.3.4. Xử lý số liệu Trên cơ sở các nguồn số liệu được thu thập trong thời kỳ từ 1951 đến 2012, tiến hành xử lý, tính toán theo các bước sau: 39 Bước 1: Tính toán bộ số liệu về tổng lượng mưa vụ đông xuân (từ tháng 10 năm trước đến tháng 1 năm sau) đối với 9 trạm khí tượng đại diện cho khu vực đồng bằng Bắc Bộ. Đối với bộ số liệu nhân tố dự báo, nhóm các nhân tố ENSO là các đặc trưng theo tháng ở dạng chuẩn sai nên được dữ nguyên, số liệu về số vết đen Mặt trời được tính trung bình theo tháng. Bước 2: Chuẩn hóa tập nhân tố dự báo Do các nhân tố dự báo không có cùng thứ nguyên, ngoại tr

Các file đính kèm theo tài liệu này:

luanvanthacsi_chuaphanloai_301_6075_1870186.pdf