Luận văn Xây dựng ứng dụng phân tích dự báo doanh thu doanh nghiệp golf

LỜI CAM ĐOAN . i

LỜI CẢM ƠN . ii

DANH MỤC CÁC BẢNG. iii

DANH MỤC CÁC HÌNH MINH HỌA . iv

MỤC LỤC.v

CHƯƠNG 1 - TỔNG QUAN .1

CHƯƠNG 2 - MỘT SỐ PHƯƠNG PHÁP PHÂN TÍCH VÀ DỰ BÁO TÀI CHÍNH

.6

2.1 Các phương pháp phân tích và dự báo .6

2.1.1 Dự báo ngắn hạn.6

2.1.2 Dự báo dài hạn.8

2.2 Các phương pháp dự báo theo chuỗi thời gian.9

2.2.1 Mức độ trung bình theo thời gian.9

2.2.1.1 Đối với dãy số thời kỳ .9

2.2.1.2 Đối với dãy số thời điểm .9

2.2.2 Các phương pháp biểu hiện xu hướng phát triển .9

2.2.2.1 Phương pháp số trung bình trượt.9

2.2.2.2 Phương pháp hồi quy.10

2.2.3 Phương pháp ARIMA .11

2.2.3.1 Mô hình AR(P) (Auto Regression) .11

2.3.3.2 Mô hình MA(q) (Moving Average) .11

2.3.3.3 Mô hình ARMA(p,q).12

2.3.3.4 Mô hình ARMA mở rộng.12

2.2.4 Dự báo chuỗi thời gian sử dụng mạng nơ ron.13

pdf63 trang | Chia sẻ: honganh20 | Ngày: 04/03/2022 | Lượt xem: 434 | Lượt tải: 3download
Bạn đang xem trước 20 trang tài liệu Luận văn Xây dựng ứng dụng phân tích dự báo doanh thu doanh nghiệp golf, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
kinh tế văn hoá xã hội ở tầm vi mô và vĩ mô. Dự báo ngắn hạn: Là những dự báo có thời gian dự báo dưới 3 năm, loại dự báo này thường dùng để dự báo hoặc lập các kế hoạch kinh tế, văn hoá, xã hội chủ yếu ở tầm vi mô và vĩ mô trong khoảng thời gian ngắn nhằm phục vụ cho công tác chỉ đạo kịp thời. 2.1.1 Dự báo ngắn hạn Dự báo ngắn hạn ước lượng trong thời gian ngắn, có thể dự báo theo tuần hoặc theo quý. Dự báo ngắn hạn giúp các người điều hành quản lý doanh nghiệp đưa ra những thông tin để đưa ra quyết định. * Phương pháp bình quân di động có quyền số. Trong phương pháp bình quân di động được đề cập ở phần trên, chúng ta xem vai trò của các số liệu trong quá khứ là như nhau. Trong một vài trường hợp, các số liệu này có ảnh hưởng khác nhau trên kết quả dự báo, vì thế, người ta thích sử dụng quyền số không đồng đều cho các số liệu quá khứ. Quyền số hay trọng số là các con số được gán cho các số liệu quá khứ để chỉ mức độ quan trọng của chúng ảnh hưởng đến kết quả dự báo. Quyền số lớn được gán cho số liệu gần với kỳ dự báo nhất để ám chỉ ảnh hưởng của nó là lớn nhất.Việc chọn các quyền số phụ thuộc vào kinh nghiệm và sự nhạy cảm của người dự báo. 7 Để dự báo thời kỳ thứ t với t là biến thời gian, ta ký hiệu là Ft Số liệu thực tế thời kỳ trước (i=1,2, ..., n) thu thập được ký hiệu là At−i Quyền số tương ứng ở thời kỳ I, ký hiệu là ki. Được xác định bởi công thức sau: 𝐹𝑡 = ∑ At−iki n i=1 ∑ ki n i=1 * Phương pháp điều hòa mũ. Điều hòa mũ đưa ra các dự báo cho giai đoạn trước và thêm vào đó một lượng điều chỉnh để có được lượng dự báo cho giai đoạn kế tiếp. Sự điều chỉnh này là một tỷ lệ nào đó của sai số dự báo ở giai đoạn trước và được tính bằng cách nhân số dự báo của giai đoạn trước với hệ số nằm giữa 0 và 1 gọi là α số này gọi là hệ số điều hòa . Ta gọi Ft là dự báo cho giai đoạn thứ t, giai đoạn kế tiếp; Ft−1dự báo cho giai đoạn thứ t-1, giai đoạn trước; At−1 là số liệu thực tế của giai đoạn thứ t-1. Công thức viết như sau: Ft = Ft−1 + α (At−1 - Ft−1) * Phương pháp điều hòa mũ theo xu hướng Chúng ta thường xem xét kế hoạch ngắn hạn, thì mùa vụ và xu hướng là nhân tố không quan trọng. Khi chúng ta chuyển từ dự báo ngắn hạn sang dự báo trung hạn thì mùa vụ và xu hướng trở nên quan trọng hơn. Kết hợp nhân tố xu hướng vào dự báo điều hòa mũ được gọi là điều hòa mũ theo xu hướng hay điều hòa đôi.Vì ước lượng cho số trung bình và ước lượng cho xu hướng cho số trung bình và hệ số điều hòa  được điều hòa cả hai. Hệ số điều hòa cho xu hướng, được sử dụng trong mô hình này . Ta gọi Ft là giá trị dự báo theo xu hướng trong giai đoạn t , St là giá trị dự báo được điều hòa trong giai đoạn t, Tt gọi ước lượng trong giai đoạn t, At là số liệu thực tế trong gian đoạn t, t là thời gian trong gian đoạn t, t -1là thời gian nằm trong gian đoạn trước t, hệ số điều hòa trung bình có giá trị từ 0≤  ≤1, hệ số điều hòa theo xu hướng có giá trị từ 0≤ ß ≤1. Ta có thể viết như sau: Ft = St−1 + Tt−1 (At - Ft) α. 8 2.1.2 Dự báo dài hạn Dự báo dài hạn là ước lượng tương lai trong thời gian dài, thường hơn một năm. Dự báo dài hạn rất cần thiết trong quản trị sản xuất để trợ giúp các quyết định chiến lược về hoạch định sản phẩm, quy trình công nghệ và các phương tiện sản xuất. * Phương pháp hồi qui tuyến tính. Phân tích hồi qui tuyến tính là một mô hình dự báo thiết lập mối quan hệ giữa biến phụ thuộc với hai hay nhiều biến độc lập. Trong phần này, chúng ta chỉ xét đến một biến độc lập duy nhất. Nếu số liệu là một chuỗi theo thời gian thì biến độc lập là giai đoạn thời gian và biến phụ thuộc thông thường là doanh số bán ra hay bất kỳ chỉ tiêu nào khác mà ta muốn dự báo. Ta có: y - Biến phụ thuộc cần dự báo. x - Biến độc lập a - Độ dốc của đường xu hướng b - Tung độ gốc n - Số lượng quan sát Mô hình này có công thức:Y = ax + b, với a = 𝑛 ∑𝑥𝑦 − ∑ 𝑥 ∑𝑦 𝑛∑𝑥2 − ( ∑𝑥)2 và b = ∑𝑥2(∑𝑦 − ∑𝑥∑𝑥𝑦 𝑛∑𝑥2 − (∑𝑥) 2 * Tính chất mùa vụ trong dự báo chuỗi thời gian. Loại mùa vụ thông thường là sự lên xuống xảy ra trong vòng một năm và có xu hướng lặp lại hàng năm. Những vụ mùa này xảy ra có thể do điều kiện thời tiết, địa lý hoặc do tập quán của người tiêu dùng khác nhau... Cách thức xây dựng dự báo với phân tích hồi qui tuyến tính khi vụ mùa hiện diện trong chuỗi số theo thời gian. Ta thực hiện các bước: ✓ Chọn lựa chuỗi số liệu quá khứ đại diện. ✓ Xây dựng chỉ số mùa vụ cho từng giai đoạn thời gian. Với i Y - Số bình quân của các thời kỳ cùng tên 0 Y - Số bình quân chung của tất cả các thời kỳ trong dãy số. Ii - Chỉ số mùa vụ kỳ thứ i. 9 ✓ Sử dụng các chỉ số mùa vụ để hóa giải tính chất mùa vụ của số liệu. ✓ Phân tích hồi qui tuyến tính dựa trên số liệu đã phi mùa vụ. ✓ Sử dụng phương trình hồi qui để dự báo cho tương lai. ✓ Sử dụng chỉ số mùa vụ để tái ứng dụng tính chất mùa vụ cho dự báo. 2.2 Các phương pháp dự báo theo chuỗi thời gian 2.2.1 Mức độ trung bình theo thời gian 2.2.1.1 Đối với dãy số thời kỳ Muốn tính mức độ bình quân: ta cộng các mức độ trong dãy số rồi chia cho số các mức độ với Yi (i = 1,, n) là các mức độ của dãy số thời kỳ, n là số mức độ của dãy số, ta có: �̅� = 𝑦1 + 𝑦2 + 𝑦3+⋯+𝑦𝑛 𝑛 = ∑ 𝑦𝑖 𝑛 𝑖=1 𝑛 2.2.1.2 Đối với dãy số thời điểm Dãy số có khoảng cách thời gian bằng nhau: mức độ trung bình được tính theo công thức sau: �̅� = 𝑦1/2 + 𝑦2 + 𝑦3+⋯+𝑦𝑛−1+𝑦𝑛/2 𝑛−1 Trong đó: yi (i=1,2, . . ., n) là các mức độ của dãy số thời điểm, nsố mức độ của dãy số Dãy số thời điểm có khoảng cách thời gian không bằng nhau, mức độ trung bình được tính theo công thức: �̅� = 𝑦1𝑡1 + 𝑦2 𝑡2+ 𝑦3𝑡3+⋯+𝑦𝑛𝑡𝑛 𝑡1+ 𝑡2+ 𝑡3+⋯+ 𝑡𝑛 = ∑ 𝑦𝑖 𝑡𝑖 𝑛 𝑖=1 ∑ 𝑡𝑖 𝑛 𝑖=1 , với yi là mức độ của dãy số thời điểm, ti (i=1, 2, . . . , n): độ dài của các khoảng cách thời gian. 2.2.2 Các phương pháp biểu hiện xu hướng phát triển 2.2.2.1 Phương pháp số trung bình trượt Số trung bình trượt (còn gọi là số trung bình di động) là số trung bình cộng của 1 nhóm nhất định các mức độ của dãy số được tính bằng cách lần lượt loại dần các mức độ đầu, đồng thời, thêm vào các mức độ tiếp theo, sao cho tổng số lượng các mức độ tham gia tính số trung bình không thay đổi. Giả sử có dãy thời gian y1, y2, y3, . . . yn-1, yn Nếu tính trung bình trượt cho nhóm 3 mức độ, ta sẽ có: 10 �̅�2 = 𝑦1 + 𝑦2 + 𝑦3 3 �̅�3 = 𝑦2 + 𝑦3 +𝑦4 3 �̅�𝑛−1 = 𝑦𝑛−2 + 𝑦𝑛−1 + 𝑦𝑛 3 2.2.2.2 Phương pháp hồi quy Trên cơ sở dãy số thời gian, người ta tìm một hàm số (gọi là phương trình hồi quy) phản ánh sự biến động của hiện tượng qua thời gian có dạng tổng quát như sau: Trong đó: a0, a1, . . . , an các tham số. t: thứ tự thời gian. Để lựa chọn đúng đắn dạng của phương trình hồi quy đòi hỏi phải dựa vào sự phân tích đặc điểm biến động của hiện tượng qua thời gian, đồng thời kết hợp với một số phương pháp đơn giản khác (như dựa vào đồ thị, dựa vào độ tăng (giảm) tuyệt đối, dựa vào tốc độ phát triển,. . .) Các tham số ai (i= 1,2,3, . . ., n) thường được xác định bằng phương pháp bình phương nhỏ nhất. Tức là: ∑(𝑦𝐿𝑇−𝑦𝑇𝑇 ) 2 = min Sau đây là 1 số dạng phương trình hồi quy đơn giản thường được sử dụng: Phương trình đường thẳng: y = a0 + a1t Phương trình đường thẳng được sử dụng khí các lượng tăng (hoặc giảm) tuyệt đối liên hoàn (còn gọi là sai phân bậc 1) xấp sỉ nhau. Để xác định a0 và a1: ta áp dụng phương pháp bình phương nhỏ nhất. Từ đó a0 và a1 được xác định bởi hệ phương trình sau: { ∑𝑦 n i=1 = 𝑛a0 + a1∑𝑦 n i=1 ∑yt n i=1 = a0∑𝑡 n i=1 + a1∑t 2 n i=1 (∗) 11 2.2.3 Phương pháp ARIMA 2.2.3.1 Mô hình AR(P) (Auto Regression) Trong một quá trình tự hồi quy bậc p, số liệu quan trắc tại thời điểm hiện tại yt được tạo ra bởi một tổng trung bình có trọng số của các giá trị quan trắc trong quá khứ tính cho đến giá trị quan trắc quá khứ thứ p Công thức định nghĩa như sau: AR (1): yt = q1 * yt + et AR (2): yt = q1 * y(t−1) + q2 * y(t−2) + et . AR(P): yt = q1 * y(t−1) + q2 * y(t−2) ++ qp * y(t−p) + et Trong đó q1; q2; ; qp là các thông số cần phải xác định. et là một nhiễu trắng ngẫu nhiên có dạng Gaussien. Chúng ta cũng có thể thêm vào quá trình này một hằng số mà nó vẫn không ảnh hưởng đến những tính chất ngẫu nhiên của chuỗi. Phương trình trên có thể viết dưới dạng đơn giản hơn nhờ vào định nghĩa toán tử lệch pha D như sau: et = (1- q1 * D - q2 * D2 - - qp * Dp ) * yt 2.3.3.2 Mô hình MA(q) (Moving Average) Trong một quá trình trung bình động bậc q, số liệu quan trắc tại thời điểm hiện tại yt được tính bởi tổng trung bình có trọng số giá trị của các nhiễu ngẫu nhiên cho đến nhiễu thứ q. Công thức định nghĩa như sau: MA (1): yt = et - a1* e(t−1) MA (2): yt = et - a1* e(t−1) - a2* e(t−2) ------------------------------------------------------------------------------------------------------- MA(q): yt = et - a1* e(t−1) - a2* e(t−2) - ..- aq* e(t−q) Trong đó a1, a3, ap là các thông số cần phải xác định et là một nhiễu trắng ngẫu nhiên có dạng Gaussien. Phương trình trên có thể viết dưới dạng đơn giản hơn nhờ vào định nghĩa một toán tử lệch pha D như sau: yt = (l -a1D- a2D2 -...- apDp) et Trong quá trình dạng nây cũng như tất cả các mô hình tự hồi quy các nhiễu ngẫu nhiên được giả thiết là được tạo ra bởi một > Chúng ta có thể 12 hiểu quá trình trung bình động là một chuỗi thời gian dao động ngẫu nhiên chung quanh giá trị trung bình của chúng. 2.3.3.3 Mô hình ARMA(p,q) Mô hình ARMA(p,q) là một quá trình được tạo ra bởi từ tổ hợp giữa các giá trị của chuỗi trong quá khứ và các giá trị của nhiễu trong quá khứ. Được xác định bởi phương trình sau đây: (1- 𝜃1 * D1 – 𝜃2 * D2 - - 𝜃p * Dp) * 𝑦t * 𝐸t = (1- 𝛼1* D1 – 𝛼2* D2 -- 𝛼q*Dq)∗ 𝐸t Ta có thể nói đây là một mô hình có được từ sự tổng hợp của 2 loại mô hình AR và MA. Tính chất: ARMA (1,0) = AR (1); ARMA (0,1) = MA (1) Ta chú ý trong trường hợp này, biểu đồ tương quan đơn và biểu đồ tương quan riêng phần sẽ phức tạp hơn so với 2 trường hợp trên 2.3.3.4 Mô hình ARMA mở rộng Trong trường hợp chuỗi quan trắc có xu thế không ổn định (có xu thế tăng hoặc giảm theo thời gian), ta định nghĩa một mô hình có dạng ARMA(p,d,q) với d là bậc của đường xu thế. Nói một cách khác đi, d biểu thị cho số lần lấy > cần thiết lên chuỗi quan trắc để ta có thể nhận được một chuỗi nghiên cứu có tính ổn định theo xu thế. Ví dụ trong trường hợp chuỗi có xu thế tuyến tính ta có d=l; trong trường hợp đường xu thế là một hàm bậc 2 ta có d =2. Thật vậy giả sừ chuỗi có một xu thế tuyến tính biểu thị bởi phương trình sau đây: y =a+bt Định nghĩa sai biệt bậc 1 Dyt ta có: Dyt = yt-yt-1 =(a+bt) -(a+b[t—1]) = b=cte Ta thấy chuỗi sai biệt bậc 1 có xu thế ổn định. Trong trường hợp có xu thế bậc 2 phương trình có dạng: yt =a+bt+ct2 Tính sai biệt bậc 1 ta có: Dyt =yt - yt-1 = (a+bt+ct2) -(a+b[t-l] +c*[t-1]2) = b-c+2tc Ta thấy chuỗi Dyt có xu thế bậc 1. Để có xu thế ổn định ta chỉ cần tính thêm một lần nữa cho sự khác biệt như trường hợp ta đã có trong trường hợp xu thế là tuyến tính ở trên. 13 Ta có hai lần lấy sai biệt cho trường hợp bậc 2 này để chuỗi quan xác trở nên ổn định về xu thế. Tóm lại ta có thể viết chuỗi (l -D)d * yt là một ARMA(p,q) khi yt là một ARIMA(p,d,q); với D được định nghĩa là toán tử sai biệt: D(yt) = yt- y(t-l) , [7] Mô hình SARIMA cho phép giải quyết vấn đề sai biệt liên quan đến biến đổi mùa. Sự biến đổi được định nghĩa như sau: (1 - Ds) * yt = yt – y(t-s), với s biểu thị tính chu kỳ của số liệu (s = 4 cho một chuỗi biến đổi theo quý, s =12 cho chuỗi biến đổi theo tháng). 2.2.4 Dự báo chuỗi thời gian sử dụng mạng nơ ron Giả sử ta có chuỗi thời gian {x[t]), x [t-1], } tính đến thời điểm t, nhiệm vụ của chúng ta là dự báo giá trị của x tại một thời điểm trong tương lai. xdb[t+s] =f(x[t], x[t−1], ···) s: khoảng dự đoán (horizon of prediction) trong trường hợp s = 1, nghĩa là ta chỉ dự báo 01 giá trị tại tương lai, khi đó, bài toán rơi vào trường hợp tìm ra một hàm xấp xỉ (function approximation) biểu diễn chuỗi thời gian, nói cách khác là dự đoán giá trị tương lai từ các giá trị đã thu thập trước đó trong chuỗi thời gian. Để giải quyết bài toán dự báo chuỗi thời gian nói chung và sử dụng mạng nơron nói riêng, cần thực hiện các bước tổng quát sau: Chọn mô hình tổng quát: Với mỗi x[ti] trong quá khứ, huấn luyện mô hình với đầu vào là các giá trị trước đó và đầu ra mong muốn, là chính ti. Sau khi huấn luyện mô hình, chạy mô hình với chuỗi {x[t], x[t−1], ···} để thu được giá trị dự đoán xdb[t+s].[6] 14 2.2.5 Dự báo chuỗi thời gian sử dụng mạng Long short-term memory (LSTM) Mạng bộ nhớ dài - ngắn (Long ShortTerm Memory networks thường được gọi là LSTM) là một dạng đặc biệt của mạng nơ-ron hồi quy (Recurrent Neural Network gọi là RNN). LSTM được giới thiệu bởi Hochreiter & Schmidhuber vào năm (1997) được ứng dụng và phổ biến trên nhiều nghiên cứu khác nhau. LSTM là một trong những mạng thần kinh nhân tạo được sử dụng phổ biến trong phân tích dữ liệu chuỗi thời gian (time-series). LSTM được thiết kế để tránh được vấn đề phụ thuộc xa (long-term dependency). Việc nhớ thông tin trong suốt thời gian dài là đặc tính mặc định của chúng, chứ không cần phải đào tạo nó để có thể nhớ được. Tức là ngay nội tại của nó đa có thể ghi nhớ được mà không cần bất kì can thiệp nào. Mọi mạng hồi quy đều có dạng là một chuỗi các mô-đun lặp đi lặp lại của mạng nơ-ron. Với mạng RNN chuẩn, các mô-dun này có cấu trúc rất đơn giản, thường là một tầng tanh. LSTM cũng có kiến trúc dạng chuỗi như vậy, nhưng các mô-đun trong nó có cấu trúc khác với mạng RNN chuẩn. Thay vì chỉ có một tầng mạng nơron, chúng có tới 4 tầng tương tác với nhau một cách đặc biệt [8]. 15 CHƯƠNG 3 – PHÂN TÍCH, THIẾT KẾ HỆ THỐNG DỰ BÁO DOANH THU GOLF THEO THỜI GIAN 3.1 Phân tích số liệu dự báo Thu thập số liệu doanh thu golf từ năm 2003 đến năm 2018 theo bảng 1, Bảng 1:Số liệu doanh thu VietNam Golf Club từ 2003 – 2018. Year Sales (1.000.000) 2003 86,091 2004 92,980 2005 107,031 2006 123,189 2007 162,346 2008 158,990 2009 166,216 2010 183,427 2011 223,927 2012 229,145 2013 229,884 2014 240,347 2015 222,758 2016 231,293 2017 248,897 2018 303,762 Phân tích số liệu doanh thu Golf từ năm 2003 đến 2018 như ở Bảng 2 Bảng 2: Bảng phân tích số liệu doanh thu VietNam Golf Club từ 2003 – 2018 16 Theo kết quả phân tích trong bảng 2:3.2, trong giai đoạn năm 2003-2004, doanh thu tăng 6,889 tỷ Việt Nam đồng , tỷ lệ doanh thu năm 2004 tăng là 8 % so với năm 2003,... Năm 2018 tăng 54,865.09 tỷ đồng tỷ lệ doanh thu tăng 2018 so với năm 2017 là 22,04 %. 3.2 Quy trình dự báo Quy trình dự báo được thực hiện qua 9 bước: Bước 1: Xác định mục tiêu Các mục tiêu liên quan đến các quyết định cần đến dự báo phải được nói rõ ràng. Dự báo thảo luận các mục tiêu, kết quả dự báo sẽ được sử dụng như thế nào, thì kết quả dự báo sẽ có ý nghĩa quan trọng. Bước 2: Xác định dự báo cái gì Khi các mục tiêu tổng quát đã rõ ta phải xác định chính xác là dự báo cái gì. Dự báo doanh thu doanh thu Golf hay số đơn vị doanh số. Dự báo theo năm, quý, tháng hay tuần. Bước 3: Xác định khía cạnh thời gian Thứ nhất: Độ dài dự báo, cần lưu ý: ✓ Dự báo dài hạn: Là những dự báo có thời gian dự báo từ 5 năm trở lên. Thường dùng để dự báo những mục tiêu, chiến lược về kinh tế chính trị, khoa học kỹ thuật trong thời gian dài ở tầm vĩ mô. ✓ Dự báo trung hạn: Là những dự báo có thời gian dự báo từ 3 đến 5 năm. Thường phục vụ cho việc xây dựng những kế hoạch trung hạn về kinh tế văn hoá xã hội ở tầm vi mô và vĩ mô. ✓ Dự báo ngắn hạn: Là những dự báo có thời gian dự báo dưới 3 năm, loại dự báo này thường dùng để dự báo hoặc lập các kế hoạch kinh tế, văn hoá, xã hội chủ yếu ở tầm vi mô và vĩ mô trong khoảng thời gian ngắn nhằm phục vụ cho công tác chỉ đạo kịp thời. Thứ hai: Làm dự báo phải thống nhất tính cấp thiết của dự báo. 17 Bước 4: Xem xét dữ liệu Dữ liệu cần để dự báo có thể từ 2 nguồn: bên trong và bên ngoài. Cần phải lưu ý dạng dữ liệu sẵn có ( thời gian, đơn vị tính,) Dữ liệu thường được tổng hợp theo cả biến và thời gian, nhưng tốt nhất là thu thập dữ liệu chưa được tổng hợp. Cần trao đổi giữa người sử dụng và người làm dự báo. Bước 5: Lựa chọn mô hình Làm sao để quyết định được phương pháp thích hợp nhất cho một tình huống nhất định? ✓ Loại và lượng dữ liệu sẵn có ✓ Mô hình (bản chất) dữ liệu quá khứ ✓ Tính cấp thiết của dự báo ✓ Độ dài dự báo ✓ Kiến thức chuyên môn của người làm dự báo Bước 6: Đánh giá mô hình Đối với các phương pháp định tính thì bước này ít phù hợp hơn so với phương pháp định lượng Đối với các phương pháp định lượng, cần phải đánh giá mức độ phù hợp của mô hình (trong phạm vi mẫu dữ liệu) Đánh giá mức độ chính xác của dự báo (ngoài phạm vi mẫu dữ liệu) Nếu mô hình không phù hợp, quay lại bước 5 Bước 7: Chuẩn bị dự báo Nếu có thể nên sử dụng hơn một phương pháp dự báo, và nên là những loại phương pháp khác nhau (ví dụ mô hình hồi quy và san mũ Holt, thay vì cả 2 mô hình hồi quy khác nhau) Các phương pháp được chọn sử dụng để chuẩn bị cho một số các dự báo. Bước 8: Trình bày kết quả dự báo Kết quả dự báo phải được trình bày rõ ràng cho ban quản lý sao cho họ hiểu các con số được tính toán như thế nào và chỉ ra sự tin cậy trong kết quả dự báo. 18 Người dự báo phải có khả năng trao đổi các kết quả dự báo theo ngôn ngữ mà các nhà quản lý hiểu được. Trình bày cả ở dạng viết và dạng nói. Bảng biểu phải ngắn gọn, rõ ràng. Chỉ cần trình bày các quan sát và dự báo gần đây thôi. Chuỗi dữ liệu dài có thể được trình bày dưới dạng đồ thị . Trình bày thuyết trình nên theo cùng hình thức và cùng mức độ với phần trình bày viết. Bước 9: Theo dõi kết quả dự báo Lệch giữa giá trị dự báo và giá trị thực phải được thảo luận một cách tích cực, khách quan và cởi mở Mục tiêu của việc thảo luận là để hiểu tại sao có các sai số, để xác định độ lớn của sai số Trao đổi và hợp tác giữa người sử dụng và người làm dự báo có vai trò rất quan trọng trong việc xây dựng và duy trì quy trình dự báo thành công. [2] 3.3 Xây dựng quy trình phân tích dự báo cho bài toán doanh thu Golf 3.3.1 Xây dựng dự báo theo chuỗi thời gian với mô hình trung bình nhân Chuỗi thời gian là một chuỗi giá trị được ghi nhận theo thời gian (ngày, tuần, tháng, quý, năm). Có nhiều phương pháp dự báo với chuỗi thời gian, ở đây chỉ trình bày phương pháp phân rã (Decomposition). Theo phương pháp này, chuỗi thời gian có thể được mô tả theo dạng tích như sau: Yt = St x Tt x It Trongđó: + Yt là giá trị quan sát (observed value) + St là giá trị quan sát (seasonality) + Tt là yếu tố xu hướng (trend) + It là yếu tố bất thường (irregularity) 19 Xây dựng số liệu dự báo doanh thu golf theo năm và quý từ quý 1 năm 2003 đến quý 4 năm 2018, với bảng số liệu Bảng 3. Bảng 3: Bảng số liệu doanh thu golf theo từng quý qua năm Quy trình thực hiện dự báo mô hình trung bình nhân theo Hình 2: Hình 2: Sơ đồ khối thuật toán phân tích dự báo mô hình nhân Xây dựng số liệu phân tích dự báo Tạo các tham số Làm mịn số liệu và tính các giá trị tham số Xác định phương trình hồi quy Kết quả phân tích và dự báo 20 3.3.2 Xây dựng dữ liệu ứng dụng dự báo theo mô hình ARIMA Xây dựng số liệu doanh thu Golf từ tháng 01 năm 2003 đến 03 năm 2019. Số liệu doanh thu theo tháng được xây dựng dưới dạng file CSV, số liệu xây dựng trên đơn vị tính là 1.000.000 đồng Việt Nam. Bảng số liệu doanh thu qua các tháng được thể hiện qua Bảng 4 : Bảng 4: Bảng số liệu doanh thu Gofl file CSV 21 Quy trình thực hiện và phân tích dự báo bằng mô hình ARIMA Hình 3: Dữ liệu đầu vào Hình 3: Sơ đồ khối xây dựng quy trình dự báo bằng mô hình ARIMA Xác định mô hình thử nghiệm Ước lượng tham số Kiểm định chuẩn đoán Dự báo 22 3.3.3 Xây dựng ứng dụng dữ liệu theo mô hình LSTM Xây dựng số liệu doanh thu Golf theo tháng từ 01 năm 2003 đến tháng 12 năm 2018 với bảng số liệu Bảng 5: Bảng 5: Bảng số liệu doanh thu golf từ tháng 01 năm 2003 đến 12 năm 2018 Xây dựng quy trình phân tích và huấn luyện mô hình LSTM như Hình 4: Hình 4: Quy trình huấn luyện mạng LSTM Dữ liệu đầu vào Phân tích xử lý Xây dựng mô hình mạng LSTM Huấn luyện Kết quả phân tích dự báo 23 CHƯƠNG 4 – XÂY DỰNG ỨNG DỤNG THỬ NGHIỆM 4.1 Xây dựng dự báo theo chuỗi thời gian với mô hình trung bình nhân 4.1.1 Xây dựng dữ liệu dự báo : - Biểu đồ biểu diễn số liệu doanh thu golf theo quý qua các năm theo như Hình 5 : Hình 5: Biểu đồ doanh thu gofl 4.1.2 Làm mịn số liệu: Bằng cách tính trung bình cộng như số liệu Bảng 6: Bảng 6: Bảng số liệu MA4 theo trung bình cộng 0 20,000 40,000 60,000 80,000 100,000 12341234123412341234123412341234123412341234123412341234123412341 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 Doanh thu golf Yt (1.000.000) Yt (1.000.000) 24 - Tính MA4 : là trung bình cộng với n số hạng của số liệu doanh thu golf Yt. Ta áp dụng công thức : MA4= 1 n ∑ 𝑌𝑡𝑖 𝑛 𝑖=1 = 1 n ( Yt1 + Yt1 + + Ytn). Ứng dụng n=4, ta có : MA4(1) = 1/4 * (Yt1+Yt2+Yt3+Yt4) = (26.374+19.366+18.395+21.955) / 4 = 21.378 MA4(2) = 1/4 * (Yt2+Yt3+Yt4+Yt5) = (19.366+18.395+21.955+23.343) / 4 = 20.765 MA4(3) = 1/4 * (Yt3+Yt4+Yt5+Yt6) = (18.395+21.955+23.343+21.651) / 4 = 21.336 -------------------------------------------------------------------- MA4(64) = 1/4 *( Yt62+Yt63+Yt64+Yt65) = (73.338+71.744+83.934+84.750) / 4 = 78.442 - Tính CMA4 hay Tt : là trung bình cộng với n số hạng của MA4 : Ta áp dụng công thức : CMA4= 1 n ∑ 𝑀𝐴4𝑖 𝑛 𝑖=4 = 1 n (MA4 *t3 ++ MA4*tn). - Tương tự ta có kết quả như Bảng 7 : Bảng 7: Bảng số liệu CMA4 theo trung bình cộng 25 4.1.3 Xác định St: - Tính St x It =Yt / CMA4. - Ta có : St4 x It4 = 21.955 / 21.144 = 1,03838583 - Bảng kết quả Bảng 8 cho các thời gian t tiếp theo : Bảng 8: Bảng số liệu St x It Tính St cho từng quý với hàm trung bình cộng có điều kiện theo quý theo Bảng 9: Bảng 9: Bảng số liệu St theo quý - Hiệu chỉnh St theo từng quý theo Bảng 10: Bảng 10: Bảng số liệu St hiệu chỉnh theo quý 26 - Khử tính mùa vụ: Ta khử mùa vụ bằng cách lấy Yt / St, ta thu được kết quả như Bảng 11: Bảng 11: Bảng số liệu kết quả khử mùa vụ 4.1.4 Xác định phương trình hồi quy: - Thực hiện hồi quy Tt theo thời gian t, với công thức hồi quy Tt = bt +a: - Ta có bảng kết quả hồi quy như Bảng 12: Bảng 12: Bảng số liệu kết hồi quy theo quý 27 - Intercept là hệ số a hay còn gọi là trung độ gốc: a = 20.778,56346. - X Variable 1 là hệ số độ dốc: b= 811,8253497. - Adjusted R Square là hệ số xác định: R2 = 0.900185312, với hệ R2 càng gần 1 nên mô hình được đánh giá là tốt. - Significance F là độ tin cậy của kiểm định: F=1,91189E-33 - P-Value: 3,6703E-24 - Phương trình hồi quy dự báo của mô hình như sau: Tt = a + bt = 20.778, 56346 + 811,8253497*t Dựa vào phương trình hồi quy : Tt = 20.778, 56346 + 811,8253497*t, ta có được số liệu dự báo. - Tính Tt: Thu được kết quả như Bảng 13: Bảng 13: Bảng kết quả Tt 28 4.1.4 Kết quả dự báo - Thực hiện dự báo với công thức : Yt = Tt x St - Thực hiện tính Yt, ta thu được kết quả như Bảng 14 : Bảng 14: Bảng kết quả Yt = St * Tt -Ta thực hiện dự báo cho quý 2, 3, 4 năm 2019, vớ kết quả dự báo như Bảng 15: Bảng 15: Bảng kết quả dự báo quý 2,3,4 năm 2019 29 - Tiếp tục dự báo từ năm 2020 đến năm 2026, có bảng kết quả Bảng 16: Bảng 16: Bảng kết quả dự báo quý năm 2020 đến 2026 - Biểu đồ minh họa của quá trình thực hiện mô hình dự báo được thể hiện như Hình 6 : Hình 6: Biểu đồ kết quả mô hình dự báo doanh thu Golf từ 2003 đến 2026 30 4.2 Xây dựng ứng dụng dự báo theo mô hình ARIMA 4.2.1 Xây dựng chương trình phân tích và dự báo dự báo doanh thu hiện thực bằng Python 4.2.1.1 Khai báo thư viện và xử lý số liệu : - Khai báo thư viện : # coding=utf-8 import warnings import itertools import pandas as pd import numpy as np import statsmodels.api as sm import matplotlib.pyplot as plt plt.style.use('bmh') import statsmodels.api as sm import statsmodels.tsa.api as smt import statsmodels.formula.api as smf from statsmodels.graphics.tsaplots import plot_acf from statsmodels.graphics.tsaplots import plot_pacf from statsmodels.tsa.stattools import adfuller from statsmodels.tsa.seasonal import seasonal_decompose from statsmodels.tsa.ar_model import AR from statsmodels.tsa.arima_model import ARMA, ARIMA from statsmodels.tsa.statespace.sarimax import SARIMAX from math import sqrt ,[8] Khai báo đường dẫn file CSV và tạo datafarm [9],[10]: df = pd.read_csv('d:\caohoc\CODELUANVAN\ARIMA_Yt.csv') dates = pd.date_range(start='2003-01-01', freq='M

Các file đính kèm theo tài liệu này:

  • pdfluan_van_xay_dung_ung_dung_phan_tich_du_bao_doanh_thu_doanh.pdf
Tài liệu liên quan