LỜI CAM ĐOAN . i
LỜI CẢM ƠN . ii
DANH MỤC CÁC BẢNG. iii
DANH MỤC CÁC HÌNH MINH HỌA . iv
MỤC LỤC.v
CHƯƠNG 1 - TỔNG QUAN .1
CHƯƠNG 2 - MỘT SỐ PHƯƠNG PHÁP PHÂN TÍCH VÀ DỰ BÁO TÀI CHÍNH
.6
2.1 Các phương pháp phân tích và dự báo .6
2.1.1 Dự báo ngắn hạn.6
2.1.2 Dự báo dài hạn.8
2.2 Các phương pháp dự báo theo chuỗi thời gian.9
2.2.1 Mức độ trung bình theo thời gian.9
2.2.1.1 Đối với dãy số thời kỳ .9
2.2.1.2 Đối với dãy số thời điểm .9
2.2.2 Các phương pháp biểu hiện xu hướng phát triển .9
2.2.2.1 Phương pháp số trung bình trượt.9
2.2.2.2 Phương pháp hồi quy.10
2.2.3 Phương pháp ARIMA .11
2.2.3.1 Mô hình AR(P) (Auto Regression) .11
2.3.3.2 Mô hình MA(q) (Moving Average) .11
2.3.3.3 Mô hình ARMA(p,q).12
2.3.3.4 Mô hình ARMA mở rộng.12
2.2.4 Dự báo chuỗi thời gian sử dụng mạng nơ ron.13
63 trang |
Chia sẻ: honganh20 | Lượt xem: 461 | Lượt tải: 3
Bạn đang xem trước 20 trang tài liệu Luận văn Xây dựng ứng dụng phân tích dự báo doanh thu doanh nghiệp golf, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
kinh tế văn hoá xã
hội ở tầm vi mô và vĩ mô.
Dự báo ngắn hạn: Là những dự báo có thời gian dự báo dưới 3 năm, loại dự
báo này thường dùng để dự báo hoặc lập các kế hoạch kinh tế, văn hoá, xã hội chủ
yếu ở tầm vi mô và vĩ mô trong khoảng thời gian ngắn nhằm phục vụ cho công tác
chỉ đạo kịp thời.
2.1.1 Dự báo ngắn hạn
Dự báo ngắn hạn ước lượng trong thời gian ngắn, có thể dự báo theo tuần hoặc
theo quý. Dự báo ngắn hạn giúp các người điều hành quản lý doanh nghiệp đưa ra
những thông tin để đưa ra quyết định.
* Phương pháp bình quân di động có quyền số.
Trong phương pháp bình quân di động được đề cập ở phần trên, chúng ta xem
vai trò của các số liệu trong quá khứ là như nhau. Trong một vài trường hợp, các số
liệu này có ảnh hưởng khác nhau trên kết quả dự báo, vì thế, người ta thích sử dụng
quyền số không đồng đều cho các số liệu quá khứ. Quyền số hay trọng số là các con
số được gán cho các số liệu quá khứ để chỉ mức độ quan trọng của chúng ảnh hưởng
đến kết quả dự báo. Quyền số lớn được gán cho số liệu gần với kỳ dự báo nhất để ám
chỉ ảnh hưởng của nó là lớn nhất.Việc chọn các quyền số phụ thuộc vào kinh nghiệm
và sự nhạy cảm của người dự báo.
7
Để dự báo thời kỳ thứ t với t là biến thời gian, ta ký hiệu là Ft
Số liệu thực tế thời kỳ trước (i=1,2, ..., n) thu thập được ký hiệu là At−i
Quyền số tương ứng ở thời kỳ I, ký hiệu là ki. Được xác định bởi công thức
sau: 𝐹𝑡 =
∑ At−iki
n
i=1
∑ ki
n
i=1
* Phương pháp điều hòa mũ.
Điều hòa mũ đưa ra các dự báo cho giai đoạn trước và thêm vào đó một lượng
điều chỉnh để có được lượng dự báo cho giai đoạn kế tiếp. Sự điều chỉnh này là một
tỷ lệ nào đó của sai số dự báo ở giai đoạn trước và được tính bằng cách nhân số dự
báo của giai đoạn trước với hệ số nằm giữa 0 và 1 gọi là α số này gọi là hệ số điều
hòa . Ta gọi Ft là dự báo cho giai đoạn thứ t, giai đoạn kế tiếp; Ft−1dự báo cho giai
đoạn thứ t-1, giai đoạn trước; At−1 là số liệu thực tế của giai đoạn thứ t-1. Công thức
viết như sau: Ft = Ft−1 + α (At−1 - Ft−1)
* Phương pháp điều hòa mũ theo xu hướng
Chúng ta thường xem xét kế hoạch ngắn hạn, thì mùa vụ và xu hướng là nhân
tố không quan trọng. Khi chúng ta chuyển từ dự báo ngắn hạn sang dự báo trung hạn
thì mùa vụ và xu hướng trở nên quan trọng hơn. Kết hợp nhân tố xu hướng vào dự
báo điều hòa mũ được gọi là điều hòa mũ theo xu hướng hay điều hòa đôi.Vì ước
lượng cho số trung bình và ước lượng cho xu hướng cho số trung bình và hệ số điều
hòa được điều hòa cả hai. Hệ số điều hòa cho xu hướng, được sử dụng trong mô
hình này . Ta gọi Ft là giá trị dự báo theo xu hướng trong giai đoạn t , St là giá trị
dự báo được điều hòa trong giai đoạn t, Tt gọi ước lượng trong giai đoạn t, At là số
liệu thực tế trong gian đoạn t, t là thời gian trong gian đoạn t, t -1là thời gian nằm
trong gian đoạn trước t, hệ số điều hòa trung bình có giá trị từ 0≤ ≤1, hệ số điều
hòa theo xu hướng có giá trị từ 0≤ ß ≤1. Ta có thể viết như sau: Ft = St−1 + Tt−1
(At - Ft) α.
8
2.1.2 Dự báo dài hạn
Dự báo dài hạn là ước lượng tương lai trong thời gian dài, thường hơn một
năm. Dự báo dài hạn rất cần thiết trong quản trị sản xuất để trợ giúp các quyết định
chiến lược về hoạch định sản phẩm, quy trình công nghệ và các phương tiện sản xuất.
* Phương pháp hồi qui tuyến tính.
Phân tích hồi qui tuyến tính là một mô hình dự báo thiết lập mối quan hệ giữa
biến phụ thuộc với hai hay nhiều biến độc lập. Trong phần này, chúng ta chỉ xét
đến một biến độc lập duy nhất. Nếu số liệu là một chuỗi theo thời gian thì biến
độc lập là giai đoạn thời gian và biến phụ thuộc thông thường là doanh số bán ra
hay bất kỳ chỉ tiêu nào khác mà ta muốn dự báo.
Ta có: y - Biến phụ thuộc cần dự báo.
x - Biến độc lập
a - Độ dốc của đường xu hướng
b - Tung độ gốc
n - Số lượng quan sát
Mô hình này có công thức:Y = ax + b, với a =
𝑛 ∑𝑥𝑦 − ∑ 𝑥 ∑𝑦
𝑛∑𝑥2 − ( ∑𝑥)2
và b =
∑𝑥2(∑𝑦 − ∑𝑥∑𝑥𝑦
𝑛∑𝑥2 − (∑𝑥)
2
* Tính chất mùa vụ trong dự báo chuỗi thời gian.
Loại mùa vụ thông thường là sự lên xuống xảy ra trong vòng một năm và có
xu hướng lặp lại hàng năm. Những vụ mùa này xảy ra có thể do điều kiện thời tiết,
địa lý hoặc do tập quán của người tiêu dùng khác nhau...
Cách thức xây dựng dự báo với phân tích hồi qui tuyến tính khi vụ mùa hiện
diện trong chuỗi số theo thời gian. Ta thực hiện các bước:
✓ Chọn lựa chuỗi số liệu quá khứ đại diện.
✓ Xây dựng chỉ số mùa vụ cho từng giai đoạn thời gian.
Với i
Y
- Số bình quân của các thời kỳ cùng tên
0
Y
- Số bình quân chung của tất cả các thời kỳ trong dãy số.
Ii - Chỉ số mùa vụ kỳ thứ i.
9
✓ Sử dụng các chỉ số mùa vụ để hóa giải tính chất mùa vụ của số liệu.
✓ Phân tích hồi qui tuyến tính dựa trên số liệu đã phi mùa vụ.
✓ Sử dụng phương trình hồi qui để dự báo cho tương lai.
✓ Sử dụng chỉ số mùa vụ để tái ứng dụng tính chất mùa vụ cho dự
báo.
2.2 Các phương pháp dự báo theo chuỗi thời gian
2.2.1 Mức độ trung bình theo thời gian
2.2.1.1 Đối với dãy số thời kỳ
Muốn tính mức độ bình quân: ta cộng các mức độ trong dãy số rồi chia cho số
các mức độ với Yi (i = 1,, n) là các mức độ của dãy số thời kỳ, n là số mức độ của
dãy số, ta có: �̅� =
𝑦1 + 𝑦2 + 𝑦3+⋯+𝑦𝑛
𝑛
=
∑ 𝑦𝑖
𝑛
𝑖=1
𝑛
2.2.1.2 Đối với dãy số thời điểm
Dãy số có khoảng cách thời gian bằng nhau: mức độ trung bình được tính theo
công thức sau:
�̅� =
𝑦1/2 + 𝑦2 + 𝑦3+⋯+𝑦𝑛−1+𝑦𝑛/2
𝑛−1
Trong đó: yi (i=1,2, . . ., n) là các mức độ của dãy số thời điểm, nsố mức độ của
dãy số
Dãy số thời điểm có khoảng cách thời gian không bằng nhau, mức độ trung
bình được tính theo công thức:
�̅� =
𝑦1𝑡1 + 𝑦2 𝑡2+ 𝑦3𝑡3+⋯+𝑦𝑛𝑡𝑛
𝑡1+ 𝑡2+ 𝑡3+⋯+ 𝑡𝑛
=
∑ 𝑦𝑖 𝑡𝑖
𝑛
𝑖=1
∑ 𝑡𝑖
𝑛
𝑖=1
, với yi là mức độ của dãy
số thời điểm, ti (i=1, 2, . . . , n): độ dài của các khoảng cách thời gian.
2.2.2 Các phương pháp biểu hiện xu hướng phát triển
2.2.2.1 Phương pháp số trung bình trượt
Số trung bình trượt (còn gọi là số trung bình di động) là số trung bình cộng
của 1 nhóm nhất định các mức độ của dãy số được tính bằng cách lần lượt loại dần
các mức độ đầu, đồng thời, thêm vào các mức độ tiếp theo, sao cho tổng số lượng các
mức độ tham gia tính số trung bình không thay đổi.
Giả sử có dãy thời gian y1, y2, y3, . . . yn-1, yn
Nếu tính trung bình trượt cho nhóm 3 mức độ, ta sẽ có:
10
�̅�2 =
𝑦1 + 𝑦2 + 𝑦3
3
�̅�3 =
𝑦2 + 𝑦3 +𝑦4
3
�̅�𝑛−1 =
𝑦𝑛−2 + 𝑦𝑛−1 + 𝑦𝑛
3
2.2.2.2 Phương pháp hồi quy
Trên cơ sở dãy số thời gian, người ta tìm một hàm số (gọi là phương trình hồi
quy) phản ánh sự biến động của hiện tượng qua thời gian có dạng tổng quát như sau:
Trong đó: a0, a1, . . . , an các tham số.
t: thứ tự thời gian.
Để lựa chọn đúng đắn dạng của phương trình hồi quy đòi hỏi phải dựa vào sự
phân tích đặc điểm biến động của hiện tượng qua thời gian, đồng thời kết hợp với
một số phương pháp đơn giản khác (như dựa vào đồ thị, dựa vào độ tăng (giảm) tuyệt
đối, dựa vào tốc độ phát triển,. . .)
Các tham số ai (i= 1,2,3, . . ., n) thường được xác định bằng phương pháp bình
phương nhỏ nhất. Tức là: ∑(𝑦𝐿𝑇−𝑦𝑇𝑇 )
2
= min
Sau đây là 1 số dạng phương trình hồi quy đơn giản thường được sử dụng:
Phương trình đường thẳng: y = a0 + a1t
Phương trình đường thẳng được sử dụng khí các lượng tăng (hoặc giảm) tuyệt
đối liên hoàn (còn gọi là sai phân bậc 1) xấp sỉ nhau.
Để xác định a0 và a1: ta áp dụng phương pháp bình phương nhỏ nhất. Từ đó a0
và a1 được xác định bởi hệ phương trình sau:
{
∑𝑦
n
i=1
= 𝑛a0 + a1∑𝑦
n
i=1
∑yt
n
i=1
= a0∑𝑡
n
i=1
+ a1∑t
2
n
i=1
(∗)
11
2.2.3 Phương pháp ARIMA
2.2.3.1 Mô hình AR(P) (Auto Regression)
Trong một quá trình tự hồi quy bậc p, số liệu quan trắc tại thời điểm hiện tại
yt được tạo ra bởi một tổng trung bình có trọng số của các giá trị quan trắc trong quá
khứ tính cho đến giá trị quan trắc quá khứ thứ p Công thức định nghĩa như sau:
AR (1): yt = q1 * yt + et
AR (2): yt = q1 * y(t−1) + q2 * y(t−2) + et
.
AR(P): yt = q1 * y(t−1) + q2 * y(t−2) ++ qp * y(t−p) + et
Trong đó q1; q2; ; qp là các thông số cần phải xác định. et là một nhiễu trắng
ngẫu nhiên có dạng Gaussien. Chúng ta cũng có thể thêm vào quá trình này một hằng
số mà nó vẫn không ảnh hưởng đến những tính chất ngẫu nhiên của chuỗi. Phương
trình trên có thể viết dưới dạng đơn giản hơn nhờ vào định nghĩa toán tử lệch pha D
như sau: et = (1- q1 * D - q2 * D2 - - qp * Dp ) * yt
2.3.3.2 Mô hình MA(q) (Moving Average)
Trong một quá trình trung bình động bậc q, số liệu quan trắc tại thời điểm hiện
tại yt được tính bởi tổng trung bình có trọng số giá trị của các nhiễu ngẫu nhiên cho
đến nhiễu thứ q. Công thức định nghĩa như sau:
MA (1): yt = et - a1* e(t−1)
MA (2): yt = et - a1* e(t−1) - a2* e(t−2)
-------------------------------------------------------------------------------------------------------
MA(q): yt = et - a1* e(t−1) - a2* e(t−2) - ..- aq* e(t−q)
Trong đó a1, a3, ap là các thông số cần phải xác định et là một nhiễu trắng ngẫu
nhiên có dạng Gaussien. Phương trình trên có thể viết dưới dạng đơn giản hơn nhờ
vào định nghĩa một toán tử lệch pha D như sau: yt = (l -a1D- a2D2 -...- apDp) et
Trong quá trình dạng nây cũng như tất cả các mô hình tự hồi quy các nhiễu
ngẫu nhiên được giả thiết là được tạo ra bởi một > Chúng ta có thể
12
hiểu quá trình trung bình động là một chuỗi thời gian dao động ngẫu nhiên chung
quanh giá trị trung bình của chúng.
2.3.3.3 Mô hình ARMA(p,q)
Mô hình ARMA(p,q) là một quá trình được tạo ra bởi từ tổ hợp giữa các giá
trị của chuỗi trong quá khứ và các giá trị của nhiễu trong quá khứ. Được xác định bởi
phương trình sau đây:
(1- 𝜃1 * D1 – 𝜃2 * D2 - - 𝜃p * Dp) * 𝑦t * 𝐸t = (1- 𝛼1* D1 – 𝛼2* D2 -- 𝛼q*Dq)∗ 𝐸t
Ta có thể nói đây là một mô hình có được từ sự tổng hợp của 2 loại mô hình AR
và MA.
Tính chất: ARMA (1,0) = AR (1); ARMA (0,1) = MA (1)
Ta chú ý trong trường hợp này, biểu đồ tương quan đơn và biểu đồ tương quan
riêng phần sẽ phức tạp hơn so với 2 trường hợp trên
2.3.3.4 Mô hình ARMA mở rộng
Trong trường hợp chuỗi quan trắc có xu thế không ổn định (có xu thế tăng
hoặc giảm theo thời gian), ta định nghĩa một mô hình có dạng ARMA(p,d,q) với d là
bậc của đường xu thế. Nói một cách khác đi, d biểu thị cho số lần lấy >
cần thiết lên chuỗi quan trắc để ta có thể nhận được một chuỗi nghiên cứu có tính ổn
định theo xu thế. Ví dụ trong trường hợp chuỗi có xu thế tuyến tính ta có d=l; trong
trường hợp đường xu thế là một hàm bậc 2 ta có d =2.
Thật vậy giả sừ chuỗi có một xu thế tuyến tính biểu thị bởi phương trình sau
đây: y =a+bt
Định nghĩa sai biệt bậc 1 Dyt ta có: Dyt = yt-yt-1 =(a+bt) -(a+b[t—1]) = b=cte
Ta thấy chuỗi sai biệt bậc 1 có xu thế ổn định.
Trong trường hợp có xu thế bậc 2 phương trình có dạng: yt =a+bt+ct2
Tính sai biệt bậc 1 ta có: Dyt =yt - yt-1 = (a+bt+ct2) -(a+b[t-l] +c*[t-1]2) = b-c+2tc
Ta thấy chuỗi Dyt có xu thế bậc 1.
Để có xu thế ổn định ta chỉ cần tính thêm một lần nữa cho sự khác biệt như
trường hợp ta đã có trong trường hợp xu thế là tuyến tính ở trên.
13
Ta có hai lần lấy sai biệt cho trường hợp bậc 2 này để chuỗi quan xác trở nên
ổn định về xu thế.
Tóm lại ta có thể viết chuỗi (l -D)d * yt là một ARMA(p,q) khi yt là một
ARIMA(p,d,q); với D được định nghĩa là toán tử sai biệt: D(yt) = yt- y(t-l) , [7]
Mô hình SARIMA cho phép giải quyết vấn đề sai biệt liên quan đến biến đổi
mùa. Sự biến đổi được định nghĩa như sau: (1 - Ds) * yt = yt – y(t-s), với s biểu thị tính
chu kỳ của số liệu (s = 4 cho một chuỗi biến đổi theo quý, s =12 cho chuỗi biến đổi
theo tháng).
2.2.4 Dự báo chuỗi thời gian sử dụng mạng nơ ron
Giả sử ta có chuỗi thời gian {x[t]), x [t-1], } tính đến thời điểm t, nhiệm vụ
của chúng ta là dự báo giá trị của x tại một thời điểm trong tương lai.
xdb[t+s] =f(x[t], x[t−1], ···)
s: khoảng dự đoán (horizon of prediction) trong trường hợp s = 1, nghĩa là ta chỉ dự
báo 01 giá trị tại tương lai, khi đó, bài toán rơi vào trường hợp tìm ra một hàm xấp xỉ
(function approximation) biểu diễn chuỗi thời gian, nói cách khác là dự đoán giá trị
tương lai từ các giá trị đã thu thập trước đó trong chuỗi thời gian.
Để giải quyết bài toán dự báo chuỗi thời gian nói chung và sử dụng mạng
nơron nói riêng, cần thực hiện các bước tổng quát sau:
Chọn mô hình tổng quát: Với mỗi x[ti] trong quá khứ, huấn luyện mô hình
với đầu vào là các giá trị trước đó và đầu ra mong muốn, là chính ti.
Sau khi huấn luyện mô hình, chạy mô hình với chuỗi {x[t], x[t−1], ···} để thu được
giá trị dự đoán xdb[t+s].[6]
14
2.2.5 Dự báo chuỗi thời gian sử dụng mạng Long short-term memory
(LSTM)
Mạng bộ nhớ dài - ngắn (Long ShortTerm Memory networks thường được gọi
là LSTM) là một dạng đặc biệt của mạng nơ-ron hồi quy (Recurrent Neural Network
gọi là RNN). LSTM được giới thiệu bởi Hochreiter & Schmidhuber vào năm (1997)
được ứng dụng và phổ biến trên nhiều nghiên cứu khác nhau.
LSTM là một trong những mạng thần kinh nhân tạo được sử dụng phổ biến
trong phân tích dữ liệu chuỗi thời gian (time-series). LSTM được thiết kế để tránh
được vấn đề phụ thuộc xa (long-term dependency). Việc nhớ thông tin trong suốt
thời gian dài là đặc tính mặc định của chúng, chứ không cần phải đào tạo nó để có
thể nhớ được. Tức là ngay nội tại của nó đa có thể ghi nhớ được mà không cần bất kì
can thiệp nào. Mọi mạng hồi quy đều có dạng là một chuỗi các mô-đun lặp đi lặp lại
của mạng nơ-ron. Với mạng RNN chuẩn, các mô-dun này có cấu trúc rất đơn giản,
thường là một tầng tanh. LSTM cũng có kiến trúc dạng chuỗi như vậy, nhưng các
mô-đun trong nó có cấu trúc khác với mạng RNN chuẩn. Thay vì chỉ có một tầng
mạng nơron, chúng có tới 4 tầng tương tác với nhau một cách đặc biệt [8].
15
CHƯƠNG 3 – PHÂN TÍCH, THIẾT KẾ HỆ THỐNG DỰ BÁO
DOANH THU GOLF THEO THỜI GIAN
3.1 Phân tích số liệu dự báo
Thu thập số liệu doanh thu golf từ năm 2003 đến năm 2018 theo bảng 1,
Bảng 1:Số liệu doanh thu VietNam Golf Club từ 2003 – 2018.
Year Sales (1.000.000)
2003 86,091
2004 92,980
2005 107,031
2006 123,189
2007 162,346
2008 158,990
2009 166,216
2010 183,427
2011 223,927
2012 229,145
2013 229,884
2014 240,347
2015 222,758
2016 231,293
2017 248,897
2018 303,762
Phân tích số liệu doanh thu Golf từ năm 2003 đến 2018 như ở Bảng 2
Bảng 2: Bảng phân tích số liệu doanh thu VietNam Golf Club từ 2003 – 2018
16
Theo kết quả phân tích trong bảng 2:3.2, trong giai đoạn năm 2003-2004,
doanh thu tăng 6,889 tỷ Việt Nam đồng , tỷ lệ doanh thu năm 2004 tăng là 8 % so với
năm 2003,... Năm 2018 tăng 54,865.09 tỷ đồng tỷ lệ doanh thu tăng 2018 so với năm
2017 là 22,04 %.
3.2 Quy trình dự báo
Quy trình dự báo được thực hiện qua 9 bước:
Bước 1: Xác định mục tiêu
Các mục tiêu liên quan đến các quyết định cần đến dự báo phải được nói rõ
ràng. Dự báo thảo luận các mục tiêu, kết quả dự báo sẽ được sử dụng như thế nào, thì
kết quả dự báo sẽ có ý nghĩa quan trọng.
Bước 2: Xác định dự báo cái gì
Khi các mục tiêu tổng quát đã rõ ta phải xác định chính xác là dự báo cái gì.
Dự báo doanh thu doanh thu Golf hay số đơn vị doanh số. Dự báo theo năm, quý,
tháng hay tuần.
Bước 3: Xác định khía cạnh thời gian
Thứ nhất: Độ dài dự báo, cần lưu ý:
✓ Dự báo dài hạn: Là những dự báo có thời gian dự báo từ 5 năm trở lên.
Thường dùng để dự báo những mục tiêu, chiến lược về kinh tế chính trị,
khoa học kỹ thuật trong thời gian dài ở tầm vĩ mô.
✓ Dự báo trung hạn: Là những dự báo có thời gian dự báo từ 3 đến 5 năm.
Thường phục vụ cho việc xây dựng những kế hoạch trung hạn về kinh tế
văn hoá xã hội ở tầm vi mô và vĩ mô.
✓ Dự báo ngắn hạn: Là những dự báo có thời gian dự báo dưới 3 năm, loại
dự báo này thường dùng để dự báo hoặc lập các kế hoạch kinh tế, văn hoá,
xã hội chủ yếu ở tầm vi mô và vĩ mô trong khoảng thời gian ngắn nhằm
phục vụ cho công tác chỉ đạo kịp thời.
Thứ hai: Làm dự báo phải thống nhất tính cấp thiết của dự báo.
17
Bước 4: Xem xét dữ liệu
Dữ liệu cần để dự báo có thể từ 2 nguồn: bên trong và bên ngoài.
Cần phải lưu ý dạng dữ liệu sẵn có ( thời gian, đơn vị tính,)
Dữ liệu thường được tổng hợp theo cả biến và thời gian, nhưng tốt nhất là thu
thập dữ liệu chưa được tổng hợp.
Cần trao đổi giữa người sử dụng và người làm dự báo.
Bước 5: Lựa chọn mô hình
Làm sao để quyết định được phương pháp thích hợp nhất cho một tình huống
nhất định?
✓ Loại và lượng dữ liệu sẵn có
✓ Mô hình (bản chất) dữ liệu quá khứ
✓ Tính cấp thiết của dự báo
✓ Độ dài dự báo
✓ Kiến thức chuyên môn của người làm dự báo
Bước 6: Đánh giá mô hình
Đối với các phương pháp định tính thì bước này ít phù hợp hơn so với phương
pháp định lượng
Đối với các phương pháp định lượng, cần phải đánh giá mức độ phù hợp của
mô hình (trong phạm vi mẫu dữ liệu)
Đánh giá mức độ chính xác của dự báo (ngoài phạm vi mẫu dữ liệu)
Nếu mô hình không phù hợp, quay lại bước 5
Bước 7: Chuẩn bị dự báo
Nếu có thể nên sử dụng hơn một phương pháp dự báo, và nên là những loại
phương pháp khác nhau (ví dụ mô hình hồi quy và san mũ Holt, thay vì cả 2 mô hình
hồi quy khác nhau)
Các phương pháp được chọn sử dụng để chuẩn bị cho một số các dự báo.
Bước 8: Trình bày kết quả dự báo
Kết quả dự báo phải được trình bày rõ ràng cho ban quản lý sao cho họ hiểu
các con số được tính toán như thế nào và chỉ ra sự tin cậy trong kết quả dự báo.
18
Người dự báo phải có khả năng trao đổi các kết quả dự báo theo ngôn ngữ mà
các nhà quản lý hiểu được.
Trình bày cả ở dạng viết và dạng nói.
Bảng biểu phải ngắn gọn, rõ ràng.
Chỉ cần trình bày các quan sát và dự báo gần đây thôi.
Chuỗi dữ liệu dài có thể được trình bày dưới dạng đồ thị .
Trình bày thuyết trình nên theo cùng hình thức và cùng mức độ với phần trình
bày viết.
Bước 9: Theo dõi kết quả dự báo
Lệch giữa giá trị dự báo và giá trị thực phải được thảo luận một cách tích cực,
khách quan và cởi mở
Mục tiêu của việc thảo luận là để hiểu tại sao có các sai số, để xác định độ lớn
của sai số
Trao đổi và hợp tác giữa người sử dụng và người làm dự báo có vai trò rất
quan trọng trong việc xây dựng và duy trì quy trình dự báo thành công. [2]
3.3 Xây dựng quy trình phân tích dự báo cho bài toán doanh thu Golf
3.3.1 Xây dựng dự báo theo chuỗi thời gian với mô hình trung bình nhân
Chuỗi thời gian là một chuỗi giá trị được ghi nhận theo thời gian (ngày, tuần,
tháng, quý, năm).
Có nhiều phương pháp dự báo với chuỗi thời gian, ở đây chỉ trình bày phương
pháp phân rã (Decomposition).
Theo phương pháp này, chuỗi thời gian có thể được mô tả theo dạng tích như sau:
Yt = St x Tt x It
Trongđó:
+ Yt là giá trị quan sát (observed value)
+ St là giá trị quan sát (seasonality)
+ Tt là yếu tố xu hướng (trend)
+ It là yếu tố bất thường (irregularity)
19
Xây dựng số liệu dự báo doanh thu golf theo năm và quý từ quý 1 năm 2003
đến quý 4 năm 2018, với bảng số liệu Bảng 3.
Bảng 3: Bảng số liệu doanh thu golf theo từng quý qua năm
Quy trình thực hiện dự báo mô hình trung bình nhân theo Hình 2:
Hình 2: Sơ đồ khối thuật toán phân tích dự báo mô hình nhân
Xây dựng số liệu
phân tích dự báo
Tạo các tham số
Làm mịn số liệu và tính các giá trị tham số
Xác định phương trình hồi quy
Kết quả phân tích và dự báo
20
3.3.2 Xây dựng dữ liệu ứng dụng dự báo theo mô hình ARIMA
Xây dựng số liệu doanh thu Golf từ tháng 01 năm 2003 đến 03 năm 2019. Số
liệu doanh thu theo tháng được xây dựng dưới dạng file CSV, số liệu xây dựng trên
đơn vị tính là 1.000.000 đồng Việt Nam. Bảng số liệu doanh thu qua các tháng được
thể hiện qua Bảng 4 :
Bảng 4: Bảng số liệu doanh thu Gofl file CSV
21
Quy trình thực hiện và phân tích dự báo bằng mô hình ARIMA Hình 3:
Dữ liệu đầu vào
Hình 3: Sơ đồ khối xây dựng quy trình dự báo bằng mô hình ARIMA
Xác định mô hình
thử nghiệm
Ước lượng tham số
Kiểm định chuẩn đoán
Dự báo
22
3.3.3 Xây dựng ứng dụng dữ liệu theo mô hình LSTM
Xây dựng số liệu doanh thu Golf theo tháng từ 01 năm 2003 đến tháng 12 năm
2018 với bảng số liệu Bảng 5:
Bảng 5: Bảng số liệu doanh thu golf từ tháng 01 năm 2003 đến 12 năm 2018
Xây dựng quy trình phân tích và huấn luyện mô hình LSTM như Hình 4:
Hình 4: Quy trình huấn luyện mạng LSTM
Dữ liệu đầu vào Phân tích xử lý
Xây dựng mô hình
mạng LSTM
Huấn luyện
Kết quả phân tích
dự báo
23
CHƯƠNG 4 – XÂY DỰNG ỨNG DỤNG THỬ NGHIỆM
4.1 Xây dựng dự báo theo chuỗi thời gian với mô hình trung bình nhân
4.1.1 Xây dựng dữ liệu dự báo :
- Biểu đồ biểu diễn số liệu doanh thu golf theo quý qua các năm theo như Hình 5 :
Hình 5: Biểu đồ doanh thu gofl
4.1.2 Làm mịn số liệu:
Bằng cách tính trung bình cộng như số liệu Bảng 6:
Bảng 6: Bảng số liệu MA4 theo trung bình cộng
0
20,000
40,000
60,000
80,000
100,000
12341234123412341234123412341234123412341234123412341234123412341
2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019
Doanh thu golf Yt (1.000.000)
Yt (1.000.000)
24
- Tính MA4 : là trung bình cộng với n số hạng của số liệu doanh thu golf Yt.
Ta áp dụng công thức :
MA4=
1
n
∑ 𝑌𝑡𝑖
𝑛
𝑖=1 =
1
n
( Yt1 + Yt1 + + Ytn).
Ứng dụng n=4, ta có :
MA4(1) = 1/4 * (Yt1+Yt2+Yt3+Yt4) = (26.374+19.366+18.395+21.955) / 4 = 21.378
MA4(2) = 1/4 * (Yt2+Yt3+Yt4+Yt5) = (19.366+18.395+21.955+23.343) / 4 = 20.765
MA4(3) = 1/4 * (Yt3+Yt4+Yt5+Yt6) = (18.395+21.955+23.343+21.651) / 4 = 21.336
--------------------------------------------------------------------
MA4(64) = 1/4 *( Yt62+Yt63+Yt64+Yt65) = (73.338+71.744+83.934+84.750) / 4 = 78.442
- Tính CMA4 hay Tt : là trung bình cộng với n số hạng của MA4 :
Ta áp dụng công thức : CMA4=
1
n
∑ 𝑀𝐴4𝑖
𝑛
𝑖=4 =
1
n
(MA4 *t3 ++ MA4*tn).
- Tương tự ta có kết quả như Bảng 7 :
Bảng 7: Bảng số liệu CMA4 theo trung bình cộng
25
4.1.3 Xác định St:
- Tính St x It =Yt / CMA4.
- Ta có : St4 x It4 = 21.955 / 21.144 = 1,03838583
- Bảng kết quả Bảng 8 cho các thời gian t tiếp theo :
Bảng 8: Bảng số liệu St x It
Tính St cho từng quý với hàm trung bình cộng có điều kiện theo quý theo Bảng 9:
Bảng 9: Bảng số liệu St theo quý
- Hiệu chỉnh St theo từng quý theo Bảng 10:
Bảng 10: Bảng số liệu St hiệu chỉnh theo quý
26
- Khử tính mùa vụ: Ta khử mùa vụ bằng cách lấy Yt / St, ta thu được kết quả như
Bảng 11:
Bảng 11: Bảng số liệu kết quả khử mùa vụ
4.1.4 Xác định phương trình hồi quy:
- Thực hiện hồi quy Tt theo thời gian t, với công thức hồi quy Tt = bt +a:
- Ta có bảng kết quả hồi quy như Bảng 12:
Bảng 12: Bảng số liệu kết hồi quy theo quý
27
- Intercept là hệ số a hay còn gọi là trung độ gốc: a = 20.778,56346.
- X Variable 1 là hệ số độ dốc: b= 811,8253497.
- Adjusted R Square là hệ số xác định: R2 = 0.900185312, với hệ R2 càng gần
1 nên mô hình được đánh giá là tốt.
- Significance F là độ tin cậy của kiểm định: F=1,91189E-33
- P-Value: 3,6703E-24
- Phương trình hồi quy dự báo của mô hình như sau:
Tt = a + bt = 20.778, 56346 + 811,8253497*t
Dựa vào phương trình hồi quy : Tt = 20.778, 56346 + 811,8253497*t, ta có được số
liệu dự báo.
- Tính Tt: Thu được kết quả như Bảng 13:
Bảng 13: Bảng kết quả Tt
28
4.1.4 Kết quả dự báo
- Thực hiện dự báo với công thức : Yt = Tt x St
- Thực hiện tính Yt, ta thu được kết quả như Bảng 14 :
Bảng 14: Bảng kết quả Yt = St * Tt
-Ta thực hiện dự báo cho quý 2, 3, 4 năm 2019, vớ kết quả dự báo như Bảng 15:
Bảng 15: Bảng kết quả dự báo quý 2,3,4 năm 2019
29
- Tiếp tục dự báo từ năm 2020 đến năm 2026, có bảng kết quả Bảng 16:
Bảng 16: Bảng kết quả dự báo quý năm 2020 đến 2026
- Biểu đồ minh họa của quá trình thực hiện mô hình dự báo được thể hiện như
Hình 6 :
Hình 6: Biểu đồ kết quả mô hình dự báo doanh thu Golf từ 2003 đến 2026
30
4.2 Xây dựng ứng dụng dự báo theo mô hình ARIMA
4.2.1 Xây dựng chương trình phân tích và dự báo dự báo doanh thu
hiện thực bằng Python
4.2.1.1 Khai báo thư viện và xử lý số liệu :
- Khai báo thư viện :
# coding=utf-8
import warnings
import itertools
import pandas as pd
import numpy as np
import statsmodels.api as sm
import matplotlib.pyplot as plt
plt.style.use('bmh')
import statsmodels.api as sm
import statsmodels.tsa.api as smt
import statsmodels.formula.api as smf
from statsmodels.graphics.tsaplots import plot_acf
from statsmodels.graphics.tsaplots import plot_pacf
from statsmodels.tsa.stattools import adfuller
from statsmodels.tsa.seasonal import seasonal_decompose
from statsmodels.tsa.ar_model import AR
from statsmodels.tsa.arima_model import ARMA, ARIMA
from statsmodels.tsa.statespace.sarimax import SARIMAX
from math import sqrt ,[8]
Khai báo đường dẫn file CSV và tạo datafarm [9],[10]:
df = pd.read_csv('d:\caohoc\CODELUANVAN\ARIMA_Yt.csv')
dates = pd.date_range(start='2003-01-01', freq='M
Các file đính kèm theo tài liệu này:
- luan_van_xay_dung_ung_dung_phan_tich_du_bao_doanh_thu_doanh.pdf