MỤC LỤC
Lời cảm ơn 1
PHẦN I. KHÁI NIỆM DATA WAREHOUSE 2
Chương 1. Lịch sử phát triển của data warehouse 4 4
1.1. Thời kì tiền sử - trước năm 1980 7
1.2. Thời kì trung đại - từ giữa những năm 80 đến cuối những năm 80 8
1.3. Cuộc cách mạng dữ liệu - những năm đầu thập kỉ 90 10
1.4. Kỉ nguyên của quản lý dùa trên thông tin - tới những
năm của thế kỉ 21 11 11
1.5. Kết luận 13
Chương 2. Những khái niệm về data warehouse 15 15
2.1. Data warehouse là gì 15
2.2. Kiến trúc của data warehouse 18
2.2.1. Kiến trúc cơ bản18 18
2.2.2. Kiến trúc data warehouse có thêm
líp data mart và bước đệm xử lý20 20
Chương 3. Kiến trúc dữ liệu của data warehouse 29 29
3.1. Hệ thống thông tin và hệ thống tác nghiệp 29
3.2. Kiến trúc dữ liệu của data warehouse 32
3.2.1 Mô hình dữ liệu đa chiều (multidimensional data)32 32
3.2.2. Mô hình dữ liệu thực tế của data warehouse35 35
PHẦN II. XÂY DỰNG DATA WAREHOUSE CHO CHỦ ĐỀ "HỢP ĐỒNG
KHAI THÁC" CHO CÔNG TY BẢO VIỆT NHÂN THỌ 39
Chương 4. Tìm hiểu vấn đề 41
4.1. Đặc điểm của công ty Bảo Việt Nhân Thọ 41
4.2. Hệ thống dữ liệu hiện nay 45
Chương 5. Mô hình xây dựng Data Warehouse
cho chủ đề "Hợp đồng khai thác" 47
5.1. Mô hình tổng quát 47
5.2. Mô hình chi tiết 48
Chương 6. Triển khai mô hình và kết quả 56
6.1. Mô hình dữ liệu 56
6.1.1. Mô hình dữ liệu data source57 57
6.1.2. Mô hình dữ liệu data warehouse58 58
6.1.3. Mô hình dữ liệu staging area61 61
6.2. Chương trình triển khai 63
6.3. Kết quả 69
Kết luận 71
Tài liệu tham khảo 72
69 trang |
Chia sẻ: maiphuongdc | Lượt xem: 5497 | Lượt tải: 1
Bạn đang xem trước 20 trang tài liệu Đề tài Xây dựng data warehouse, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
c. Mỗi một lần làm động tác "chụp ảnh" là một lần dữ liệu được cập nhật vào data warehouse. Có nhiều cách để ghi lại sự thay đổi về dữ liệu trong data warehouse. Dữ liệu có thể được :
Sao lưu toàn bộ sau mỗi chu kì kinh doanh.
Chỉ ghi nhận những phần khác biệt.
Tạo mét tem thời gian cho mỗi lần thay đổi.
Cài đặt thêm các tác nhân (trigger) vào cơ sở dữ liệu để "bắt" các thay đổi ở mức dữ liệu và tạo ra file log để lưu các thay đổi này.
Đây là một vấn đề khó khăn và phức tạp đối với người xây dựng hệ quản trị cơ sở dữ liệu. Nó cũng là một trong những vấn đề kĩ thuật nan giải cần phải giải quyết trong công nghệ data warehouse.
d) Líp Data mart :
Về cơ bản có thể định nghĩa Data mart là một data warehouse ở phạm vi phòng ban hay vùng. Dữ liệu lưu trong data mart cũng chính là một phần dữ liệu lưu trong data warehouse. Thực chất chúng có cùng cấu trúc. Chỉ có một điểm khác biệt nhỏ là trong data mart dữ liệu được tổng hợp sẵn theo một lĩnh vực nào đó và chỉ phục vụ cho một nhóm người nhất định trong tổ chức nhằm phục vụ những yêu cầu kinh doanh đặc biệt.
Data mart được chia làm hai loại là data mart phục thuộc (dependent) và data mart độc lập (independent). Tính độc lập hay phụ thuộc ở đây ngụ ý rằng nó được xây dựng một cách độc lập hay được xây dựng từ data warehouse. Nhiều doanh nghiệp chọn giải pháp xây dựng data mart độc lập rồi mới xây dựng data warehouse. Điều này làm giảm đáng kể chi phí ban đầu cũng như độ phức tạp của dự án vì thông thường data mart có qui mô nhỏ hơn, dễ quản lí hơn và cũng dễ xây dựng hơn.
Trong mô hình kiến trúc của data warehouse thì líp data mart nằm giữa líp người dùng và líp data warehouse thực chất là data mart phụ thuộc. Data mart này đã được chuẩn bị sẵn để phục vụ một số nhu cầu đã được tính trước ở mức phòng ban. Người sử dụng data mart này cũng là những người dùng có nhu cầu cụ thể trong một vài lĩnh vực nào đó. Do vậy, data mart được xem là có cấu trúc ở mức phòng ban còn data warehouse có cấu trúc mức doanh nghiệp. Điểm khác biệt về cấu trúc này còn được thể hiện ở chỗ dữ liệu trong data warehouse được thể hiện dưới dạng sao, bông tuyết trong khi đó ở data mart dữ liệu thường được thể hiện dưới dạng hộp hay đa chiều.
e) Tiến trình phân bổ dữ liệu đến người dùng cuối :
Mục tiêu chính khi xây dựng data warehouse chính là để khai thác thông tin, chính vì thế tiến trình phân bổ dữ liệu đến người dùng cuối là tiến trình có nhiều ý nghĩa hơn cả. Tuy nhiên, data warehouse thực chất là một hệ quản trị cơ sở dữ liệu được tăng cường các tính năng đặc biệt để đáp ứng yêu cầu của nhiệm vụ mới, chính vì thế bản thân nó không có chức năng khai thác.
Mặc dù người dùng cuối hoàn toàn có thể dùng các câu lệnh truy vấn dữ liệu SQL để khai thác dữ liệu trong data warehouse nhưng điều đó là không khả thi và không có ý nghĩa khi mà khối lượng dữ liệu cần truy xuất là rất lớn và yêu cầu về dữ liệu lại phức tạp, đa dạng. Chính vì vậy, thông thường tiến trình phân bổ dữ liệu thường do một chương trình khai thác dữ liệu riêng biệt đảm trách. Các chương trình này thường được gọi là OLAP server để chỉ rõ rằng chúng là những ứng dụng OLAP và có nhiệm vụ như một server dữ liệu.
Tiến trình phân bổ dữ liệu được chia thành hai tiến trình nhá :
Tiến trình phân bổ dữ liệu vào data mart : tiến trình này do data warehouse đảm nhiệm, có nghĩa là nó có thể được thực hiện một cách tự động và chính xác bởi các thủ tục được cài sẵn trong data warehouse mà không cần sự can thiệp từ bên ngoài. Các thủ tục này cần phải được viết trước.
Tiến trình phân bổ dữ liệu tới người dùng cuối : người dùng cuối có thể khai thác trực tiếp dữ liệu từ data warehouse thông qua các công cụ khai thác OLAP, đồng thời họ cũng có thể lấy dữ liệu từ data mart. Trong trường hợp này do được phân hoạch và tổng hợp sẵn nên tốc độ truy xuất cũng như hiệu quả công việc sẽ cao hơn. Những báo cáo nhiều chiều định kì hoàn toàn có thể được thực hiện nhanh chóng thông qua việc truy xuất data mart.
g) Líp ứng dông :
Khi xây dựng một hệ thống mới người ta thường phải tính đến lợi tức đầu tư (ROI). Với data warehouse cũng vậy, sẽ là rất tốn kém và Ýt hiệu quả nếu chỉ có một số lượng Ýt người dùng có thể truy xuất dữ liệu từ data warehouse. Nghịch lí về đầu tư và thu hoạch trong data warehouse chỉ có thể được giải quyết khi rất nhiều người sử dụng cùng có thể khai thác được data warehouse. Đây chính là lÝ do khiến cho việc phát triển các ứng dụng sử dụng data warehouse trở nên sôi động và phát triển mạnh mẽ hơn lúc nào hết. Sau đây chúng ta xem xét một số líp ứng dụng chính với mục đích giới thiệu chứ không đi vào chi tiết.
Sử dông intranet, internet : để đưa được thông tin đến với nhiều người dùng thì cách thức tốt hơn cả là sử dụng mạng thông tin. Intranet là cách thức đầu tiên được nghĩ tới bởi nó vừa có khả năng nhanh chóng đưa thông tin tới người dùng cuối lại vừa có tính an toàn cao. Mạng nội bộ của công ty là mảnh đất màu mỡ để khai thác và đưa các ứng dụng data warehouse đến với người dùng. Tiếp đến sẽ là sử dụng Internet và các giao thức truyền thông cơ bản trên Internet. Thế mạnh nổi trội của các ứng dụng sử dụng Internet là không cần cài đặt một ứng dụng đặc biệt nào ở phía người sử dụng. Toàn bộ ứng dụng có thể cài đặt ở phía server ứng dụng Web. Việc cập nhật, chỉnh sửa và phát triển ứng dụng hoàn toàn độc lập với người dùng. Cho đến nay các ứng dụng chạy trên web mà cụ thể là chuỵ trên giao thức HTTP (HyperText Transfer Protocol) đang được phát triển một cách nhanh chóng và đã trở nên không thua kém gì các ứng dụng chạy trên mô hình khách/chủ về mặt giao diện cũng như độ phức tạp. Các hãng sản xuất hệ quản trị cơ sở dữ liệu nổi tiếng cũng như nhiều hãng thứ ba khác đã chế tạo rất nhiều công cụ cho phép lập trình viên có thể dễ dàng viết các ứng dụng trên web truy xuất cơ sở dữ liệu hoặc đơn giản hơn là chỉ cần dịch lại các chương trình chạy trên mô hình khách/chủ thành ứng dụng chạy trên web.
Sử dụng các phần mềm đầu cuối : các phần mềm đầu cuối là các phần mềm giao tiếp trực tiếp với người dùng cuối. Số lượng và chủng loại của các phần mềm kiểu này hiện nay rất đa dạng. Chúng có thể hỗ trợ những tác vụ từ đơn giản như lập các báo cáo, tìm duyệt dữ liệu hay phức tạp hơn như hỗ trợ các câu truy vấn phức tạp đặc biệt hoặc cũng có thể là những phần mềm chuyên dụng để khai phá tri thức, hỗ trợ quyết định sử dụng data warehouse.
Như vậy nhìn tổng thể ta có thể thấy được kiến trúc của data warehouse là khá phức tạp. Mô hình cho thấy theo chiều hướng từ trái qua phải thì tính thông tin của dữ liệu ngày càng được thể hiện rõ hơn và tại líp ứng dụng, người dùng cuối được sự hỗ trợ của các công cụ khai thác dữ liệu có thể dễ dàng lấy được các thông tin trong data warehouse.
Kiến trúc của data warehouse được đề cập ở phần trên chỉ là một mô hình có cấu trúc tổng quát. Về cơ bản nó có thể được áp dụng cho mọi mô hình data warehouse. Tuy nhiên, mỗi một hãng làm data warehouse lại có những ý tưởng riêng và thường xây dựng mô hình riêng cho hãng của mình.
CHƯƠNG 3
KIẾN TRÚC DỮ LIỆU CỦA DATA WAREHOUSE
Trong chương này chúng ta sẽ so sánh sự khác nhau giữa hệ thống thông tin và hệ thống tác nghiệp, sau đó ta sẽ nghiên cứu kiến trúc dữ liệu của data warehouse để thấy rõ sự khác nhau của nó với cơ sở dữ liệu tác nghiệp.
3.1. HỆ THỐNG THÔNG TIN VÀ HỆ THỐNG TÁC NGHIỆP :
Rất có thể là khái niệm qua trọng nhất khi nhận thức về data warehouse chính là việc có hai loại hệ thống cơ bản trong tất cả các tổ chức : hệ thống thông tin và hệ thống tác nghiệp. Hai hệ thống này mặc dù khác nhau cơ bản về mục đích sử dụng, phương thức vận hành cũng như cấu trúc bên trong nhưng chúng lại thường có những mối liên hệ chặt chẽ.
Hệ thống tác nghiệp (operational system) : bản thân cái tên đã nói lên được bản chất của chúng. Chúng là những hệ thống giúp vận hành doanh nghiệp hàng ngày. Chúng là trụ cột của bất kì một doanh nghiệp nào. Các hóa đơn nhập, các bảng kê hàng, các mẫu thiết kế, bảng lương, bảng quyết toán cuối kì, ... tất cả đều phải được tạo ra bởi hệ thống tác nghiệp. Chính bởi vai trò quan trọng đối với toàn bộ doanh nghiệp mà hệ thống tác nghiệp luôn là hệ thống đầu tiên được điện toán hóa. Theo thời gian, những hệ thống tác nghiệp đó được mở rộng, viết lại, tăng cường tính năng cũng như được tiếp tục bảo trì để đảm bảo rằng chúng hoàn toàn thích ứng được với sự phát triển của doanh nghiệp. Trên thực tế, hầu hết các doanh nghiệp lớn trên thế giới hiện nay đều không thể vận hành được nếu không nhờ đến sự hỗ trợ của hệ thống tác nghiệp được điện toán hóa và những số liệu mà hệ thống này đang lưu trữ, xử lý.
Dữ liệu của hệ thống tác nghiệp thường được lưu trữ trong cơ sở dữ liệu quan hệ. Mặc dù chúng có thể được lưu trữ trong một số loại cơ sở dữ liệu khác nhau, thậm chí là trong các tệp tin phẳng (flat file) nhưng thực tế cho thấy sử dụng cơ sở dữ liệu quan hệ là cách thức tốt nhất để xây dựng một hệ thống tác nghiệp.
Sau đây là một vài tính chất của dữ liệu tác nghiệp (operational data) :
Thường xuyên được cập nhật thông qua các giao dịch trực tuyến.
Được tối ưu hóa để thực thi các tác vụ giao dịch.
Được chuẩn hóa cao, dễ dàng cập nhật và bảo trì.
Tuy nhiên, không chỉ có vậy, doanh nghiệp trong quá trình phát triển của mình còn cần phải thực hiện một số hoạt động khác như lập kế hoạch, dự đoán tương lai và tổ chức quản lý doanh nghiệp mình. Những hoạt động này cũng là những nhiệm vụ có tầm quan trọng sống còn với hệ thống, đặc biệt là trong một thế giới đang phát triển một cách nhanh chóng như hiện nay. Những chức năng như "lập kế hoạch marketing", "lập kế hoạch phát triển" hay "phân tích tình hình tài chính" đều cần đến sự trợ giúp của hệ thống thông tin. Nhưng rõ ràng những chức năng này khác hẳn so với những chức năng mà hệ thống tác nghiệp đang đảm nhiệm, đồng thời loại hệ thống và thông tin sử dụng cũng khác biệt. Ngoài ra cơ sở tri thức cũng là một phần của hệ thống thông tin.
Hệ thống thông tin (informational system) : thực hiện các công việc phân tích dữ liệu và hỗ trợ quyết định. Thông thường những quyết định này là về cách thức hoạt động của doanh nghiệp hiện nay và trong tương lai. Không chỉ mục đích sử dụng của hệ thống thông tin khác với mục đích sử dụng của hệ thống tác nghiệp mà quy mô của chúng cũng khác nhau. Trong khi dữ liệu trong hệ thống tác nghiệp cần dùng trải ra trong một miền rộng thì dữ liệu trong hệ thống thông tin chỉ được hình thành từ tập dữ liệu tác nghiệp giàu có đã được sử dụng trong doanh nghiệp trong nhiều năm và một số nguồn dữ liệu khác bên ngoài doanh nghiệp. Dữ liệu thông tin là nguồn tạo ra data warehouse, chúng có một số đặc điểm sau :
Tổng hợp dữ liệu từ nguồn dữ liệu tác nghiệp.
Là dữ liệu phi chuẩn và đã được sao lại.
Không thường xuyên được cập nhật như trong dữ liệu tác nghiệp.
Tối ưu hóa để chạy các ứng dụng hỗ trợ quyết định.
Rất có thể là loại chỉ cho ghi mà không cho phép sửa.
Được lưu trữ trong một hệ thống riêng biệt để giảm thiểu mối liên hệ với hệ thống tác nghiệp.
Sau đây là bảng tổng hợp so sánh giữa hệ thống tác nghiệp và hệ thống thông tin theo các tiêu chí khác nhau :
Tiêu chí so sánh
Hệ thống tác nghiệp
Hệ thống thông tin
Số lượng các giao dịch
Lớn
Từ nhỏ đến cực lớn
Thời gian đáp ứng
Rất nhanh
Từ chấp nhận được đến rất nhanh
Cập nhật dữ liệu
Nhiều
Định kì hoặc real time
Thời gian tác dụng
Hiện tại
Từ quá khứ, hiện tại cho đến tương lai
Phạm vi dữ liệu
Trong doanh nghiệp
Cả bên trong và bên ngoài doanh nghiệp
Hoạt động chính
Tập trung, ghi chép, tính toán
Hỗ trợ quyết định
Các câu hỏi truy vấn
Dự đoán được, định kì
Không dự đoán được, phức tạp
Trong những năm gần đây, cùng với data warehouse, bắt đầu phát triển từ những ý tưởng sơ khai trở thành một công nghệ cung cấp thông tin cho doanh nghiệp và những người dùng cuối, hệ thống thông tin cũng có một vai trò mới quan trọng hơn - cung cấp nguồn thông tin để kiến tạo tri thức cho doanh nghiệp trong kinh doanh.
3.2. KIẾN TRÚC DỮ LIỆU CỦA DATA WAREHOUSE :
3.2.1. MÔ HÌNH DỮ LIỆU ĐA CHIỀU (MULTIDIMENSIONAL DATA) :
Trong cơ sở dữ liệu quan hệ, các thực thể được mô tả bằng các bảng (còn gọi là các quan hệ). Một bảng gồm nhiều cột và nhiều dòng, mỗi cột thể hiện một thuộc tính còn mỗi dòng đại diện cho một thực thể trong líp thực thể được định nghĩa bởi chính bảng ghi đó.
Ví dô :
Mã công ty con
Tên công ty con
Tỉnh
LD01
Vĩnh Tiến
Lâm Đồng
KH03
Nam Khang
Khánh Hòa
BT01
Vĩnh Lâm
Bình Thuận
Mặc dù bảng này có ba cột chứa thông tin nhưng mỗi ô chứa thông tin chỉ thuộc về một công ty con. Chóng ta có thể thấy rằng mỗi công ty con chỉ nằm trên một tỉnh mà thôi.
Bây giê ta hãy xem xét bảng sau :
Sản phẩm
Cửa hàng
Số lượng
Vở học sinh
Tân Tiến
1000
Vở học sinh
Vĩnh Giang
1500
Vở học sinh
Đại Nam
1200
Thước kẻ
Tân Tiến
500
Thước kẻ
Vĩnh Giang
600
Thước kẻ
Đại Nam
800
Bót bi
Tân Tiến
2000
Bót bi
Vĩnh Giang
2600
Bót bi
Đại Nam
1800
Máy tính
Tân Tiến
150
Máy tính
Vĩnh Giang
120
Máy tính
Đại Nam
200
Ta thấy rằng bảng này khác hẳn bảng trước và với loại bảng như thế này nếu dùng kiểu hiển thị dữ liệu ma trận hai chiều hàng, cột thì người xem có thể dễ hiểu hơn.
Tân Tiến
Vĩnh Giang
Đại Nam
Vở học sinh
1000
1500
1200
Thước kẻ
500
600
800
Bót bi
2000
2600
1800
Máy tính
150
120
200
Với việc tổ chức dữ liệu thành ma trận hai chiều như thế này, công việc tổng hợp dữ liệu được thực hiện một cách rõ ràng và nhanh chóng. Ví dô ta muốn tính tổng số hàng đã bán ra theo chủng loại hay theo cửa hàng hoặc là tổng tất cả mặt hàng đã bán được thì ta chỉ việc cộng các số liệu theo hàng và cột để được số liệu tổng.
Tân Tiến
Vĩnh Giang
Đại Nam
Tổng sè
Vở học sinh
1000
1500
1200
3700
Thước kẻ
500
600
800
1900
Bót bi
2000
2600
1800
6400
Máy tính
150
120
200
470
Tổng sè
3650
4820
4000
12470
Việc hiển thị và lưu trữ dữ liệu kiểu này sẽ làm giảm đáng kể thời gian tổng hợp số liệu và vì vậy có ý nghĩa to lớn trong việc sử dụng. Hơn nữa cách thức hiển thị như vậy rất gần gũi với người dùng, đặc biệt với những mẫu dữ liệu dạng số có thể hiển thị chúng bằng biểu đồ khiến người dùng dễ dàng hình dung hơn.
Nếu như người sử dụng cần thêm thông tin về thời gian nữa thì một chiều thời gian nữa sẽ được thêm vào và lúc đó ta sẽ có mô hình dữ liệu đa chiều. Trong dữ liệu đa chiều, mét "phần tử" hay một ô dữ liệu thường được đặc trưng bởi một giá trị đi kèm với nó là một tổ hợp các giá trị chiều. Trong ví dụ này, "phần tử số lượng" được thể hiện bởi một con số và đi kèm với nó là một tổ hợp 3 chiều (mặt hàng, công ty, thời gian). Có thể xem chiều trong dữ liệu đa chiều tương tự như khái niệm trường trong dữ liệu quan hệ. Với mỗi tổ hợp các chiều ta có một giá trị của phần tử tương ứng. Giá trị này thường là biến đổi, trong khi đó các chiều chỉ nhận một số giá trị xác định và có thể đoán trước.
Việc biểu diễn dữ liệu theo kiến trúc dữ liệu đa chiều cho phép ta dễ dàng phân tích dữ liệu theo dạng ma trận hàng, cột. Động tác này được gọi là thái mỏng dữ liệu. Sở dĩ người ta sử dụng cái tên này là vì động tác ngày cũng giống như ta cắt ra một lát từ hình hộp dữ liệu đa chiều. Vì vậy mà dữ liệu trong data warehouse theo logic cũng sẽ được lưu trữ dưới dạng đa chiều.
3.2.2. MÔ HÌNH DỮ LIỆU THỰC TẾ CỦA DATA WAREHOUSE :
Cơ sở dữ liệu quan hệ đã tồn tại và phát triển trong một thời gian dài, nó đã chứng tỏ được thế mạnh của mình và thống lĩnh được thị trường, vì vậy hầu hết các hệ quản trị cơ sở dữ liệu đều sử dụng hoặc có nhân là công nghệ dữ liệu quan hệ. Tuy nhiên, để xây dựng được data warehouse thì dữ liệu cần phải là đa chiều, vì vậy ta có một số mô hình dữ liệu sau của data warehouse :
a) Mô hình dạng sao (star schema) :
Mô hình dạng sao, như cái tên của nó, có dạng hình sao. Trung tâm là một bảng sự kiện (fact table), xung quanh là các bảng chiều (dimension table) trỏ vào nó. Thông thường mỗi vùng chủ đề trong data warehouse thường xoay quanh một bảng sự kiện trung tâm. Các bảng vệ tinh xung quanh là các nhánh của bảng sự kiện có nhiệm vụ mô tả chi tiết hơn thành phần sự kiện trong bảng. Bảng sự kiện được phát hiện bằng cách phân tích công việc kinh doanh của công ty. Với mỗi công việc hoặc một tiến trình chính của công ty thường sẽ có một bảng sự kiện mô tả chi tiết tiến trình đó.
Trong ví dụ mô hình dạng sao đơn giản ở trên thì bảng sự kiện cho biết số lượng hàng bán ra và số tiền thu được ứng với các giá trị chiều là thời gian, loại sản phẩm, khách mua hàng và kênh phân phối hàng. Với mô hình như thế này thì ta có thể tính toán rất nhanh các thông số tổng hợp về số lượng bán hàng và tiền thu được, bên cạnh đó nó cũng cho ta biết được tình hình kinh doanh của công ty trong một thời gian dài. Bảng sự kiện tham chiếu đến các bảng khác thông qua các liên kết sử dụng khóa chính và khóa ngoại mà chúng ta đã rất quen thuộc.
Như vậy, với mỗi thay đổi về giá trị tại các bảng chiều sẽ cho ta một giá trị mới trong bảng sự kiện. Chẳng hạn, nếu khách hàng mua hai sản phẩm trong cùng một lần thì sẽ có hai dòng trong bảng sự kiện mô tả giao dịch này. Mỗi dòng sẽ chứa lượng hàng bán và lượng tiền thu về, đồng thời tham chiếu đến các dòng chứa loại sản phẩm tương ứng trong bảng chiều sản phẩm. Nói chung là bảng sự kiện thường có dung lượng rất lớn và tăng kích cỡ liên tục, vì vậy khi thiết kế cần chú ý tới điều này.
Vậy thiết kế dữ liệu theo mô hình dạng sao rất khác với mô hình dữ liệu truyền thống vì rõ ràng mô hình dữ liệu truyền thống không cần bộ nhớ lưu trữ dữ liệu nhiều đến thế. Khác biệt này là do mục tiêu của data warehouse là cho phép người dùng cuối tìm kiếm, khai thác và xử lý thông tin một cách nhanh nhất. Người dùng cuối sẽ không quan tâm đến vấn đề giao dịch đó được diễn ra như thế nào, cái mà họ muốn biết là kết quả tổng hợp của chúng như : lượng hàng bán ra được theo vùng, doanh thu theo kì hay phân bố của nhóm khách hàng cùng mua một loại sản phẩm nào đó ... Để trả lời những câu hỏi kiểu như vậy cần một khối lượng dữ liệu rất lớn và cần thành lập những câu hỏi truy vấn phức tạp nếu ta vẫn cứ sử dụng mô hình dữ liệu kiểu truyền thống. Lúc đó vấn đề tốc độ sẽ trở nên quan trọng. Hệ quản trị cơ sở dữ liệu sẽ không thể đáp ứng được cùng một lúc nhiều câu hỏi truy vấn kiểu như vậy tại một thời điểm. Vì vậy cần tập hợp dữ liệu lại theo cấu trúc mà người dùng cần chứ không phải theo kiểu mô tả chính xác nhất các hoạt động của hệ thống.
b) Mô hình dữ liệu dạng bông tuyết :
Thực chất mô hình này chỉ là một biến thể của mô hình dạng sao. Thay vì các cánh sao chỉ gồm một bảng chiều thì các bảng chiều này lại được phân cấp thêm.
Ví dụ như các bảng chiều sản phẩm và khách hàng muốn phân cấp thêm thành loại sản phẩm và loại khách hàng.
Điểm khác biệt cơ bản giữa mô hình dạng bông tuyết và dạng sao là ở chỗ các chiều trong mô hình dạng bông tuyết được tách thành các cấp khác nhau. Nhờ vậy khối lượng cần lưu giữ sẽ được giảm đi. Tuy nhiên đó không phải là lợi Ých chính của mô hình dạng bông tuyết. Lợi Ých chính của mô hình dạng này là ở chỗ nó tạo ra một cái nhìn đầy đủ về phân cấp trong các chiều. Với mô hình này mỗi chiều được phân thành nhiều cấp và vì vậy việc khai thác dữ liệu ở mức chi tiết cũng như tổng hợp dữ liệu dễ dàng hơn. Người dùng không phải cố gắng hình dung các cấp trong mỗi chiều mà tự bản thân nó đã được mô hình hóa theo kiểu này.
Trở ngại lớn nhất khi triển khai mô hình dạng bông tuyết là vấn đề tốc độ. Đáng tiếc là nếu càng có nhiều quan hệ thì tốc độ truy vấn dữ liệu lại càng chậm, mà tốc độ lại là vấn đề sống còn khi thiết kế data warehouse. Do vậy, thông thường người ta tìm cách tránh sử dụng mô hình dạng bông tuyết. Tuy nhiên, đối với những người vốn đã quen với mô hình dữ liệu quan hệ và việc chuẩn hóa thì mô hình dạng bông tuyết gần gũi hơn và trên thực tế nhiều người thích sử dụng chúng hơn.
Cần phải nói lại rằng tiêu chí cho việc lùa chọn mô hình là tốc độ và dung lượng bộ nhớ lưu trữ. Ta có thể biến một mô hình dạng bông tuyết về dạng sao và ngược lại mà không làm ảnh hưởng gì tới ngữ nghĩa của dữ liệu. Nếu một khi đặt vấn đề tốc độ lên hàng đầu thì ta nên chọn mô hình dạng sao.
PHẦN II. XÂY DỰNG DATA WAREHOUSE
CHO CHỦ ĐỀ "HỢP ĐỒNG KHAI THÁC"
CHO CÔNG TY BẢO VIỆT NHÂN THỌ
Sau khi đã tìm hiểu các khái niệm về data warehouse ở ba chương đầu, phần tiếp theo sẽ được giành để nói về những công việc thực tế mà em đã làm được trong quá trình thực tập tại phòng tin học Tổng công ty Bảo Hiểm Việt Nam, đó là việc xây dựng data warehouse cho chủ đề "Hợp đồng khai thác" cho công ty Bảo Việt Nhân Thọ.Tæng c«ng ty B¶o HiÓm ViÖt Nam, ®ã lµ viÖc x©y dùng data warehouse cho chñ ®Ò "Hîp ®ång khai th¸c" cho c«ng ty B¶o ViÖt Nh©n Thä.
Phần này gồm 3 chương cuối của bản đồ án tốt nghiệp :
Chương 4. Tìm hiểu vấn đề : chương này sẽ nói qua đặc điểm và hệ thống dữ liệu hiện tại của công ty Bảo Việt Nhân Thọ, nó giúp cho người đọc có được cái nhìn sơ bộ về thực trạng của công ty trước khi xây dựng data warehouse.
Chương 5. Mô hình xây dựng Data Warehouse cho chủ đề "Hợp đồng khai thác" : chương này sẽ trình bày về mô hình mà em đã lùa chọn để xây dựng data warehouse và lý do tại sao. Chương này sẽ giúp người đọc hình dung được các bước cần phải thực hiện trong quá trình xây dựng data warehouse và công việc của mỗi bước thực hiện.
Chương 6. Triển khai mô hình và kết quả : chương cuối cùng của đồ án sẽ đề cập chi tiết tới mô hình dữ liệu, chương trình dùng để thực thi các tiến trình và các kết quả đạt được trong quá trình xây dựng data warehouse.
Phần đầu tiên là mô hình dữ liệu của phần nguồn, phần trung gian và của data warehouse cho chủ đề "Hợp đồng khai thác".
Tiếp theo là phần chương trình để thực hiện các tiến trình tải dữ liệu từ nguồn dữ liệu vào data warehouse.
Phần cuối cùng sẽ là các kết quả đạt được trong quá trình xây dựng data warehouse.
CHƯƠNG 4
TÌM HIỂU VẤN ĐỀ
4.1. ĐẶC ĐIỂM CỦA CÔNG TY BẢO VIỆT NHÂN THỌ :
Trước khi tìm hiểu đặc điểm của công ty Bảo Việt Nhân Thọ, ta hãy tìm hiểu sơ qua đặc thù của ngành kinh doanh bảo hiểm.
Xét dưới góc độ kinh doanh hiện nay thì bảo hiểm là một ngành còn non trẻ khi so sánh với các ngành kinh doanh khác. Tuy nhiên, nếu xét từ góc độ mức độ phát triển thì bảo hiểm lại là một ngành kinh doanh lớn và có doanh thu thuộc hàng cao nhất trong các ngành kinh doanh. Bảo hiểm nhân thọ mới chỉ được phát triển từ những năm đầu của thế kỉ 19 còn bảo hiểm y tế thì mới chỉ được ra đời vào đầu thế kỉ 20. Tuy nhiên thì theo thời gian doanh thu của bảo hiểm nhân thọ đã tăng trưởng mạnh mẽ và bảo hiểm y tế cũng phát triển tương tự.
Nguyên nhân cơ bản dẫn đến sự phát triển mạnh mẽ này nằm ở bản chất của sản phẩm bảo hiểm. Tất cả các sản phẩm bảo hiểm đều cung cấp sự bảo vệ trước những rủi ro kinh tế hoặc mất mát. Chính vì thế bảo hiểm đáp ứng được nhu cầu của mọi người. Ngành kinh doanh bảo hiểm tạo dựng, cung cấp, chỉnh sửa, cập nhật các sản phẩm bảo hiểm một cách thường xuyên để đáp ứng những nhu cầu đó. Có rất nhiều hình thức và chủng loại sản phẩm bảo hiểm nhưng tất cả chúng đều có một điểm chung là cung cấp sự bảo vệ về mặt tài chính trước những mất mát, rủi ro.
Về mặt bản chất, một hợp đồng bảo hiểm là một bản giao kèo, bản thỏa thuận có tính pháp lí, trong đó công ty kinh doanh bảo hiểm đồng ý sẽ trả một khoản tiền nào đó gọi là khoản tiền bồi thường từ hợp đồng bảo hiểm cho khách khi có tổn thất xảy ra với điều kiện là người tham gia bảo hiểm phải đóng một khoản tiền nào đó. Bằng cách đó những rủi ro đã được chuyển sang phía công ty bảo hiểm.
Một hợp đồng bảo hiểm thường có hai nhân vật : người tham gia bảo hiểm là người trả các khoản phí bảo hiểm qui định trong hợp đồng bảo hiểm và người được hưởng quyền lợi bảo hiểm là người sẽ được nhận những khoản bồi thường quy định trong hợp đồng. Cố nhiên là hai nhân vật này cũng có thể chỉ là một người. Tuy nhiên, trong trường hợp bảo hiểm nhân thọ do đối tượng được bảo hiểm lại chính là con người nên có thêm một nhân vật nữa là người được bảo hiểm hay còn gọi là đối tượng bảo hiểm.
Nhìn chung ngành bảo hiểm được chia thành ba nhánh : bảo hiểm nhân thọ, bảo hiểm y tế và bảo hiểm tài sản. Bảo hiểm nhân thọ bồi thường một khoản tiền nào đó cho người được hưởng quyền lợi bảo hiểm trong trường hợp có rủi ro xảy đến với người được bảo hiểm. Bảo hiểm y tế bồi thường một khoản tiền cho người được hưởng quyền lợi bảo hiểm trong trường hợp người được hưởng quyền lợi bảo hiểm bị ốm hay tai nạn. Bảo hiểm tài sản bồi thường cho những tài sản được bảo hiểm trong trường hợp tài sản đó bị hư háng hay tổn thất do các nguyên nhân khách quan hoặc/và chủ quan. Ngoài ra còn một loại bảo hiểm nữa là bảo hiểm trách nhiệm dân sự. Bảo hiểm trách nhiệm dân sự sẽ thay mặt người được bảo hiểm lĩnh nhận một phần hoặc toàn bộ trách nhiệm dân sự trong trường hợp người được bảo hiểm phải chịu trách nhiệm pháp lí đối với những tổn thất mà họ đã gây ra.
Sau khi đã có được những khái niệm cơ bản về ngành kinh doanh bảo hiểm, ta sẽ xem xét toàn cảnh của ngành kinh doanh bảo hiểm hiện nay bằng việc tập trung vào năm lĩnh vực chủ yếu là : marketing, phân phối, dịch vụ khách hàng, sức sống của tổ chức và năng lực cạnh tranh.
Marketing : Thị trường bảo hiểm ngày càng trở nên sôi
Các file đính kèm theo tài liệu này:
- T45.doc