Bài giảng Khai phá dữ liệu Web - Giới thiệu môn học - Hà Quang Thụy

Giới thiệu sơ bộ về sách tiểu luận

Tác giả:

 - David Easley, Jon Kleinberg (*)

 - Cornell University, New York, USA

Các chủ đề chính

 - Mạng xã hội: mạng, đám đông, hành vi

 - Kinh doanh: Thị trường, tiếp thị, đấu thầu

 - Lý thuyết trò chơi áp dụng trong kinh doanh

Nội dung: 6 phần chính

Đồ thị và mạng xã hội

Lý thuyết trò chơi

Thị trường và tương tác chiến lược trong mạng

Mạng thông tin và Web

Hệ động lực mạng: mô hình dân cư, mô hình cấu trúc

Tổ chức và tổng hợp hành vi

Lý do lựa chọn

 - Cung cấp nội dung mở rộng khai phá Web tới mạng xã hội, kinh doanh

 - Khó khăn: nhiều thuật ngữ xã hội học, kinh tế học

ppt13 trang | Chia sẻ: trungkhoi17 | Lượt xem: 568 | Lượt tải: 0download
Bạn đang xem nội dung tài liệu Bài giảng Khai phá dữ liệu Web - Giới thiệu môn học - Hà Quang Thụy, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
BÀI GIẢNG KHAI PHÁ DỮ LIỆU WEB GIỚI THIỆU MÔN HỌC – K18 PGS. TS. HÀ QUANG THỤYHÀ NỘI 09-2012TRƯỜNG ĐẠI HỌC CÔNG NGHỆĐẠI HỌC QUỐC GIA HÀ NỘI1Giới thiệu chung về môn họcTên môn học: Khai phá dữ liệu WebSố tín chỉ: 2Tài liệu dạy - học: Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Hà Quang Thụy (chủ biên), Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009). Giáo trình Khai phá dữ liệu Web, NXBGD, Hà Nội, 2009.Tài liệu làm tiểu luậnDavid Easley, Jon Kleinberg (2010). Networks, Crowds, and Markets: Reasoning about a Highly Connected World, Cambridge University Press.Tài liệu tham khảoBing Liu (2011). Web Data Mining: Exploring Hyperlinks, Contents and Usage Data (2nd Edition), Springer. Nguyễn Hà Nam, Nguyễn Trí Thành, Hà Quang Thụy (2012). Giáo trình khai phá dữ liệu, ĐHQGHN.2Vị trí của môn học CTĐT ThS HTTT3Vị trí của môn học CTĐT ThS HTTT4Nội dung môn học5Khai phá Text và khai phá Web: khái niệm, đặc trưng và phân loạiMột số kiến thức Toán học cho khai phá dữ liệu web: Toán học Internet, Mô hình đồ thị, Học máy xác suất Bayes Khai phá sử dụng web: Phân tích mẫu truy nhập Web, Phân tích xu hướng cá nhân,Khai phá cấu trúc Web: Khai phá đồ thị Web, Khai phá cấu trúc trang WebCác phương pháp biểu diễn văn bản và một số vấn đề về xử lý ngôn ngữ tiếng Việt cho khai phá dữ liệu web.Hệ thống tìm kiếm trên web: Bài toán, Cấu trúc và hoạt động của máy tìm kiếm, Crawling trang web, Phân tích và đánh chỉ số, Tính hạng trang Web, Máy tìm kiếm thực thểBài toán phân cụm, đặc điểm, yêu cầu và ứng dụng, độ đo tương tự giữa các trang Web; Các thuật toán phân cụm web điển hình và đánh giá. Một mô hình phân cụm kết quả tìm kiếm và gán nhãn cụm tiếng ViệtPhân lớp web: Bài toán phân lớp web và ứng dụng, Các thuật toán phân lớp: Phân lớp dựa trên hệ thống luật, thuật toán Bayes, cây quyết định, SVM, các thuật toán khác, phân lớp bán giám sát.Khuynh hướng phát triển của khai phá dữ liệu web. Tổ chức dạy - họcHình thức dạy-học: - Giáo viên trình bày: 9-10 buổi - Sinh viên trình bày tiểu luận: 5-6 buổiHình thức đánh giá và khung điểm - Đánh giá thường xuyên: 4 điểm + Kiểm tra giữa kỳ + Tiểu luận + Chuyên cần và đóng góp xây dựng bài - Thi cuối kỳ: 6 điểmThời gian dự kiến: 15 tuần (04/09/2012- 25/12/2012)6Giới thiệu sơ bộ về sách tiểu luậnTác giả: - David Easley, Jon Kleinberg (*) - Cornell University, New York, USACác chủ đề chính - Mạng xã hội: mạng, đám đông, hành vi - Kinh doanh: Thị trường, tiếp thị, đấu thầu - Lý thuyết trò chơi áp dụng trong kinh doanhNội dung: 6 phần chínhĐồ thị và mạng xã hộiLý thuyết trò chơiThị trường và tương tác chiến lược trong mạngMạng thông tin và WebHệ động lực mạng: mô hình dân cư, mô hình cấu trúcTổ chức và tổng hợp hành viLý do lựa chọn - Cung cấp nội dung mở rộng khai phá Web tới mạng xã hội, kinh doanh - Khó khăn: nhiều thuật ngữ xã hội học, kinh tế học7Giới thiệu về các tác giảJon Kleiberg:Trang chủ: 184/154 công trình: (09/2012)H-index : 77 ( 41 (ật toán tính hạng trang HITS (Hyperlink-Induced Topic Search) [Kle99] Jon Kleinberg (1999). Authoritative sources in a hyperlinked environment. Journal of the ACM, 46(5) : 604-632, November 1999.J. Kleinberg, E. Tardos (2005). Algorithm Design, Addison Wesley, 2005. EasleyTrang chủ: of Economics and Information Science Programdblp: 10/3 công trình: (09/2012)Microeconomic Theory8Nội dung làm việc nhóm tiểu luậnNhóm tiểu luận - Mỗi nhóm có khoảng 2-3 học viên, có nhóm trưởng - Chịu trách nhiệm hai chươngNội dung công việc - Đọc nắm bắt được các nội dung cơ bản - Làm (nộp) bài thuyết trình nội dung được phân công - Trình bày bài thuyết trình và trả lời câu hỏiTrình bày thuyết trình - Mọi sinh viên trong nhóm đều trình bày một phần nội dung - Thời gian: 30 phút cho trình bày + 20 phút cho trả lời - Mọi sinh viên khác đặt câu hỏi (Đặt câu hỏi được tính điểm chuyên cần)9Phân công các nhómNhóm 1 - Chương 1. Overview : Tổng quan (I. Lý thuyết đồ thị và mạng xã hội) - Chương 2. Graphs : Đồ thịNhóm 2 - Chương 3. Strong and Weak Ties : Liên kết mạnh và yếu - Chương 4. Networks in Their Surrounding Contexts : Mạng trong bối cảnh phụ cậnNhóm 3 - Chương 5. Positive and Negative Relationships : Quan hệ tích cực và tiêu cực (II. Lý thuyết trò chơi) - Chương 6. Games : Trò chơi10Phân công các nhómNhóm 4 - Chương 7. Evolutionary Game Theory : Lý thuyết trò chơi tiến hóa- Chương 8. Modeling Network Traffic using Game Theory : Mô hình hóa giao vận mạng bằng lý thuyết trò chơiNhóm 5 - Chương 9. Auctions : Đấu giá (III. Thị trường và chiến lược tương tác trong mạng) - Chương 10. Matching Markets : Phù hợp thị trường Nhóm 6Chương 11. Network Models of Markets with Intermediaries : Mô hình mạng của thị trường với các tác nhân trung gianChương 12. Bargaining and Power in Networks : Thương lượng và quyền lực trong mạng11Phân công các nhómNhóm 7 (IV. Mạng thông tin và World Wide Web) - Chương 13. The Structure of the Web : Cấu trúc của Web- Chương 14. Link Analysis and Web Search : Phân tích liên kết và tìm kiếm WebNhóm 8- Chương 15. Sponsored Search Markets : Thị trường tìm kiếm tài trợ (V. Hệ động lực mạng: Mô hình dân số) - Chương 16. Information Cascades : Phân tầng thông tinNhóm 9 - Chương 17. Network Effects : Hiệu ứng mạng- Chương 18. Power Laws and Rich-Get-Richer Phenomena : Luật số lớn và hiện tượng giàu ngày càng giàu12Phân công các nhómNhóm 10(VI. Hệ động lực mạng: Mô hình cấu trúc)Chương 19. Cascading Behavior in Networks : Phân tầng hành vi trong các mạngChương 20. The Small-World Phenomenon : Hiện tượng thế giới nhỏNhóm 11 - Chương 21. Epidemics : Dịch bệnh (VII. Tổ chức và tích hợp hành vi) - Chương 22. Markets and Information : Thị trường và thông tinNhóm 12 - Chương 23. Voting : Biểu quyết / bầu cử - Chương 24. Property Rights : Quyền sở hữu13

Các file đính kèm theo tài liệu này:

  • pptbai_giang_khai_pha_du_lieu_web_gioi_thieu_mon_hoc_ha_quang_t.ppt
Tài liệu liên quan