Mục lục
Lời nói đầu 4
Chương 1: Các giao thức gửi nhận thư điện tử 6
1.1. Giới thiệu. 6
1.2. Các giao thức gửi nhận thư điện tử. 6
1.2.1. SMTP (Simple Mail Transfer Protocol). 6
1.2.2. POP3 (Post Office Protocol) 10
1.2.3. IMAP (Internet Mail Access Protocol) 13
1.3. Cấu trúc thư điện tử 15
1.3.1. Giới thiệu: 15
1.3.2. Cấu trúc chi tiết của MIME: 16
1.4. Kết luận 21
Chương 2: Thư rác và các giải pháp phòng tránh thư rác. 22
2.1. Giới thiệu. 22
2.2. Spam và các thông tin liên quan 22
2.2.1. Hoàn cảnh ra đời 22
2.2.2. Định nghĩa 23
2.2.3. Đặc điểm của thư rác 23
2.2.4. Ích lợi và tác hại của thư rác. 26
2.2.5. Luật pháp trong vấn đề thư rác. 27
2.3. Các kĩ thuật công cụ đối tượng phát tán thư rác (spammer) sử dụng 28
2.3.1. Phân loại các đối tượng phát tán thư rác: 28
2.3.2. Các cách lấy điạ chỉ của nạn nhận. 29
2.3.3. Các kĩ thuật để vượt qua bộ phận lọc thư. 30
2.4. Các phương pháp phòng tránh thư rác: 31
2.4.1. Đóng các điểm chuyển tiếp thư 31
2.4.2. Sử dụng danh sách đen 31
2.4.3. Kiểm tra tính xác thực của địa chỉ spam 32
2.4.4. Sử dụng các bộ lọc nội dung. 33
2.4.5. Đánh lừa các chương trình thu thập địa chỉ thư 34
2.4.6. Cung cấp địa chỉ giả 35
2.4.7. Hệ thống thu phí thư điện tử và chữ kí điện tử. 35
2.4.8. Sử dụng mobile agent 35
2.4.9. Các phương pháp khác. 36
2.4.10. Phương pháp lọc nội dung Bayes. 36
2.5. Kết luận 38
Chương 3: Thiết kế chương trình chống thư rác. 40
3.1. Giới thiệu. 40
3.2. Phân tích yêu cầu chương trình. 40
3.2.1. Phân tích chung về yêu cầu của chương trình. 40
3.2.2. Phân tích chi tiết yêu cầu của chương trình. 41
3.3. Phân tích thiết kế hệ thống 42
3.3.1. Mô hình phân cấp chức năng. 42
3.3.2. Thiết kế tổng thể: 43
3.3.3. Thiết kế giao tiếp với người dùng . 44
3.3.4. Xây dựng bộ lọc chính 51
3.3.5. Thực hiện và triển khai chương trình 57
3.3.6. Đánh giá chương trình 59
Chương 4: Đề xuất triển vọng hướng phát triển. 62
4.1. Hướng phát triển bộ lọc. 62
4.1.1. Các hướng phát triển bộ lọc: 62
4.1.2. Đề xuất hướng phát triển. 63
4.2. Để xuất về qui mô chương trình. 63
4.2.1. Qui mô phát triển Bkas. 63
4.2.2. Qui mô phát triển Bkas cho doanh nghiệp. 64
Kết luận 65
Phụ lục A 67
Tài liệu tham khảo: 67
Thuật ngữ và viết tắt. 68
Phụ lục B 69
(Hướng dẫn sử dụng chương trình Bkas) 69
75 trang |
Chia sẻ: maiphuongdc | Lượt xem: 2398 | Lượt tải: 2
Bạn đang xem trước 20 trang tài liệu Đồ án Nghiên cứu spam và xây dựng ứng dụng ngăn chặn spam cho chương trình Microsoft Outlook, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
năm 2002. Ủy ban kinh tế quốc gia Áo ước tính tổng thiệt hại do thư rác quy ra tiền (tính theo đầu nhân viên trong một công ty) là 620 USD/năm.
Những chi phí thiệt hại kể trên thực sự mới chỉ là những chi phí về tài nguyên hệ thống mà chưa kể đến thiệt hại khi thư cần gửi không đến tay người nhận họ có thể xóa đi thông tin quan trọng vì nghĩ đó là thư rác.
Báo cáo của Ủy ban Thương mại liên bang Mỹ tháng 4/2003 cho thấy 66% thông điệp spam có tính chất lừa đảo. Cũng theo thống kê này thì có 90% thư rác là chứa virus nó thật sự là nguy cơ đe dọa hệ thống và tính riêng tư của người sử dụng.
Các thông tin có nội dụng bạo lực và đồi trụy chiếm một lượng thư quá lớn làm tăng nguy cơ truy cập các trang web đồi trụy đặc biệt nguy hại khi các thông tin này đến tay trẻ em khi thư rác này thâm nhập hòm thư của chúng.
Vấn đề thư rác không đơn thuần là vấn đề về kinh tế kĩ thuật nó trở thành vấn đề xã hội. Theo Sophos thì một nữ phóng viên của một đài phát thanh Philadelphia (Mỹ) đã đã rất tức giận và quyết định thôi việc sau khi bị một nhóm vận động trực tuyến đã “tấn công” cô bằng spam.
Luật pháp trong vấn đề thư rác.
Hiện nay thư rác là một trong những vấn đề “nóng” nhất trong năm nay tại nhiều quốc gia như Mỹ, Australia, New Zealand, Brazil và các thành viên Liên minh châu Âu. Các quốc gia, tổ chức này đang tích cực chuẩn bị cho các điều luật chống thư rác. Mục tiêu của họ là tạo ra các điều luật đảm bảo quyền lợi của người dùng thư sẽ không phải nhận những lá thư không mời mà đến tiếp theo là tạo ra một hành lang pháp lý cho phép dễ dàng lọc thư rác. Đi đầu là Mỹ quyết định đưa luật chống thư rác vào áp dụng từ ngày 1/1/2004. Đạo luật mà Mỹ đưa ra là CAN-SPAM Act. Nội dung cụ thể như sau: thư quảng cáo phải có cơ chế cho phép người nhận từ chối không nhận tiếp các e-mail. Người gửi cũng không được phép ngụy trang tung tích và tiêu đề. Việc thu thập địa chỉ từ các website bị hạn chế. Ngoài ra, hình phạt đối với việc gửi spam sẽ nặng hơn. Sau khi có đạo luật này bắt đầu có một số công ty chuyên cung cấp spam bị khởi kiện. Các quốc gia khác như Hà lan, Hàn quốc, Trung quốc bắt đầu đưa một số đạo luật vào thực thi.
Các kĩ thuật công cụ đối tượng phát tán thư rác (spammer) sử dụng
Phân loại các đối tượng phát tán thư rác:
Tên và chi tiết về các đối tượng phát tán thư rác được giới thiệu chi tiết ở rất nhiều trang web chống thư rác. Người mệnh danh là vua thư rác Stanford Wallace không những phát tán rất nhiều spam mà con giao bán cả phần mềm chống spam như Spy Wiper hay Spy Deleter. Điều này chứng tỏ để chống lại spam cần phải biết đến các spammer giống như cách dùng hacker chống hacker. Mặc dù việc phân loại các spammer là rất khó nhưng có thể chia họ thành các nhóm sau:
Những spammer nghiệp dư là những người gửi thư chuyển tiếp với số lượng lớn. Chẳng hạn thỉnh thoảng người dùng vẫn nhận được các thư lừa đảo như phải chuyển tiếp thư đến 100 người thì mới gặp may mắn. Các đối tượng này trực tiếp hay gián tiếp không phải là đối tượng phát tán thư rác chính nhưng thỉnh thoảng vẫn bị các nhà cung cấp thư, ví dụ như Yahoo chặn lại.
Spammer ở qui mô nhỏ. Đa số các spammer thường bị chia vào loại này. Sở dĩ họ bị chia vào loại này vì tần suất gửi thư rác của họ là không cao. Họ thường sử dụng danh sách thư và các công cụ có sẵn để quảng cáo nhiều khi là cho chính các công ty của họ.
Spammer có liên quan đến hacker. Loại spammer này rất phức tạp để đối phó vì họ thường sử dụng cách thức phức tạp và sáng tạo ra các phần mềm phát tán thư của riêng mình.
Spammer ở qui mô lớn. Đây là các spammer nguy hiểm nhất và cũng chuyên nghiệp nhất. Đa phần các spam tạo ra là do họ và họ thường trong các công ty chuyên kinh doanh các dịch vụ liên quan đến phát tán thư rác. Nơi được xem là thủ phủ của spam là Boca Raton- Florida nơi có đến trên 40 công ty trong lĩnh vực này. Họ liên kết và cung cấp các tài liệu cho nhau như địa chỉ các máy chủ chuyển tiếp thư. Một công ty lớn như Microsoft cũng được coi là spammer vì số lượng hàng triệu thư quảng cáo về sản phẩm họ gửi cho khách hàng mỗi tháng.
Các cách lấy điạ chỉ của nạn nhận.
Các nguồn sau là các nguồn lấy địa chỉ thư nạn nhân:
Cách thông thường nhất là lấy địa chỉ thư bằng cách yêu cầu họ điền vào các trang web cung cấp các dịch vụ miễn phí, hoặc yêu cầu họ gửi các thư chuyển tiếp đến nhiều người.
Mua danh sách thư của nạn nhân. Nếu spammer không muốn đầu tư vào các phần mềm lấy thư điện tử họ có thể mua trực tiếp qua mạng hoặc trong các địa CD. Ví dụ giá một đĩa CD chứa 200 triệu địa chỉ thư có giá là 499 USD.
Lấy thông qua các nhóm tin USENET. Nhưng nhóm tin là nơi dễ bị lấy trộm địa chỉ nhất vị các thông tin này được đăng công cộng và sự tồn tại của các địa chỉ này là chắc chắn.
Lấy qua các trang Web. Spammer dùng các phần mềm thu thập các thông tin thư điện tử một cách tự động.
Lấy thông qua danh sách thư của các máy chủ. Các máy chủ cung cấp danh sách này cho spammer.
Lấy thông qua các phòng chat. Một số nhà cung cấp dịch vụ chat trực tuyến sử dụng luôn tên hòm thư của bản là tên đăng nhập phòng chat. Vì vậy họ lấy tên này ghép với tên miền của nhà cung cấp dịch vụ là có địa chỉ hòm thư.
Lấy theo kiểu từ điển. Cách làm này thường là tìm cơ cấu trộn tên và họ để có địa chỉ hòm thư. Hoặc có địa chỉ hòm thư của một người ở máy chủ này họ sẽ giữ nguyên tên hòm thư và thay đổi tên máy chủ. Ví dụ: vietict@yahoo.com, vietict@gmail.com...
Dựa vào các địa chỉ thư đã trả lời thư rác hoặc đường dẫn gỡ thư rác.
Có một số chuyên gia khuyên người dùng là nên đặt tên khó nhớ và khó bị tấn công ví dụ như vtciei00000000000004@yahoo.com. Nhưng thực ra địa chỉ này là rất khó nhớ đối với con người và nếu nhận được một thư có địa chỉ này thì chưa chắc người dùng đã dám mở ra vì sợ bị hacker tấn công.
Các kĩ thuật để vượt qua bộ phận lọc thư.
Thực ra các kĩ thuật vượt qua các bộ lọc thư rất đa dạng. Các kĩ thuật này thường tìm điểm yếu có thể vượt qua của bộ lọc. Những thông tin dạng này sẽ giúp ích cho chúng ta tạo ra bộ lọc khó bị vượt qua hơn.
Tránh bộ lọc bằng danh sách đen: Thường các spammer gửi cho nạn nhân thư rác đều là các thư đã được làm giả cho phép địa chỉ của spammer gửi được giấu đi. Họ làm những việc này để thứ nhất lừa người dùng mở thư nhưng quan trọng nhất là để giấu nhà cung cấp dịch vụ (ISP) địa chỉ thực của mình, để không bị đưa vào danh sách đen, hoặc họ giả các địa chỉ thư của người gửi thông thường.
Để khắc phục tình trạng trên trên các công ty dẫn đầu là Microsoft đã phát triển một giao thức có tên là Sender Policy Framework (SPF) để kiểm tra tính xác thực của tên miền thư. Nhưng phương pháp này thực sự chưa đạt được hiệu quả, theo kết quả khảo sát số spam vượt qua kiểm tra của SPF nhiều hơn thư hợp pháp tới 34%. Nguyên nhân của vấn đề này là SPF chỉ ngăn chặn các e-mail giả mạo địa chỉ xuất phát, còn nếu e-mail có địa chỉ thực, nó sẽ xem đó là thư hợp pháp. Khiếm khuyết của SPF nằm ở chỗ, nó không kiểm tra xem địa chỉ Internet đó có phải do những kẻ phát tán spam sở hữu hay không. Nhưng công nghệ này có mặt mạnh là đảm bảo thư không phải thuộc dạng phising (thư lừa đảo dưới danh nghĩa của các tổ chức bằng cách giả tên miền).
Tránh các bộ lọc nội dung: Các bộ lọc nội dung thường dựa trên nguyên tắc các từ mà spammer bắt buộc phải sử dụng trong spam. Nhưng spammer lại có thể vượt qua các bộ lọc này bằng các cách sau: Họ tạo ra các hình ảnh liên kết đến nội dung của trang web quảng cáo, các từ nhạy cảm vào các ảnh. Khi đó thực sự khó cho các bộ lọc, nếu họ sử dụng các bộ lọc ảnh thì chặn luôn cả thư hợp lệ. Spammer cũng có thể chèn thêm các kí tự vào giữa các từ làm nó khó nhận ra hơn. Ví dụ như “PORN” đổi thành “P*O*R*N”. Một trường hợp spammer hay dùng với thư có định dạng HTML chứa thông tin dưới dạng bảng rất khó để phân tích nội dung.
Các phương pháp phòng tránh thư rác:
Đóng các điểm chuyển tiếp thư
Điểm chuyển tiếp thư trước đây được sử dụng phổ biến khi một máy chủ xử lý một lá thư mà người nhận hoặc người gửi không nằm trong vùng tầm kiểm soát của nó, nó phải sử dụng một máy chủ trung gian đóng vai trò là điểm chuyển tiếp. …….. ……..
Bên cung cấp dịch vụ thứ 3
ISP
Spammer
Nạn nhân
Điểm chuyển tiếp
người dùng nội mạng
Hình 2.1 Mô hình điểm chuyển tiếp
Trên hình 2.1 điểm chuyển tiếp cho phép người gửi không nằm trong mạng do máy chủ quản lý được chuyển thư qua và đây cũng chính là điểm cho phép kẻ gửi thư rác phát tán thư rác. Sở dĩ các các spammer sử dụng các máy chủ chuyển tiếp này vì nếu chúng gửi thư từ một địa chỉ cố định thì sẽ dễ dàng xác định vị trí và ngăn chặn. Nhưng qua các điạ chỉ chuyển tiếp thư địa chỉ được thay đổi và không bị các bộ lọc chặn lại.
Thêm một lý do mà spammer chọn các máy chủ chuyển tiếp là vì muốn dùng các máy này để tăng số lượng thư rác được gửi đi. Chúng chiếm tài nguyên của các máy chủ này vì thường các máy chủ này có cấu hình mạnh và có đường kết nối thuê bao Internet băng thông rộng. RFC2505 chỉ ra chi tiết làm sao có thể ngăn chặn được việc chuyển tiếp bằng cách phân quyền chuyển tiếp.
Sử dụng danh sách đen
Danh sách đen là một danh sách các địa chỉ IP đã từng gửi thư rác bị các nàh cung cấp dịch vụ Internet (ISP) và các quản trị máy chủ thư điện tử phát hiện. Danh sách này được ghi vào cơ sở dữ liệu các địa chỉ gửi spam (Danh sách đen). Danh sách này gồm cả địa chỉ phát tán thư rác và cả địa chỉ các điểm chuyển tiếp thư có liên quan đến phát tán thư rác.
Một tổ chức cũng khá nổi tiếng trong việc cung câp danh sách đen là ROKSO (Register of known spam operation) cho phép đăng kí sử cập nhật các danh sách đen. Theo thống kê của ROKSO thì 50% số thư rác được gửi trực tiếp từ những kẻ phát tán thư rác (spammer) số còn lại được gửi thông qua các proxy và các điểm chuyển tiếp thư.
Danh sách SBL (Spamhaus Block List) của dựa án Spamhaus Project, là một danh sách gồm các điạ chỉ DNS có cung cấp các dịch vụ thư rác hoặc có liên quan đến thư rác không bao gồm các điểm chuyển tiếp thư rác. Danh sách này cho phép người dùng có thể tạo truy vấn để xác định xem địa chỉ gửi thư đi có phải là địa chỉ gửi thư rác hay không. Tiểu chuẩn của danh sách này là:
Nguồn spam: Gồm địa chỉ IP tĩnh mà spam được gửi đi.
Các dịch vụ phục vụ cho spam: Máy chủ gửi thư, máy chủ web, máy chủ DNS được spammer sử dụng để gửi thư rác.
Spamhaus xác nhận cho đến tháng 12-2004 SBL đã bảo vệ cho 110 triệu người dùng khỏi spam. Danh sách đen hiện vẫn là một giải pháp tốt nhưng theo MAPS RBL, một địa chỉ cung cấp danh sách đen, nếu sử dụng danh sách chỉ bắt được có 24% số thư rác và tỉ lệ sai lên đến 34%. Tỉ lệ 34% này là tỉ lệ của các thư hợp lệ nhưng xếp vào các thư rác. Với tỉ lệ quá cao như vậy chúng khó có thể được các công ty cung cấp dịch vụ thư điện tử chấp nhận.
Để tránh các thư hợp lệ bị xếp nhầm với các thư rác thì cần thiết tạo ra một danh sách trắng. Như cái tên của nó, danh sách này trái với danh sách đen, nó gồm những địa chỉ thư hoặc tên miền thư không có liên quan đến thư rác hoặc được người sử dụng xếp vào loại hợp lệ.
Yếu điểm của phương pháp danh sách trắng là khó áp dụng cho các công ty cung cấp thư lớn có nhiều thư mà nguồn thư không rõ ràng. Thêm vào đó kẻ phát tán thư rác có thể dễ dàng giả địa chỉ có trong danh sách trắng và nghiễm nhiên chúng đi qua danh sách này một cách dễ dàng. Chính vì vậy ví dụ sau khá thú vị là một lượng lớn các điạ chỉ bị xem là phát tán thư rác lại là địa chỉ của các trường đại học của Mĩ, có thể là các địa chỉ này thường được tin cậy nên hay bị giả danh.
Kiểm tra tính xác thực của địa chỉ spam
Thực ra công việc này là dùng một cơ chế nào đó để xác nhận máy chủ vừa gửi thư là hợp lệ và người vừa gửi được chấp nhận. Các công nghệ này thường được các công ty lớn như Yahoo và Microsoft đầu tư vì nó bảo đảm được độ chính xác tuyệt đối. Công nghệ mà Microsoft phát triển là Caller ID (xác nhận thông tin cá nhân cho thư điện tử), công nghệ này kiểm tra nguồn gốc của mỗi bức thư có khớp với tên miền Internet của nó hay không. Nhờ những nỗ lực hạn chế nạn giả mạo tên miền này, người gửi thư hợp pháp sẽ có thể bảo vệ được uy tín và địa chỉ mạng của mình, đồng thời giúp người nhận xác định và sàng lọc bớt số thư không mời. Tuy nhiên, người gửi sẽ cần phải đăng ký địa chỉ IP của các máy chủ gửi thư ra (outgoing mail) với hệ thống tên miền Internet (DNS).
DomainKeys của Yahoo cũng có cơ chế tương tự, sử dụng công nghệ khóa mã công cộng/cá nhân để xử lý chữ ký trong phần tiêu đề thư (header) của một thông điệp điện tử. Khi thư điện tử được gửi đi từ một tên miền nhất định, hệ thống nhận thư sẽ thẩm tra và so sánh chữ ký với mã công cộng của người gửi (được công bố trên hệ thống tên miền công cộng). Nếu thông tin này không qua kiểm tra thì nhận dạng người gửi không được phê chuẩn và lúc đó hệ thống chống spam nội bộ của đơn vị nhận thư sẽ xử lý nó.
Sử dụng các bộ lọc nội dung.
Có rất nhiều phương pháp lọc thư rác bằng cách phân tích nội dung, sau đây là một số các cách chính:
Lọc thư dựa vào đặc điểm do người dùng định nghĩa được sử dụng nhiều trong các trình duyệt thư hiên nay. Người dùng có thể định ra các thừ từ nguồn có đặc điểm nào đó thì coi là thư hợp lệ. Họ có thể xem xét các đặc điểm của thư rác mà họ nhận được và quyết định ra một tiêu chí nào đó để quyết định là thư rác hay không. Ví dụ như họ đặt ra một luật như sau bất kì thư nào xuất hiên mã FF000 thì bị loại - đây là mã HTML cho các thư có màu đỏ sáng một mầu ưa thích của các spam có liên quan đến tình dục. Điểm yếu của cách này là nó sẽ đánh đồng các thư có đặc điểm như vậy và nó cũng không hiệu quả.
Lọc thông qua ngôn ngữ được sử dụng trong thư là lọc các thư có nội dung ngôn ngữ không thuộc ngôn ngữ của người sử dụng. Nhưng cách thức này chỉ chăn được các nguồn mà không chủ định gửi cho người dùng vì người dùng không thể hiểu được ngôn ngữ trong thư.
Lọc dựa vào tiêu đề thư đây là một cách phức tạp hơn hai cách trên. Thường thì phần tiêu để của một thư bị giả mạo để tránh lần ra kẻ gửi thư và đánh lừa người đọc thư. Nhiệm vụ của các bộ lọc phần tiêu đề là chỉ ra và cô lập các thư có phần tiêu đề bị làm giả. Tuy nhiên không phải tất cả các spam đều làm giả phần này nên đây cũng chỉ để kết hợp với các bộ lọc khác.
Lọc theo các thư có thẩm quyền, bộ lọc này sẽ chặn tất cả các thư đến từ nguồn không được phép. Với hệ thống lọc này thì lần đầu tiên khi một thư gửi cho một người sử dụng có sử dụng bộ lọc này thì nó sẽ tự động gửi ngược lại nơi thông tin được gửi đi. Khi mà nó được chấp nhận thì người gửi này sẽ là hợp lệ và tất cả thư gửi từ lúc này trở đi sẽ được chấp nhận.
Lọc theo nội dung phần thân của thư: nó quét nội dung thư với một cơ chế cho phép xác định nội dung này có phải là thư spam hay không. Nó có cơ chế giống như việc một người đọc thư trong một thoáng đọc lướt qua thì có thể xác định được thư đấy có là thư rác hay không. Một trong các bộ lọc kiểu này là Bayes, một bộ lọc rất hiệu quả có sai số nhỏ hơn phương pháp danh sách đen và các phương pháp khác. Nó chỉ ra thư là spam hay không dựa vào xác suất xuất hiện các từ trong thư. Năm 1998, Patel và Lin viết sản phẩm sử dụng bộ lọc Bayes đầu tiên. Bộ lọc của họ có thể lọc được 92% các thư rác và có tỉ lệ lỗi là 1.6%. Một kết quả khá khả quan.
Paul Graham tăng chất lượng bộ lọc này một cách đáng kể sử dụng phương pháp phân tích thống kê. Với tỉ lệ sai là 0 và bỏ qua 5 trên 1000 thư.
Đánh lừa các chương trình thu thập địa chỉ thư
Nguồn cung cấp địa chỉ thư nạn nhân mà kẻ phát tán thư rác hay sử dụng là các chương trình thu thập thư điện tử xuất hiện trên các trang web. Cách giải quyết là sử dụng các cách như: làm cho địa chỉ thư điện tử chỉ được xem bởi người dùng mà không thể thấy được nếu dùng các máy tìm kiếm. Các điạ chỉ thư điện tử thường bắt đầu bằng các thẻ “”. Các thẻ này rất dễ tìm thấy bằng các tời tìm kiếm. Do vậy người ta sử dụng các đoạn Javascript biến đổi địa chỉ thư thành các hình ảnh có hình dạng xộc xệch biến dạng chỉ có thể phân biệt bằng mắt người. Tuy nhiên các chương trình tìm kiếm địa chỉ thư cũng có thể dùng phương pháp phân tích đoạn mã này nhưng là rất phức tạp.
Một cách nữa cũng thường sử dụng để khống chế các chương trình lần tìm điạ chỉ thư là dùng các đoạn mã CGI (Common Gateway Interface) gửi nội dung địa chỉ thư đến các địa chỉ đến các hòm thư của người muốn nhận địa chỉ này.
Cung cấp địa chỉ giả
Phương pháp này có tên tiếng Anh là Spider trap, là trang web chứa một lượng lớn các địa chỉ thư giả để lừa những kẻ gửi thư rác. Trong nhưng trang này lại có đường dẫn tới các trang spider trap khác làm cho danh sách mà những kẻ phát tán thư rác nạn không có ích cho chúng. Một số còn có thể tự tạo ra các đoạn mã sinh ra một lượng lớn thư không có thật cho những máy tìm kiếm. Các đoạn mã này còn tạo ra đường dẫn quay ngược lại chính đoạn mã làm cho quá trình tìm kiếm chỉ chứa toàn các địa chỉ vô ích với spammer.
Một số phần mềm chống lại các máy tìm kiếm địa chỉ thư bằng cách chứa địa chỉ thư vào nơi đánh dấu không truy cập được. Robotcop là một chương trình mã nguồn mở thường được các quản trị web sử dụng để làm nhiệm vụ này. Các máy chủ tìm kiếm (search engine) thường dựa trên các máy lưu giữ thông tin web (web crawler). Các web crawler lưu thông tin truy cập vào tất cả các trang web và lấy ghi lại các thông tin nhưng nó phải tuân theo các luật trong file robots.txt. Nếu như các luật này không được các máy tìm kiếm địa chỉ tuân thủ thì nó xem như là các máy này có ý định lấy thông tin nhậy cảm và sẽ chặn lại kèm theo việc ghi vào file log. Có một số phần mềm còn chỉ các chương trình tìm kiếm thư điện tử vào thư mục toàn thư không có ích.
Hệ thống thu phí thư điện tử và chữ kí điện tử.
Một số hệ thống để chống lại thư rác mong muốn sử dụng hình thức thu phí điện tử với mô hình như tem thư trong thư tín thông thông thường. Lấy ý tưởng từ thư tín bình thường nhưng thực sự thì giá thành của thư điện tử chỉ có thể tính bằng chi phí cho tính toán của CPU. Các thư để gửi được thì máy tính phải tính toàn một số phép toán tốn khoảng vài chục chu kì CPU. Việc này là không đáng kể với người dùng thông thường nên họ dễ chấp nhận. Nhưng đối với những kẻ phát tán thư số lượng phép toán mà họ phải tính toán là quá lớn.
Sử dụng mobile agent
Một cách tiếp cận chống thư rác khác mới được công bố là dùng các agent. Cách làm này được Li Cheng và Wang Weinong, đại học Thượng Hải giới thiệu năm 2002, nguyên tắc như sau: Trong hệ thống thư điện tử SMTP khi máy chủ và máy người dùng (cụ thể là MTA-Mail Trafer Agent) muốn trao đổi sẽ mở kênh truyền. Để thông báo mở một kênh truyền bên gửi gửi lệnh MAIL. Đây là thời điểm đưa vào một agent tham ra vào, nó sẽ thông báo “OK” cho bên gửi. Agent sẽ kiểm tra và lọc thư rác để quyết định bỏ qua hay chuyển thư đó cho bên nhận. Gánh nặng việc xử lý thư rác này chuyển sang các agent này là tránh tốn phí xử lý của các máy chủ chuyển tiếp thư, khi nó phải xử lý hàng nghìn thư rác có cùng nội dung gửi cho những người dùng khác nhau. Một điểm mạnh kèm theo của hệ thống này là nó còn có thể kiểm tra virus và ngăn không để tấn công từ bên trong mạng khi kẻ tấn công gưi virus thông qua các gói tin đính kèm. Nhưng điểm khó khăn với giải pháp này là làm sao để đảm bảo an toàn an ninh cho cả agent và máy chủ.
Các phương pháp khác.
Một xu hướng gần đây của các phần mềm lọc thư là kết hợp các phương pháp lọc khác nhau. TDMA-Tagged Message Delivery Agent là chương trình ứng dụng theo chuẩn OSI nó kết hợp các phương pháp danh sách trắng, danh sách đen, các phương pháp mã hóa. Các thư gửi đến từ những người gửi chưa xác định thì được đặt ở trong một hàng đợi đến khi có xác nhận của người nhận. Khi xác nhận thư là hợp lệ nó cho vào danh sách trắng và không cần phải xử lý ở lần tiếp theo.
SpamAssasin là một chương trình rất phổ biến cho phép kiểm tra thư với các tiêu chuẩn thư rác xác định nó là thư rác. Nó sử dụng phân tích nội dung và một vài danh sách đen tức thì (real time backlist). Mỗi một tiêu chuẩn đánh giá được gắn với một trọng số. Các trọng số này được biểu diễn bằng một đại lượng là ngưỡng, và dựa vào đại lượng này để xác định thư rác. Sử dụng các luật và một số các hàm lượng giá để kiểm tra tiêu đề và phần thân của thư. Ví dụ một tiêu chuẩn của nó là việc địa chỉ đến và đi của nó là giống nhau, hoặc một đặc điểm là các thư rác thì thường dùng các chữ có font lớn và nhiều màu sắc. Một tiêu chuẩn nữa là nó sử dụng cơ sở dữ liệu Razor (gồm hàng nghìn thư rác) để so sánh các thư có nội dung giống hoặc tương tự.
Phương pháp lọc nội dung Bayes.
Áp dụng phương pháp lọc Bayes cho việc lọc thư rác.
Để áp dụng cho việc phân loại thư rác thì người ta tiếp cận theo phương án làm đơn giản lý thuyết Bayes. Paul Grahams tiếp cận theo cách đơn giản và đưa ra lược đồ minh họa bằng đoạn mã (LISP) như sau:
(let ((g (* 2 (or (gethash word good) 0)))
(b (or (gethash word bad) 0)))
(unless (< (+ g b) 5)
(max .01
(min .99 (float (/ (min 1 (/ b nbad))
(+ (min 1 (/ g ngood))
(min 1 (/ b nbad)))))))))
Ông dùng hai bảng băm một chứa các từ tốt (good-trong thư hợp lệ) và một chứa các từ xấu (bad-trong thư rác) dùng để phân loại thư rác. Các bảng này ánh xạ các từ xấu và tốt với số các từ xấu và tốt trong thư. Với nbad, ngood tương ứng là số các thư hợp lệ và thư rác. Trong giải thuật này sử dụng số thư hợp lệ được nhân đôi để bảo đảm giảm tỉ lệ nhầm thư hợp lệ với thư rác. Chỉ có những từ xuất hiện trong thư rác và thư hợp lệ hơn 5 lần mới được xem xét. Công thức trên được viết lại như sau:
Công thức 21 Công thức Paul Graham áp dụng
Với g là số dấu hiệu tìm thấy trong thư rác, b là số dấu hiệu tìm thấy trong thư hợp lệ. B là số thư rác, G là số thư hợp lệ và p là khả năng thư này là thư rác. Với một chú ý là mỗi loại thư nên để thành một dòng văn bản liên tục để đếm số lần suất hiện của từ, số thư trong mỗi loại thay vì trộn thông thường các thư này, hay là chia nhỏ việc tính xác suất từng phần rồi cộng lại (theo Paul Graham). Một dạng đơn giản của công thức Bayes ta có:
Công thức 22 Công thức Bayes
Trong đó là xác suất thư chứa từ khóa là thư rác, là khả năng spam với điều kiện nó chứa từ khóa, là xác suất một thư bất kì là spam. là xác suất thư hợp lệ với điều kiện nó chứa từ khóa và là xác suất thư bất kì là hợp lệ. Dựa vào nhận định trên ta biến đổi từ công thức 2-2 ra công thức sau:
Công thức 23 Công thức sau khi biến đổi
Việc đơn giản này dựa trên giả định là số thư rác và số thư hợp lệ là bằng nhau ().
Ưu điểm của phương pháp lọc thư rác Bayes
Bộ lọc Bayes có khả năng tự cập nhật sửa chữa trong việc học thư rác và thư hợp lệ. Khác với các bộ lọc thông thường dùng phương pháp tìm các từ mẫu trong thư, việc cập nhật mẫu là do người dùng thực hiện và để đạt được hiệu quả thì việc tạo ra các mẫu này phải là chuyên gia. Trong khi đó bộ lọc Bayes trong quá trình tự học các từ khóa mới, nó có thể từ nâng cấp và cập nhật. Ví dụ khi spammer thay các từ như “porn” bằng “P0rn” thì có thể vượt qua các hệ thống lọc theo mẫu dễ dàng vì từ này không có trong cơ sở dữ liệu. Còn hệ thống lọc Bayes có thể tự động cập nhật thủ đoạn này.
Phương pháp Bayes có thể dùng dữ liệu của nhiều người để phát hiện thư rác hiệu quả hơn. Khi đó số từ khóa và các biểu hiện của thư rác bị lộ hết thì rất dễ dàng cho bộ lọc Bayes xử lý. Và cũng rất khó khăn cho các spammer trong việc thay đổi các từ khóa vì mục đích thương mại và quảng cáo của thư.
Kết luận
Qua chương này có thể thấy là có rất nhiều phương pháp dự án chống lại hình thức phát tán thư rác. Những phương pháp này sử dụng đến kiến thức của nhiều lĩnh vực về kĩ thuật như mã hóa, kĩ thuật mạng, trí tuệ nhân tạo. Về mặt xã hội áp dụng kiến thức chuyên gia như kinh tế, và cả tâm lý học ví như phân tích xem khách hàng của thư rác thích các loại thư nào và thuộc đối tượng nào.
Những điều trên chứng tỏ việc chống lại thư rác là không phải đơn giản. Nó không đơn giản bởi vì thư rác là vấn đề liên quan đến xã hội, kinh tế. Việc phát tán thư rác giúp cho nhứng người thực hiện nó thu được lợi nhuận khá dễ dàng hầu như không phải đầu tư nên lượng thư rác có phản hồi là rất nhỏ cũng đem lại lợi nhuận cho họ. Một giải pháp triệt để là áp dụng luật chống thư rác. Nhưng việc tạo ra luật chống thư rác và áp dụng nó triệt để hiện này là không khả thi.
Về phương diện kĩ thuật, hiện này có một số các ứng dụng rất thành công việc chặn thư giác điển hình là các chương trình như Spamsleuth, Spamassassin, CRM114 hoặc một vài chương trình ứng dụng. Các chương trình này đạt được tỉ lệ lọc thư rác đến 99% và tỉ lệ mất thư hầu như là không có. Xu hướng của các bộ lọc thư rác này là phối hợp nhiều phương pháp để tạo ra bộ lọc tuyệt đối. Việc lọc triệt để thư rác chắc rằng sẽ đạt được trong một ngày gần đây nếu như kĩ thuật phát tán thư rác không có những tiến bộ đáng kể.
Thiết kế chương trình chống thư rác.
Giới thiệu.
Dựa trên những phân tích khá đầy đủ về mọi xu hướng mọi kĩ thuật của những kẻ phát tán thư rác cũng như của người chống lại thư rác, tác giả sẽ tiếp tục phần thực nghiệm của đồ án là xây dựng một ứng dụng có khả năng chống lại thư rác hiệu quả và thân thiện với người sử dụng.
Phân tích yêu cầu chương trình.
Phân tích chung về yêu cầu của chương trình.
Vấn đề chống thư rác
Các file đính kèm theo tài liệu này:
- 24802.doc