Luận văn Phân loại lớp phủ đô thị cho thủ đô Viên Chăn - Lào, sử dụng ảnh composite landsat - 8

MỞ ĐẦU.1

CHƯƠNG 1. TỔNG QUAN NGHIÊN CỨU.3

1. Khái quát về bài toán nghiên cứu.3

2. Khái quát về viễn thám và phân loại lớp phủ mặt đất .4

3. Viễn thám.8

3.1 Khái niệm viễn thám .8

3.2 Phân loại hệ thống viễn thám .10

3.3 Các quang phổ thường được sử dụng trong hệ thống thống viễn thám 12

4. Ảnh vệ tinh.13

4.1 Nhận thức chung về ảnh vệ tinh .13

4.2 Ảnh Landsat 8.16

5. Google Earth Engine.21

CHƯƠNG 2. PHƯƠNG PHÁP PHÂN LOẠI LỚP PHỦ ĐÔ THỊ SỬ DỤNG

ẢNH VỆ TINH LANDSAT 8.23

1. Các phương pháp kết hợp ảnh.23

2. Các thuật toán thường được sử dụng trong phân loại lớp phủ.25

2.1 Support Vector Machine.26

2.2 XGBoost .28

3. Phương pháp đánh giá kết quả phân lớp.30

CHƯƠNG 3. THỰC NGHIỆM PHÂN LOẠI LỚP PHỦ .34

CHO THỦ ĐÔ VIÊNG CHĂN - LÀO VÀ KẾT QUẢ.34

1. Khu vực nghiên cứu:.34

2. Tập dữ liệu ảnh Landsat 8.36

3. Tạo ảnh Composite .38

4. Dữ liệu huấn luyện và dữ liệu kiểm thử.41

5. Phân loại lớp phủ đô thị .42

6. Kết quả .43

6.1 Kết quả của quá trình kết hợp ảnh.43

6.2 Kết quả của quá trình phân lớp.46

pdf66 trang | Chia sẻ: honganh20 | Ngày: 15/03/2022 | Lượt xem: 415 | Lượt tải: 3download
Bạn đang xem trước 20 trang tài liệu Luận văn Phân loại lớp phủ đô thị cho thủ đô Viên Chăn - Lào, sử dụng ảnh composite landsat - 8, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
7 kênh ảnh Nguồn ảnh: Monde Spartial (https://www.mondegeospatial.com/2017/12/band- combinations-for-landsat-8.html) Hiện nay có nhiều vệ tinh quan sát Trái đất và chúng thường mang các đặc điểm chung gồm: độ phân giải không gian, độ phân giải quang phổ, độ phân giải phóng xạ và độ phân giải thời gian. STT Vệ tinh Loại Độ phân giải không gian Độ phân giải quang phổ (loại trừ kênh Toàn sắc) Độ phân giải phóng xạ Độ phân giải thời gian 1 MODIS Quang học 250 - 1000m 36 kênh 12 bits Hàng ngày 2 SPOT 5 Quang học 10m 4 kênh (Green, Red, Near IR, SWIR) 8 bits 2-3 ngày, phụ thuộc vào vĩ độ 3 Landsat Quang học 30m 10 kênh (Coastal -> 12 bits 16 ngày 17 8 TIRS2) 4 Sentinel 2A Quang học 10 - 20m 12 kênh (Coastal -> SWIR) 12 bits 10 ngày Bảng Error! No text of specified style in document..2 Bảng so sánh một số đặc tính của các ảnh vệ tinh Mỗi độ phân giải được mô tả như sau [1]: - Độ phân dải không gian: liên quan đến khoảng rộng tức thời của góc nhìn (IFOV), đây là vùng trên mặt đất được nhìn thấy bởi cảm biến của vệ tinh. Ví dụ, vệ tinh Landsat 8 có độ phân giải không gian là 30m, điều đó có nghĩa rằng một điểm ảnh của ảnh Landsat 8 bao phủ một khu vực 30x30m trên bề mặt trái đất. - Độ phân giải quang phổ: độ phân giải quang phổ cho biết khả năng nhận ánh sáng mặt trời của cảm biến. Nếu các máy ảnh thông thường trên các điện thoại chỉ có thể thu nhận được các bước sóng trong khoảng nhìn thấy bao gồm ánh sáng đổ, xanh lá cây và xanh nước biển (RBG), nhiều cảm biến vệ tinh có khả năng thu được nhiều bước sóng khác nhau như là cận hồng ngoại, sóng hồng ngoại ngắn, v.v Chẳng hạn, cảm biến TIRS được gắn trên vệ tinh Landsat 8 có thể nhận bước sóng trong khoảng từ 10.6-12.51µm. - Độ phân giải phóng xạ: được mô tả là khả năng phân biệt những khác biệt rất nhỏ trong năng lượng ánh sáng. Độ phân giải phóng xạ tốt hơn có thể phát hiện được những khác biệt nhỏ trong phản năng lượng và chùm tia phản chiếu. - Độ phân giải thời gian: là khoảng thời gian giữa hai lần quan sát liên tiếp cùng một khu vực trên bề mặt Trái đất. Vệ tinh Landsat 8 có độ phân giải thời gian là 16 ngày. 18 1.4.2. Ảnh Landsat 8 Hình Error! No text of specified style in document..9 Các thế hệ vệ tinh Landsat. Nguồn ảnh: USGS (https://landsat.gsfc.nasa.gov/a-landsat-timeline/) Bắt đầu từ năm 1972, khi vệ tinh đầu tiên trong hệ thống các vệ tinh Landsat đã được phóng lên quỹ đạo, chúng tạo ra một kho lưu trữ dữ liệu khổng lồ về bề mặt trái đất, với dữ liệu có độ phân giải trung bình. Đây là chương trình hợp tác chung giữa Cục Khảo sát Địa chất Hoa Kỳ (United States Geological Survey - USGS) và Cơ quan Hàng không và Vũ trụ Hoa Kỳ (National Aeronautics and Space Administration - NASA), chương trình này hỗ trợ các nghiên cứu về viễn thám trên toàn cầu và giúp những nhà hoạch định chính sách và quản lý đất đai đưa ra những quyết định sáng suốt về môi trường và tài nguyên thiên nhiên. “Các thế hệ vệ tinh Landsat là nền tảng cho khả năng quan sát Trái đất của chúng ta. Thế giới dựa vào dữ liệu Landsat để phát hiện và đo lường độ che phủ đất và thay đổi trong việc sử dụng đất, sức khỏe của hệ sinh thái và nguồn nước,” Giám đốc NASA Charles Bolden đã phát biểu trước Ủy ban Khoa học, Vũ trụ và Công nghệ Hoa Kỳ vào tháng 04 năm 2015. Ảnh Landsat 8 là ảnh được thu từ vệ tinh LDCM (Landsat Data Continuity Mission), vệ tinh Landsat thứ 8, được phóng vào ngày 11 tháng 2 năm 2013. Thời gian hoạt động của vệ tinh theo thiết kế là 5,25 năm nhưng nó được cung cấp đủ năng lượng để có thể kéo dài hoạt động đến 10 năm. Vệ tinh Landsat 8 được lập trình để bay vòng quanh Trái đất trong 99 phút và có thể bao phủ hết bề mặt Trái đất trong 16 ngày. Với khoảng 400 bức ảnh thu được mỗi ngày, vệ tinh Landsat 8 cung cấp góc nhìn chính xác hơn về sự biến đổi của Trái đất trong vòng đời của nó. 19 Hình Error! No text of specified style in document..10 Hình ảnh của vệ tinh Landsat 8 Nguồn ảnh: NASA (https://www.nasa.gov/) LDCM mang theo 2 bộ cảm: bộ thu nhận ảnh mặt đất (OLI - Operational Land Imager) và bộ cảm biến hồng ngoại nhiệt (TIRS - Thermal Infrared Sensor). Những bộ cảm này được thiết kế để cải thiện hiệu suất và độ tin cậy cao hơn so với các bộ cảm Landsat trước. Ảnh từ vệ tinh này sẽ cung cấp những thông tin quan trọng trong nhiều lĩnh vực như quản lý năng lượng và nước, theo dõi rừng, sức khỏe con người và môi trường, quy hoạch đô thị, khắc phục thảm họa và lĩnh vực nông nghiệp. Dữ liệu thu được sẽ được phân phối miễn phí đến người dùng qua Internet. Mỗi sản phẩm ảnh ảnh là một tệp nén bao gồm 12 tệp ảnh ở định dạng TIFF và một tệp metadata. Các ảnh Landsat 8 được lữu trữ dưới định dạng raster, cấu trúc dữ liệu mô tả không gian dưới dạng các ô vuông điểm ảnh (pixel), mỗi ảnh là một lưới các điểm ảnh. Trong 12 tệp TIFF thì có 11 tệp được đánh số thứ tự từ 1 đến 11, các tệp này cho biết số thứ tự của các dải phổ. Mỗi file này lưu trữ giá trị năng lượng mà cảm biến nhận được dưới dạng số nguyên 16-bit (DN). Tệp còn lại là tệp BQA được thêm bởi nhà sản xuất. So với Landsat 7, LDCM có cùng độ rộng dải chụp, cùng độ phân giải ảnh và chu kỳ lặp lại (16 ngày). Tuy nhiên, ngoài các dải phổ tương tự Landsat 7, bộ cảm OLI thu nhận thêm dữ liệu ở 2 dải phổ mới nhằm phục vụ quan sát mây và quan sát chất lượng nước ở các hồ và đại dương nước nông ven biển cũng như sol 20 khí. Bộ cảm TIRs thu nhận dữ liệu ở 2 dải phổ hồng ngoại nhiệt, phục vụ theo dõi tiêu thụ nước. Vệ tinh Bands Bước sóng (micrometers) Độ phân giải (meters) LDCM - Landsat 8 (Bộ cảm OLI và TIRs) Band 1 - Coastal aerosol 0.433 - 0.453 30 Band 2 - Blue 0.450 - 0.515 30 Band 3 - Green 0.525 - 0.600 30 Band 4 - Red 0.630 - 0.680 30 Band 5 - Near Infrared (NIR) 0.845 - 0.885 30 Band 6 - SWIR 1 1.560 - 1.660 30 Band 7 - SWIR 2 2.100 - 2.300 30 Band 8 - Panchromatic 0.500 - 0.680 15 Band 9 - Cirrus 1.360 - 1.390 30 Band 10 - Thermal Infrared (TIR) 1 10.3 - 11.3 100 Band 11 - Thermal Infrared (TIR) 2 11.5 - 12.5 100 Bảng Error! No text of specified style in document..3 Đặc điểm ảnh vệ tinh LDCM (Landsat 8) Trong đó: - Kênh 1: được gọi là kênh coastal aerosol, dùng để quan sát vùng nước nông và theo dõi các hạt mịn như bụi và khói, đại dương và thực vật. - Kênh 2: Dùng để lập bản đồ địa hình, bản đồ đất và phân biệt địa hình theo mùa - Kênh 3: Phản ánh trạng thái thực vật, sử dụng lập bản đồ quản lí thực vật. - Kênh 4: Phân biệt giữa thực vật và đất, độ dốc thảm thực vật - Kênh 5: Dùng để nghiên cứu hệ sinh thái dưới nước, xác định sinh khối thực vật. Dựa vào độ xanh có thể đo nước trong lá và sức khỏe cây trồng. - Kênh 6: Phân biệt độ ẩm của đất và thực vật, xuyên qua được các đám mây mỏng. - Kênh 7: Phản ảnh rõ nét về độ ẩm của đất và thực vật hơn kênh 6 - Kênh 8: Quan sát tổng quan đối tượng, vì có độ phân giải 15m nên các đối tượng hiện lên rõ nét hơn. - Kênh 9: Chủ yếu dùng trong quan sát mây, đặc biệt tăng cường phát hiện các đám mây ti 21 - Kênh 10: Dùng để lập bản đồ nhiệt và độ ẩm của đất - Kênh 11: Bản đồ nhiệt và đất ở kênh này được xác định rõ nét hơn. Trong nghiên cứu này, ảnh Landsat 8 Surface Reflectance được sử dụng. Dữ liệu Landsat 8 Surface Reflectance được tạo ra từ giải thuật Landsat Surface Reflectance Code (LaSRC), thuật toán ban đầu được phát triển bởi Tiến sĩ Eric Vermote tại trung tâm NASA Goddard Space Flight Center (GSFC). LaSRC sử dụng kênh phổ Coastal aerosol để thực hiện các thử nghiệm đảo ngược độ mờ không khí, sử dụng dữ liệu khí hậu phụ trợ từ cảm biến MODIS, và sử dụng một mô hình chuyển đổi phóng xạ độc đáo. LaSRC mã hóa góc nhìn của vệ tinh so với phương thẳng đứng về 0, và góc nhìn tạo bởi vệ tinh (Viewing zenith angle) cùng góc mặt trời (solar zenith angle) được sử dụng như một phần của quá trình tính toán hiệu chỉnh khí quyển [10]. Hình Error! No text of specified style in document..11 Minh họa góc nhìn tạo bởi vệ tinh (Viewing Zenith Angle) và góc nhìn tạo bởi mặt trời với phương thẳng đứng (Solar Zenith Angle) Nguồn ảnh: Support to Aviation Control Service ( Hiện nay, dữ liệu ảnh Landsat 8 SR gồm 7 kênh phổ, bao gồm: Coastal Aerosol, Blue, Green, Red, NIR, SWIR1, SWIR2. Bên cạnh đó, cũng có các kênh phổ tách mây và một số dữ liệu phụ trợ. 22 Hình Error! No text of specified style in document..12 Ví dụ kết hợp màu tự nhiên của dữ liệu ảnh Level 1 (trái) và ảnh Surface Reflectance (phải) Nguồn ảnh: USGS - (https://www.usgs.gov/media/files/landsat-8-surface- reflectance-code-lasrc-product-guide) Ví dụ trên (hình 1.12) là ảnh Landsat 8 trước và sau khi hiệu chỉnh khí quyển. Trong ảnh chưa hiệu chỉnh (trái), ta có thể thấy rõ ràng các ảnh hưởng của khí quyển lên các khu vực bị mờ (không bao gồm các khu vực có mây). Ảnh hưởng này đã giảm đáng kể trong bức ảnh được hiệu chỉnh (phải). Việc hiệu chỉnh khí quyển góp phần giúp quá trình xử lý ảnh sau này sẽ chính xác và hiệu quả hơn. 1.5. Google Earth Engine Google Earth Engine (GEE) là một nền tảng cloud, làm việc thông qua giao diện lập trình ứng dụng (API) của Javascript được gọi là Code Editor. GEE cho phép phân tích dữ liệu địa lý môi trường ở phạm vi toàn cầu với dung lượng lưu trữ hàng pentabyte dữ liệu ảnh. Dữ liệu của GEE được tổng hợp từ rất nhiều nguồn dữ liệu ảnh vệ tinh công cộng từ NASA, NOAA, ESA và các dữ liệu khác. GEE tận dụng hệ thống tính toán được tối ưu hóa cho xử lý song song dữ liệu địa kông gian. GEE đưa khả năng tính toán lớn của Google hỗ trợ các nghiên cứng/ứng dụng liên quan đến các lĩnh vực môi trường, địa lý, không gian như các nghiên cứu về tăng trưởng đô thị, quản lý nước, suy giảm diện tích rừng, diện tích đất, các thảm họa thiên nhiên, hạn hán, lũ lụt, bệnh dịch, an ninh lương thực, giám sát khí hậu và bảo vệ môi trường. 23 Hình Error! No text of specified style in document..13 Kiến trúc tổng thể của Google Earth Engine Google Earth Engine sử dụng một tập các công nghệ từ Google bao gồm: hệ thống quản lý cụm Borg, các cơ sở dữ liệu phân tán Bigtable và Spanner, hệ thống quản lý file Colossus, nền tảng cho xử lý song song FlumeJava. Ngoài ra, Earth Engine còn kết hợp với Google Fusion Tables, là một cơ sở dữ liệu dựa trên web có hỗ trợ dữ liệu địa lý (points, lines, polygons). [11] Quá trình xử lý cơ bản: Ở tầng trên cùng là Earth Engine Code Editor/ ứng dụng web của bên thứ 3 sử dụng Client Library để gửi truy vấn tương tác hoặc hàng loạt lệnh (batch) cho hệ thống thông qua các REST API. Các truy vấn on-the-fly được xử lý bởi Frond Ends Servers, nó chuyển tiếp các truy vấn con phức tạp tới Compute Master, Compute Master có nhiệm vụ quản lý việc phân phối tính toán giữa các Compute Servers. Các batch được xử lý tương tự bởi Batch Computaion nhưng hệ thống này sử dụng FlumeJava để phân phối tính toán. Dưới cùng là các dịch vụ dữ liệu, bao gồm một Assest Database chứa siêu dữ liệu (metadata) của từng ảnh và cung cấp khả năng lọc hiệu quả. Hệ thống quản lý cụm Borg quản lý từng thành phần của hệ thống và mỗi dịch vụ được cân bằng trên nhiều dịch vụ. 24 Thất bại của bất kỳ dịch vụ riêng lẻ nào chỉ ảnh hưởng đến truy vấn đó, người dùng chỉ cần gọi lại truy vấn. [11] Bên cạnh nguồn ảnh, Earth Engine cũng cung cấp rất nhiều chức năng cho phép xử lý ảnh. Các chức năng chủ yếu xoay quanh thao tác với hai loại dữ liệu chính là: raster và vector. Các chức năng được thiết kế từ các thao tác đơn giản như: cộng/trừ band đến phức tạp như: các thuật toán học máy. Bên cạnh đó, các chức năng định vị, tìm kiếm ảnh cũng không thể thiếu. Tất cả đều được cung cấp thông qua hai API JavaScript và Python. 25 CHƯƠNG 2: PHƯƠNG PHÁP PHÂN LOẠI LỚP PHỦ ĐÔ THỊ SỬ DỤNG ẢNH VỆ TINH LANDSAT 8 2.1. Các phương pháp kết hợp ảnh Các hình ảnh vệ tinh quang học có một nhược điểm lớn, đó là chúng bị ảnh hưởng nặng nề bởi các đám mây. Nếu một vùng quan sát bị bao phủ bởi mây trong suốt quá trình vệ tinh bay qua, dữ liệu ghi nhận từ vệ tinh này được coi như là không có gì. Do đó, đã có rất nhiều nhà nghiên cứu tìm các các phương pháp khác nhau để xử lý mây và ảnh hưởng của mây đối với các ảnh vệ tinh này. Khái niệm ảnh vệ tinh kết hợp (composite), là những hình ảnh được tạo ra việc kết hợp từ nhiều hình ảnh thu được trong nhiều ngày và phương pháp này đã được sử dụng rộng rãi.[12] Kết hợp ảnh dựa trên các điểm ảnh là một mô hình trong ngành khoa học viễn thám, tập trung vào việc tạo ra các bức ảnh kết hợp không có mây, phóng xạ. Ảnh kết hợp này là những ảnh của khoảng không gian lớn liền kề nhau [13]. Trong quá khứ, đã có một số phương pháp kết hợp cho những ảnh có độ phân giải không gian thấp (chẳng hạn 500x500m hoặc lớn hơn). Những phương pháp này đều có mục đích chính là để giảm tác động của mây, sự ô nhiễm hóa chất, suy giảm khí quyển, hướng phản xạ bề mặt và các hiệu ứng góc nhìn, những thứ vốn luôn có trong các bức ảnh. Do độ phân giải thời gian của các vệ tinh cao, nên các phương pháp kết hợp tương đối đơn giản, chẳng hạn sử dụng giá trị lớn nhất của Chỉ số Khác biệt Thực vật (NDVI) hoặc tối thiểu góc nhìn để chọn một giá trị quan sát thích hợp cho một điểm ảnh đích. Kể từ khi kho dữ liệu ảnh Landsat mở, các phương pháp kết hợp cho các ảnh Landsat đã được phát triển nhiều hơn và được hưởng lợi từ các phương pháp tiếp cận sẵn có cho dữ liệu MODIS và AVHRR. Gần đây, một số lượng lớn các phương pháp kết hợp các điểm ảnh tốt nhất (Best-Available-Pixel - BAP) đã được đề xuất cho các ảnh vệ tinh cỡ vừa và lớn. Nguyên lý chung của các phương pháp BAP đó là: các tác giả xây dựng một số quy tắc nhất định, lựa chọn và thay thế các điểm ảnh bị mây, các điểm ảnh kém chất 26 lượng bởi các điểm ảnh chất lượng tốt nhất từ một tập các ứng viên. Việc lựa chọn các quy tắc dựa trên các thông tin quang phổ, đó là, tối đa chỉ số khác biệt thực vật (NDVI) [14] và trung bình quang phổ cận hồng ngoại (NIR) [15]. Theo một hướng khác, Griffiths và các đồng sự đã đề xuất một phương pháp BAP xếp hạng điểm ảnh ứng viên bởi tập chỉ số như là khoảng cách tới mây và bóng mây, năm và ngày trong năm (DOY) [16]. Phương pháp này được cải thiện bằng việc kết hợp thêm các chỉ số mới về độ mờ trong khí quyển và loại cảm biến [13]. Năm 2018, nhóm tác giả Mẫn Đức Chức, Nguyễn Thanh Thủy, Bùi Quang Hưng, Kristofer Lasko và Nguyễn Thị Nhật Thanh đã thực hiện một cải tiến mới trong việc kết hợp ảnh. Để lựa chọn được điểm ảnh tốt nhất, nhóm tác giả xây dựng bộ chỉ số Year, DOY, Opacity, DistanceToCloud/CloudShadow [17]. Gómez và các đồng sự gần đây đã có một bài viết nhấn mạnh tiềm năng của BAP cho việc giám sát các khoảng mây bao phủ dài [18], bao gồm các ứng dụng trong sinh khối rừng, phục hồi và lập bản đồ loài, các ứng dụng phát hiện thay đổi, và các ứng dụng lớp phủ. Tác giả Ảnh vệ tinh Phương pháp 1 Hanse n, 2008 [19] Lands at 5, 7 𝑃𝑖𝑥𝑒𝑙𝑠𝑒𝑙𝑒𝑐𝑡𝑒𝑑 = min{𝑃𝑐𝑙𝑜𝑢𝑑&𝑠ℎ𝑎𝑑𝑜𝑤 1𝑠𝑡𝑐𝑎𝑛𝑑𝑖𝑑𝑎𝑡𝑒 , , 𝑃𝑐𝑙𝑜𝑢𝑑&𝑠ℎ𝑎𝑑𝑜𝑤 𝑛𝑡ℎ𝑐𝑎𝑛𝑑𝑖𝑑𝑎𝑡𝑒 } Trong đó: 𝑃𝑖𝑥𝑒𝑙𝑠𝑒𝑙𝑒𝑐𝑡𝑒𝑑: Điểm ảnh được lựa chọn cho việc kết hợp 𝑃𝑐𝑙𝑜𝑢𝑑&𝑠ℎ𝑎𝑑𝑜𝑤 𝑛𝑡ℎ𝑐𝑎𝑛𝑑𝑖𝑑𝑎𝑡𝑒 : xác suất bị ảnh hưởng bởi mây/bóng mây của cùng điểm ảnh trong n ảnh ứng viên Nếu 2 hoặc nhiều hơn các điểm ảnh ứng viên có cùng Pcloud&shadow, thì chọn điểm ảnh gần nhất so với giá trị tham chiếu rừng (100) 2 Roy, 2010 [14] Lands at 5, 7 𝑃𝑖𝑥𝑒𝑙𝑠𝑒𝑙𝑒𝑐𝑡𝑒𝑑 = { max{𝑁𝐷𝑉𝐼1𝑠𝑡𝑐𝑎𝑛𝑑𝑖𝑑𝑎𝑡𝑒 , , 𝑁𝐷𝑉𝐼𝑛𝑡ℎ𝑐𝑎𝑛𝑑𝑖𝑑𝑎𝑡𝑒} , 𝑖𝑓 𝑣𝑒𝑔𝑒𝑡𝑎𝑡𝑒𝑑 𝑝𝑖𝑥𝑒𝑙𝑠 max{𝐵𝑇𝐸𝑀1𝑠𝑡𝑐𝑎𝑛𝑑𝑖𝑑𝑎𝑡𝑒 , , 𝐵𝑇𝐸𝑀𝑛𝑡ℎ𝑐𝑎𝑛𝑑𝑖𝑑𝑎𝑡𝑒} , 𝑖𝑓 𝑢𝑛𝑣𝑒𝑔𝑒𝑡𝑎𝑡𝑒𝑑 𝑝𝑖𝑥𝑒𝑙𝑠 Trong đó: NDVI: Chỉ số khác biệt thực vật BTEM: Nhiệt độ độ sáng Các điểm ảnh ứng viên đủ điều kiện phải có giá trị mây, 27 tuyết và ô nhiễm khí quyển nhỏ nhất. 3 Potapo v, 2011 [15] Lands at 7 𝑃𝑖𝑥𝑒𝑙𝑠𝑒𝑙𝑒𝑐𝑡𝑒𝑑 = min abs{𝑁𝐼𝑅 1𝑠𝑡𝑐𝑎𝑛𝑑𝑖𝑑𝑎𝑡𝑒 − 𝑁𝐼𝑅𝑚𝑒𝑑𝑖𝑎𝑛 , , 𝑁𝐼𝑅𝑛𝑡ℎ𝑐𝑎𝑛𝑑𝑖𝑑𝑎𝑡𝑒 − 𝑁𝐼𝑅𝑚𝑒𝑑𝑖𝑎𝑛 } Trong đó: NIR: Giá trị phổ kênh hồng ngoại Chỉ những ảnh vệ tinh thu được trong mùa cây phát triển mới đủ điều kiện cho thủ tục xếp hạng 4 White, 2014 [13] Lands at 5, 7 𝑃𝑖𝑥𝑒𝑙𝑠𝑒𝑙𝑒𝑐𝑡𝑒𝑑 = max{𝑠𝑢𝑚 𝑜𝑓 𝑠𝑐𝑜𝑟𝑒𝑠 (𝑜𝑝𝑎𝑐𝑖𝑡𝑦, 𝑐𝑙𝑜𝑢𝑑&𝑠ℎ𝑎𝑑𝑜𝑤, 𝑑𝑜𝑦, 𝑠𝑒𝑛𝑠𝑜𝑟)1𝑠𝑡𝑐𝑎𝑛𝑑𝑖𝑑𝑎𝑡𝑒 , . . } 5 Mẫn Đức Chức, 2018 [17] Lands at 8 𝑃𝑖𝑥𝑒𝑙𝑠𝑒𝑙𝑒𝑐𝑡𝑒𝑑 = max{𝑠𝑢𝑚 𝑜𝑓 𝑠𝑐𝑜𝑟𝑒𝑠 (𝑦𝑒𝑎𝑟, 𝑑𝑜𝑦, 𝑜𝑝𝑎𝑐𝑖𝑡𝑦, 𝑐𝑙𝑜𝑢𝑑&𝑠ℎ𝑎𝑑𝑜𝑤)1𝑠𝑡𝑐𝑎𝑛𝑑𝑖𝑑𝑎𝑡𝑒 , . . } Bảng 2.1. Các phương pháp kết hợp ảnh 2.2. Các thuật toán thường được sử dụng trong phân loại lớp phủ Các phương pháp phân lớp học máy có giám sát, như Random Forest (RF) và Support Vector Machines (SVM) [20], đã được sử dụng rộng rãi trong việc phân tích hình ảnh dựa trên đối tượng địa lý (GEOBIA), nhờ tính hiệu quả và dễ dàng sử dụng. Trong hàng thập kỷ qua, việc sử dụng chúng đã liên tục được mở rộng và nhiều nghiên cứu đã chứng minh khả năng ứng dụng của chúng. Các nghiên cứu gần đây đã chỉ ra rằng, các biến thể tiên tiến của các thuật toán nói trên, như Rotation forest ensembles, Logistic model trees, và Canonical correlation forest, đã cho thấy kết quả vượt trội trong một số trường hợp thử nghiệm gần đây. Mặt khác, sự ra đời và phát triển dữ liệu lớn đã chuyến hướng nghiên cứu sang Mạng thần kinh nhân tạo (Artificial Neural Networks) và đặc biệt trong kỹ thuật mạng thần 28 kinh tích chập (Convolutional Neural Network - CNN), như một sự thay đổi với các phương pháp GEOBIA có giám sát truyền thống [21]. Một kỹ thuật phân lớp có giám sát khác thuộc họ cây hồi quy và phân lớp (CART) là Gradient Boosting Machines (GBMs). Trong quá khứ, GBM và các biến thể của nó đã thành công trong việc áp dụng cho một số ứng dụng viễn thám, như là dự đoán loài, ước tính sinh khối trên mặt đất, và phân lớp cảnh. Gần đây, khoảng tháng 7 năm 2014, Chen và Guestrin, đã công bố một bản nâng cấp của GBM, được gọi là eXtreme Gradient Boosting (XGBoost) [21][22]. Từ sau đó, nó đã tạo nên ảnh hưởng lớn trong cộng đồng Học máy, trở thành giải pháp chiến thắng trong nhiều cuộc thi Học máy. Một số nghiên cứu trong các lĩnh vực khoa học khác đã chứng minh hiệu suất vượt trội của nó so với các thuật toán phổ biến. 2.1.1. Support Vector Machine Support Vector Machine (SVM) là một thuật toán thuộc nhóm các phương pháp học có giám sát do Vladimir N. Vapnik đề xuất vào năm 1995 [20] và được sử dụng rất phổ biến ngày nay trong các bài toán phân lớp (classification) hay hồi quy (Regression). Ý tưởng của SVM là tìm một siêu phẳng (hyper lane) để phân tách các điểm dữ liệu. Siêu phẳng này sẽ chia không gian thành các miền khác nhau và mỗi miền sẽ chứa một loại dữ liệu. Giả sử cho tập dữ liệu học gồm n dữ liệu gắn nhãn D= {(x1, y1), (x2, y2), (xn, yn)} với 𝑦𝑖 ∈ {−1, 1} là một số nguyên xác định lớp của xi. Mỗi xi là một văn bản được biểu diễn dưới dạng một vector thực d chiều. Bộ phân lớp tuyến tính được xác định thông qua một siêu phẳng sẽ có dạng: f(x) = w.x - b = 0 trong đó w là vector pháp tuyến của siêu phẳng và b đóng vai trò tham số mô hình (1) Bộ phân lớp nhị phân h: Rd  {0, 1} được xác định thông qua dấu của f(x): ℎ(𝑥) = { 1 𝑛ế𝑢 𝑓(𝑥) > 0 0 𝑛ế𝑢 𝑓(𝑥) ≤ 0 (2) 29 Để tìm được siêu phẳng phân cách có lề cực đại, cần xây dựng các vector hỗ trợ và các siêu phẳng song song với siêu phẳng phân cách và gần vector hỗ trợ nhất, đó là các hàm: w.x - b = 1 w.x - b = -1 (3) Khoảng cách giữa 2 siêu phẳng sẽ là 2 ||𝑤|| do đó cần phải cực tiểu hóa ||w|| để đảm bảo với mọi i ta có: { 𝑤. 𝑥 − 𝑏 ≥ 1 𝑐ℎ𝑜 𝑙ớ𝑝 𝑡ℎứ 𝑛ℎấ𝑡 𝑤. 𝑥 − 𝑏 ≤ −1 𝑐ℎ𝑜 𝑙ớ𝑝 𝑡ℎứ ℎ𝑎𝑖 (4) Hình 2.1. Ý tưởng cơ bản của SVM. Nguồn ảnh: Tập dữ liệu huấn luyện này có thể được phân tách bằng một siêu phẳng nếu tồn tại một vector w = (w1, BR, wk) và một vô hướng b thỏa mãn bất đẳng thức sau: 𝑦𝑖 (w𝑥𝑖 + b) -1 + 𝜉𝑖 ≥ 0 ∀y = {+1, -1} ξi là một biến cho biết khoảng cách mẫu dữ liệu từ siêu phẳng tối ưu (5) Hàm mục tiêu có thể được viết như sau: 1 2 ||𝑤|| 2 + 𝐶 ∑ 𝜉𝑖=1𝑘 𝑖 (6) 30 C là hằng số được sử dụng để kiểm soát mức độ phạt liên quan đến các mẫu huấn luyện xảy ra ở phía sai của siêu phẳng tách tối ưu. C nên được xem xét chặt chẽ cho từng nhiệm vụ phân loại cá nhân. 2.1.2. XGBoost eXtreme Gradient Boosting (XGBoost) là một phương pháp phân lớp mới được giới thiệu bởi Tianqui Chen [21][22]. XGBoost thể hiện là một công cụ mạnh trong nhiều lĩnh vực phân lớp. Phương pháp phân lớp này được chứng minh rằng rất mạnh mẽ trong cuộc thi Kaggle. Nó là một phiên bản được tinh chỉnh của Gradient Boosting Machines (GBM). Trong Gradient Boosting, các cây được xây dựng liên tiếp nhau và mỗi mô hình mới sử dụng thuật toán Gradient Descent. Ý tưởng chính của thuật toán là thay vì xây dựng một mô hình dự đoán có độ chính xác tương đối, ta đi xây dựng nhiều mô hình dự đoán có độ chính xác kém hơn khi đi riêng lẻ nhưng lại cho độ chính xác cao khi kết hợp lại. Mô hình cuối cùng là kết quả của sự tăng thêm của nhiều hàm khác nhau từ khi bắt đầu. Trong XGBoost, các cây có thể được xây dựng song song. Nó cũng có mô hình bên trong để xử lý dữ liệu đầu vào thưa. Do đó nó có thể làm việc tốt trong nhiều trường hợp mà dữ liệu ảnh bị thiếu do mây. Nguyên lý chính khác biệt giữa các phương pháp tăng cường và các phương pháp thông thường khác đó là sự tối ưu hóa được tổ chức dựa trên các hàm của các phương thức cũ. Hình 2.2. Ý tưởng cơ bản của XGBoost. Nguồn ảnh: https://ongxuanhong.wordpress.com/2017/12/21/xgboost-thuat- toan-gianh-chien-thang-tai-nhieu-cuoc-thi-kaggle/ 31 Giả sử ta có:  n: số lượng mẫu huấn luyện  m: số lượng đặc trưng  D = {(xi, yi)} là tập dữ liệu với |D| = n, 𝑥𝑖 ∈ 𝑅 𝑚, 𝑦𝑖 ∈ 𝑅  q: cấu trúc của một cây, ánh xạ mẫu dữ liệu vào nút lá tương ứng.  T: số lượng nút lá trên cây  fk: cấu trúc các cây k độc lập của mô hình  wi: trọng số của nút lá thứ i.  �̂�𝑖 (𝑡) : giá trị dự đoán của trường hợp thứ I tại vòng lặp thứ t.  Ij = {i|q(xi) = j}: tập các giá trị tại nút lá j  IL: tập giá trị nút lá bên trái  IR: tập giá trị nút lá bên phải  I = IL ∪ IR Một mô hình học XGBoost có thể được viết như sau: yi’ = Φ(xi) = ∑ 𝑓𝑘(𝑥𝑗) 𝐾 𝑘=1 , 𝑓𝑘 ∈ 𝐹 Trong đó: 𝐹 = { 𝑓(𝑥) = 𝑤𝑞(𝑥)}(𝑞: 𝑅 𝑚) → 𝑇, 𝑤 ∈ 𝑅𝑇 (7) F là không gian hàm của các quá trình học cơ bản, xi là một vector đầu vào mảng n chiều, yi’ là hàm dự đoán. Để xây dựng một tập các hàm sử dụng mô hình, hàm mục tiêu (objective function) như sau được sử dụng: ℒ(𝛷) = ∑ 𝑙(�̂� 𝑖 , 𝑦𝑖)𝑖 + ∑ Ω(𝑓𝑘)𝑘 Ω(𝑓) = 𝛾𝑇 + 1 2 𝜆| |𝑤||2 trong đó T số lượng các lá, w là các trọng số lá (8) Tiến trình học: ℒ(𝑡) = ∑ 𝑙(𝑦𝑖 , 𝑛 𝑖=1 �̂�𝑖 (𝑡−1) + 𝑓𝑡(𝑥𝑖)) + Ω(𝑓𝑡) ℒ(𝑡)~ ∑ [𝑙(𝑦𝑖 , 𝑛 𝑖=1 �̂�𝑖 (𝑡−1) + 𝑔𝑖𝑓𝑡(𝑥𝑖)) + 1 2 ℎ𝑖𝑓𝑡 2(𝑥𝑖)] + Ω(𝑓𝑡) (9) 32 Với 𝑔𝑖 = 𝜕�̂�𝑖 (𝑡−1)𝑙(𝑦𝑖 , �̂�𝑖 (𝑡−1)) và ℎ𝑖 = 𝜕�̂�𝑖 (𝑡−1) 2 𝑙(𝑦𝑖 , �̂�𝑖 (𝑡−1)) ℒ(𝑡) = ∑ [𝑔𝑖𝑓𝑡(𝑥𝑖) 𝑛 𝑖=1 + 1 2 ℎ𝑖𝑓𝑡 2(𝑥𝑖)] 2 + 𝛾𝑇 + 1 2 𝜆 ∑ 𝑤𝑗 2 𝑇 𝑗=1 ℒ (𝑡) = ∑ [(∑ )𝑤𝑖 𝑖 𝜖𝐼𝑗𝑔𝑗 + 1 2 (ℎ𝑖 + 𝛾) 𝑤𝑗 2 ] 𝑇 𝑖=1 + 𝛾𝑇 (10) Trọng số tối ưu tại mỗi nút lá: 𝑤𝑗 ∗ = − ∑ 𝑔𝑖𝑖 𝜖 𝐼𝑗 ∑ ℎ𝑖 + 𝜆𝑖 𝜖 𝐼𝑗 (11) Hàm lỗi tính trên toàn bộ cây: ℒ̆ (𝑡)(𝑞) = − 1 2 ∑ (∑ 𝑔 𝑖𝑖 𝜖 𝐼𝑗 ) 2 ∑ ℎ𝑖 + 𝜆𝑖 𝜖 𝐼𝑗 𝑇 𝑗=1 + 𝛾𝑇 (12) Điều kiện rẽ nhánh ℒ𝑠𝑝𝑙𝑖𝑡 = 1 2 [ (∑ 𝑔𝑖𝑖 𝜖 𝐼𝐿 ) 2 ∑ ℎ𝑖 + 𝜆𝑖 𝜖 𝐼𝐿 + (∑ 𝑔𝑖𝑖 𝜖 𝐼𝑅 ) 2 ∑ ℎ𝑖 + 𝜆𝑖 𝜖 𝐼𝑅 − (∑ 𝑔𝑖𝑖 𝜖 𝐼 ) 2 ∑ ℎ𝑖 + 𝜆𝑖 𝜖 𝐼 ] − 𝛾 (13) Tuy nhiên, hàm mục tiêu coi các hàm là tham số của nó do đó không thể huấn luyện với các phương pháp tryền thống trong không gian Euclide. Do đó, nó được huấn luyện theo một phương pháp mới, nó đưa vào những gì đã học và thêm một cây mới tại một thời điểm. Hơn thế nữa, các hàm mất mát (loss function) khác có thể được sử dụng trong XGBoost, chẳng hạn như: Gaussian L2, Laplace L1, Binomial, Adaboost, Huber hoặc bất kỳ hàm nào khác được tinh chỉnh bởi người dùng. Các quá trình học có thể được chỉ định dựa vào mục đích. 2.2. Phương pháp đánh giá kết quả phân lớp Để đánh giá độ chính xác của quá trình phân lớp, thì Ma trận nhầm lẫn (Confusion Matrix), Độ chính xác (Precision), Độ hồi tưởng (Recall) và chỉ số F1 được dùng ở các lớp cụ thể, hệ số Kappa và Độ chính xác tổng thể (Overall Accuracy - OA) được sử dụng cho tính toán ở mức phân lớp chung. 33 Ma trận nhầm lẫn là một cách tính độ chính xác dựa trên một ma trận, trong ma trận đó ta có thể bi

Các file đính kèm theo tài liệu này:

  • pdfluan_van_phan_loai_lop_phu_do_thi_cho_thu_do_vien_chan_lao_s.pdf
Tài liệu liên quan