Trong điều kiện tự nhiên, lớp phủ mặt đất (land cover) tích hợp và phản ánh khí hậu, địa chất, đất đai và hệ sinh vật sẵn có của một khu vực tại một thời điểm, theo tháng hoặc năm, có thể hàng thập kỷ hoặc lâu hơn. Nó được xem là nguồn thông tin đầu vào quan trọng trong các nghiên cứu lũ lụt, hạn hán, xói mòn, cũng như cần thiết trong quản lý, giám sát đối tượng lớp phủ mặt đất [1–2]. Nhiều nghiên cứu và nhiều phương pháp được lựa chọn để theo dõi lớp đối tượng này. Cho đến nay, việc chiết tách lớp phủ sử dụng phương pháp chủ yếu là viễn thám (Remote sensing) [3]. Việc sử dụng tư liệu viễn thám trong thành lập bản đồ lớp phủ tương đối đơn giản và khá nhanh chóng, được đánh giá là mang lại hiệu quả tốt, vừa có thể tiết kiệm được chi phí và công sức. Công nghệ viễn thám đang ở giai đoạn phát triển vượt trội, với số lượng ảnh viễn thám và các ứng dụng không ngừng phát triển qua các năm. Số lượng lớn ảnh miễn phí với nhiều độ phân giải khác nhau được dùng trong thành lập bản đồ lớp phủ [4–7].
Trong kỷ nguyên công nghệ mới, chuyển đổi số mang lại nhiều sự đột phá trong nhiều lĩnh vực với việc xuất hiện của Trí tuệ nhân tạo (Artificial Intelligence - AI) và Học máy (Machine Learning). Khi đó, khoa học công nghệ gắn liền với việc xử lý nguồn dữ liệu lớn (Big data) và phương tiện hiện đại. Hiện nay, việc kết hợp mô phỏng chủ đề vào các thuật toán Machine learning trở thành một hướng nghiên cứu mới mà nhiều nhà khoa học quan tâm [8–9], trong đó đặc biệt nhấn mạnh sự kết hợp của học máy và lĩnh vực viễn thám. Các kỹ thuật phân loại dựa trên học máy xuất hiện và trở thành hướng tiếp cận mới trong nghiên cứu lớp phủ mặt đất [10]. Một trong những thuật toán học máy có giám sát mang tính khả thi là rừng ngẫu nhiên (Random Forest - RF). Các nhà khoa học đã sử dụng Random Forest trong thành lập bản đồ lớp phủ mặt đất với độ chính xác cao. Nghiên cứu [11] cho thấy thuật toán RF mang lại sự phân loại lớp phủ mặt đất ở phía nam Tây Ban Nha với độ chính xác tổng thể là 92% và chỉ số Kappa là 0,92. Trong khi kết quả này ở nghiên cứu của [12] tương ứng là 84,6% và Kappa 0,808. Các nghiên cứu [13–14] đánh giá RF có độ chính xác cao hơn một số phương pháp phân loại khác như Maximum Likelihood, khoảng cách tối thiểu, cây quyết định, mạng Nơ Ron nhân tạo và Máy vectơ hỗ trợ (Support Vector Machine). Nhìn chung, các nghiên cứu đã chứng minh tính hiệu quả của thuật toán rừng ngẫu nhiên trong nghiên cứu lớp phủ [11–14].
Một vấn đề khác cần chú ý là việc phân loại lớp phủ mặt đất truyền thống thường yêu cầu khối lượng tính toán khổng lồ, đôi khi gây ra áp lực trong quá trình phân tích và xử lý ảnh viễn thám. Do đó, cần lựa chọn một nền tảng xử lý cho phép giảm bớt sự phụ thuộc vào tài nguyên cơ sở hạ tầng máy tính, cũng như giảm bớt gánh nặng về dung lượng ổ cứng máy tính. Một trong những nền tảng cho phép thực hiện trong lĩnh vực viễn thám là Google Colab. Sự xuất hiện của Google Colab phép các nhà nghiên cứu thực thi mã xử lý ảnh thông qua kết nối Internet và đặc biệt phù hợp với phương pháp học sâu [15] và học máy [16].
Hầu hết các nghiên cứu trước đây về lớp phủ mặt đất chưa tiếp cận sử dụng nền tảng Google Colab. Đồng thời, muốn khẳng định tính hiệu quả về độ chính xác của kỹ thuật học máy, nhóm nghiên cứu đã tích hợp thuật toán Random Forest trên nền tảng Google Colab để phân loại lớp phủ mặt đất ở tỉnh Quảng Bình, trên cơ sở sử dụng ảnh vệ tinh Sentinel-2. Như vậy, thay vì phân loại ảnh trên các phần mềm thương mại, nghiên cứu tiến hành lập trình Python trong môi trường Google Colab, giúp tối ưu hóa thời gian xử lý ảnh, tận dụng ưu điểm đơn giản và nguồn thư viện phong phú của ngôn ngữ Python. Ảnh Sentinel-2 được lựa chọn do được tích hợp sẵn trên nền tảng điện toán đám mây, miễn phí và có độ phân giải không gian cao hơn so với ảnh khác như Landsat, Modis. Đây chính là hướng tiếp cận mới cho khu vực tỉnh Quảng Bình khi mà trước đây có rất ít các nghiên cứu về lớp phủ.
Nghiên cứu sử dụng thuật toán Random Forest được tiến hành theo hai hướng: (1) sử dụng bốn kênh ảnh có độ phân giải 10 m (kênh 2, kênh 3, kênh 4, kênh 8) của Sentinel-2, (2) sử dụng bốn kênh ảnh có độ phân giải 10m trên và bổ sung thêm các ảnh chỉ số phổ NDVI (Normalized Difference Vegetation Index - chỉ số thực vật khác biệt chuẩn hóa), NDWI (Normalized Difference Water Index - chỉ số nước khác biệt chuẩn hóa), NDBI (Normalized Difference Built-up Index - chỉ số xây dựng khác biệt chuẩn hóa). Mục tiêu cụ thể của nghiên cứu là: (1) Phân loại đối tượng lớp phủ mặt đất ở tỉnh Quảng Bình; (2) Đánh giá tiềm năng của thuật toán Random Forest thông qua kết quả đánh giá độ chính xác; (3) So sánh hai hướng tiếp cận; từ đó lựa chọn hướng tối ưu trong phân loại lớp phủ ở tỉnh Quảng Bình khi sử dụng thêm các chỉ số phổ làm tăng lượng thông tin và khả năng nhận biết từng đối tượng đặc trưng; (4) Đánh giá tiềm năng của nền tảng Google Colab.
Qua quá trình nghiên cứu, có một số kết luận như sau:
Nghiên cứu đã phân loại 5 nhóm lớp phủ mặt đất tỉnh Quảng Bình vào tháng 8 năm 2022 sử dụng ảnh Sentinel-2 và thuật toán Random Forest, đồng thời cũng đánh giá hiệu quả của việc kết hợp các băng tần khác nhau của ảnh Sentinel-2 với các chỉ số phổ đặc trưng. Với các điểm đào tạo (training data) trong nghiên cứu, kết quả thử nghiệm cho thấy rằng mô hình RF (2) với 4 kênh phổ (các kênh lam, xanh lục, đỏ và cận hồng ngoại) kết hợp với các chỉ số phổ NDVI, NDWI, NDBI đã đạt được độ chính xác phân loại tổng thể là 95,3% (kappa = 0,94), tốt hơn so với mô hình RF 4 kênh phổ. Nhìn chung, với hướng đi mới này trong phân loại lớp phủ mặt đất, cần có thêm các nghiên cứu toàn diện hơn như sử dụng thêm các ảnh độ phân giải cao, các chỉ số phổ, hoặc kết hợp các phương pháp, mô hình khác nhau.
Bên cạnh việc khẳng định tính khả thi của thuật toán Random Forest trong bài toán phân loại, nghiên cứu cũng đánh giá hiệu quả xử lý của nền tảng Google Colab với thời gian nhanh chóng. Đây là một công cụ thể hiện sự vượt trội trong lĩnh vực viễn thám, khi người dùng có thể bắt đầu mã hóa các mô hình khoa học sử dụng ngôn ngữ lập trình Python thông qua các trình duyệt.
Nghiên cứu đã thực hiện đầy đủ theo mục tiêu đề ra, tuy nhiên còn có một số hạn chế như sau: Google Colab miễn phí nhưng bị giới hạn về thời gian, bị ngắt kết nối khi không có tương tác của người dùng, phụ thuộc vào Internet và Google Drive. Vì vậy, việc sử dụng một phiên bản khác như Google Colab Pro sẽ mang lại hiệu quả hơn trong tương lai. |