Kiến trúc tổng thể của mô hình YOLOv11 được sử dụng cho bài toán phân loại côn trùng
Côn trùng đóng vai trò quan trọng trong hệ sinh thái nông nghiệp, vừa là tác nhân gây hại cho cây trồng, vừa là các loài thiên địch có ích. Các loài côn trùng gây hại có thể làm giảm sản lượng và chất lượng nông sản, gây tổn thất nghiêm trọng cho sản xuất nông nghiệp (Estruch et al., 1997). Ngược lại, những loài thiên địch hỗ trợ kiểm soát sâu bệnh một cách tự nhiên, góp phần cân bằng hệ sinh thái và hạn chế việc sử dụng thuốc bảo vệ thực vật. Tuy nhiên, dưới tác động của biến đổi khí hậu, ô nhiễm môi trường và việc lạm dụng hóa chất nông nghiệp, nhiều loài côn trùng có ích đang bị suy giảm nhanh chóng, trong khi các loài gây hại ngày càng phát triển mạnh (Oberti et al., 2016).
Phân loại và nhận dạng chính xác côn trùng là yếu tố then chốt trong việc xây dựng các biện pháp phòng trừ sâu bệnh hiệu quả và bền vững. Tuy nhiên, việc nhận diện côn trùng theo phương pháp truyền thống đòi hỏi chuyên môn sâu và tốn nhiều thời gian do sự đa dạng về loài, sự khác biệt hình thái tinh vi và các yếu tố ngoại cảnh như điều kiện ánh sáng, tư thế hay nền ảnh phức tạp (Al-Hiary et al., 2011). Do đó, nhu cầu phát triển các hệ thống tự động nhận dạng côn trùng ngày càng trở nên cấp thiết, nhất là trong bối cảnh phát triển nông nghiệp thông minh và bền vững.
Trong bối cảnh hệ thống nông nghiệp thông minh, phân loại côn trùng là một khâu trung gian quan trọng trong chuỗi giám sát – cảnh báo – ra quyết định. Kết quả phân loại theo loài cho phép hệ thống tự động ghi nhận thời điểm và mật độ xuất hiện của từng loài gây hại trên từng khu vực, từ đó cung cấp đầu vào cho các mô-đun dự báo bùng phát dịch hại và mô-đun khuyến nghị biện pháp xử lý phù hợp với từng giai đoạn sinh trưởng của cây trồng. Vì vậy, bài toán trong nghiên cứu này không chỉ dừng lại ở phân loại hình ảnh thuần túy, mà gắn trực tiếp với việc hỗ trợ ra quyết định trong quản lý sâu bệnh.
Những tiến bộ gần đây của công nghệ học sâu (deep learning) đã mở ra nhiều hướng tiếp cận mới cho bài toán phân loại hình ảnh nói chung và nhận dạng côn trùng nói riêng (Kirkeby et al., 2021; Rustia et al., 2021; Doan et al., 2022). Các mô hình học sâu, đặc biệt là các kiến trúc CNN hiện đại, đã chứng minh khả năng trích xuất đặc trưng mạnh mẽ, cho phép đạt độ chính xác vượt trội so với các phương pháp truyền thống. Trong số đó, dòng mô hình YOLO (You Only Look Once) nổi bật nhờ khả năng cân bằng tốt giữa tốc độ xử lý và độ chính xác, và đã được ứng dụng rộng rãi trong nhiều bài toán thị giác máy tính (Wang et al., 2012; Krause et al., 2013).
Nghiên cứu này đề xuất một phương pháp phân loại côn trùng sử dụng mô hình học sâu YOLOv11 với các cải tiến về kiến trúc và hiệu suất. Hai tập dữ liệu được sử dụng là IP102 và PEST204, trong đó PEST204 là phiên bản mở rộng từ IP102 với số lượng loài và chất lượng hình ảnh được cải thiện. Các biến thể của YOLOv11 được áp dụng kết hợp với học chuyển tiếp và tăng cường dữ liệu nhằm nâng cao độ chính xác. Mô hình được đánh giá qua các chỉ số như độ chính xác, thời gian xử lý và tài nguyên tính toán. Kết quả cho thấy YOLO11x-cls đạt độ chính xác cao nhất, trong khi YOLO11n-cls và YOLO11s-cls thể hiện tiềm năng triển khai trên thiết bị di động nhờ hiệu suất tốt và tốc độ nhanh. Ngoài ra, kỹ thuật Eigen-CAM được sử dụng để trực quan hóa vùng ảnh quan trọng, giúp tăng khả năng diễn giải mô hình. Kết quả cho thấy hiệu quả của YOLOv11 trong phân loại côn trùng, đóng góp vào phát triển hệ thống nông nghiệp thông minh.
Qua thời gian nghiên cứu, kết quả cho thấy, một hướng tiếp cận phân loại côn trùng sử dụng các biến thể của mô hình học sâu YOLO11 được đề xuất và đánh giá. Bằng việc khai thác các kỹ thuật học chuyển tiếp và tăng cường dữ liệu hợp lý, các mô hình YOLO11 đã đạt được hiệu suất phân loại cao trên cả hai tập dữ liệu IP102 và PEST204.
Đồng thời, nghiên cứu đã đóng góp một tập dữ liệu mới có tên PEST204, được xây dựng dựa trên việc sàng lọc và mở rộng tập IP102 nhằm nâng cao chất lượng dữ liệu huấn luyện, giảm thiểu nhiễu và cải thiện độ đa dạng hình ảnh. Phân tích trực quan bằng Eigen-CAM cho thấy các mô hình không chỉ học dựa trên các đặc trưng ngẫu nhiên mà còn tập trung vào các chi tiết hình thái đặc trưng của côn trùng, từ đó tăng cường độ tin cậy trong việc phân loại.
Kết quả thực nghiệm cho thấy các biến thể YOLO11-cls đã đạt độ chính xác Top-1 lên tới 81,1% trên tập dữ liệu PEST204, cao hơn so với các mô hình thế hệ trước. Mô hình YOLO11n-cls, dù có quy mô nhỏ và yêu cầu tài nguyên thấp, vẫn duy trì được độ chính xác phân loại tốt, phù hợp với các ứng dụng thực tế yêu cầu xử lý thời gian thực trên thiết bị di động hoặc các hệ thống nhúng. Bên cạnh đó, tập dữ liệu PEST204 cũng chứng minh được hiệu quả trong việc cải thiện khả năng tổng quát hóa và hiệu suất của mô hình học sâu. |