1. ĐẶT VẤN ĐỀ
Hệ thống giao thông đường bộ đóng vai trò then chốt trong sự phát triển kinh tế – xã hội. Tuy nhiên, trong quá trình khai thác, mặt đường thường xuyên xuất hiện các dạng hư hỏng như nứt dọc, nứt ngang, nứt mai rùa, ổ gà hoặc mờ vạch kẻ đường. Nếu không được phát hiện và khắc phục kịp thời, các hư hỏng này có thể gây mất an toàn giao thông, gia tăng chi phí bảo trì và làm giảm tuổi thọ công trình.
Hiện nay, việc kiểm tra và đánh giá tình trạng mặt đường chủ yếu dựa vào khảo sát trực tiếp của con người. Phương pháp này không chỉ tiêu tốn nhiều nguồn lực mà còn phụ thuộc lớn vào kinh nghiệm chủ quan, dẫn đến độ chính xác không đồng đều và khó mở rộng trên quy mô lớn. Do đó, việc nghiên cứu các giải pháp tự động, có khả năng phát hiện hư hỏng đường bộ một cách nhanh chóng và chính xác là yêu cầu cấp thiết.
Trong những năm gần đây, các mô hình học sâu phát hiện đối tượng như Faster R-CNN, SSD hay các phiên bản YOLO đã được ứng dụng hiệu quả trong nhiều bài toán thị giác máy tính. Tuy nhiên, phần lớn các nghiên cứu vẫn tập trung vào cải thiện độ chính xác mà chưa giải quyết triệt để yêu cầu xử lý thời gian thực, đặc biệt là khi triển khai trên các nền tảng di động.
YOLOv12 – phiên bản mới của họ YOLO – được giới thiệu với nhiều cải tiến về kiến trúc nhằm nâng cao đồng thời cả độ chính xác và tốc độ suy luận. Điều này mở ra tiềm năng lớn cho các ứng dụng phát hiện đối tượng thời gian thực. Từ đó, nghiên cứu này tập trung so sánh hiệu năng giữa YOLOv12m và Faster R-CNN trên bài toán phát hiện hư hỏng đường bộ, đồng thời xây dựng một hệ thống ứng dụng Android nhằm minh chứng khả năng triển khai thực tế.
2. CƠ SỞ LÝ THUYẾT
2.1. Mô hình YOLOv12
YOLOv12 là phiên bản mới được công bố năm 2025, kế thừa và phát triển từ các phiên bản YOLO trước đó. Kiến trúc tổng thể của YOLOv12 vẫn gồm ba thành phần chính là xương sống (backbone), cổ (neck) và đầu (head), nhưng được cải tiến đáng kể nhằm tối ưu hiệu suất.
Một điểm nổi bật của YOLOv12 là việc thay thế kiến trúc ELAN bằng R-ELAN, cho phép kết hợp các lớp tích chập sâu với kết nối dư, giúp cải thiện khả năng lan truyền gradient và tăng hiệu quả học đặc trưng. Bên cạnh đó, cơ chế Area Attention giúp mô hình không chỉ tập trung vào từng điểm ảnh riêng lẻ mà còn xét đến mối quan hệ vùng lân cận, từ đó nâng cao khả năng phát hiện các đối tượng nhỏ hoặc có biên không rõ ràng.
Ngoài ra, YOLOv12 còn tích hợp FlashAttention nhằm tối ưu quá trình tính toán trên GPU, giảm độ trễ và mức tiêu thụ bộ nhớ trong quá trình suy luận. Ở tầng đầu ra, mô hình loại bỏ hoàn toàn hộp neo (anchor box), cho phép dự đoán trực tiếp vị trí và kích thước đối tượng, giúp đơn giản hóa cấu trúc và tăng tính linh hoạt.
Trong nghiên cứu này, phiên bản YOLOv12m được lựa chọn do đạt được sự cân bằng hợp lý giữa độ chính xác, tốc độ xử lý và yêu cầu tài nguyên, phù hợp cho triển khai trong các hệ thống thời gian thực.
2.2. Mô hình Faster R-CNN
Faster R-CNN là một mô hình phát hiện đối tượng hai giai đoạn, được đánh giá cao về độ chính xác. Mô hình bao gồm mạng trích xuất đặc trưng, mạng đề xuất vùng (RPN), lớp gộp vùng ROI Pooling và khối phân loại – hồi quy cuối cùng.
Ưu điểm lớn nhất của Faster R-CNN là khả năng phát hiện chính xác các đối tượng nhỏ hoặc bị che khuất. Tuy nhiên, do quy trình xử lý gồm hai giai đoạn liên tiếp, tốc độ suy luận của mô hình thường chậm hơn so với các mô hình một giai đoạn như YOLO. Điều này khiến Faster R-CNN gặp hạn chế khi áp dụng trong các ứng dụng yêu cầu xử lý thời gian thực.
2.3. Dữ liệu và tiền xử lý
Nghiên cứu sử dụng tập dữ liệu RDD2022 gồm hơn 47.000 ảnh được thu thập từ nhiều quốc gia, bao gồm bảy loại hư hỏng đường bộ phổ biến. Dữ liệu được chia thành các tập huấn luyện và kiểm thử, đồng thời thực hiện các bước tiền xử lý phù hợp cho từng mô hình.
Đối với YOLOv12m, dữ liệu được chuyển sang định dạng phù hợp, chuẩn hóa kích thước ảnh và áp dụng các kịch bản tăng cường dữ liệu khác nhau. Với Faster R-CNN, dữ liệu được chuyển đổi sang định dạng COCO và chuẩn hóa theo yêu cầu của mô hình.
3. KẾT QUẢ NGHIÊN CỨU
3.1. So sánh YOLOv12m và Faster R-CNN
Kết quả thực nghiệm cho thấy Faster R-CNN đạt mAP@50 cao hơn YOLOv12m khoảng 1,5%, tuy nhiên thời gian xử lý của mô hình này chậm hơn đáng kể. Trong khi đó, YOLOv12m có tốc độ suy luận nhanh hơn, giúp tăng độ mượt và khả năng phản hồi của hệ thống thời gian thực.
Từ kết quả so sánh, YOLOv12m được lựa chọn làm mô hình phát hiện chính trong hệ thống nhờ khả năng cân bằng hợp lý giữa độ chính xác và tốc độ xử lý.
3.2. Ảnh hưởng của tăng cường dữ liệu
Các kịch bản tăng cường dữ liệu khác nhau được áp dụng nhằm đánh giá tác động đến hiệu năng của mô hình YOLOv12m. Kết quả cho thấy việc áp dụng tăng cường ở mức trung bình giúp cải thiện đáng kể độ chính xác và độ ổn định khi kiểm thử trên video thực tế. Ngược lại, tăng cường quá mạnh có thể gây nhiễu và làm giảm khả năng phân biệt giữa các lớp hư hỏng.
3.3. Triển khai ứng dụng Android
Ứng dụng Android được phát triển với khả năng chụp ảnh và quay video, truyền dữ liệu thời gian thực đến máy chủ thông qua WebSocket. Kết quả phát hiện được trả về dưới dạng JSON và hiển thị trực tiếp trên giao diện người dùng. Thử nghiệm trên thiết bị di động cho thấy hệ thống hoạt động ổn định, độ trễ chấp nhận được và phù hợp cho triển khai thực tế.
4. KẾT LUẬN
Nghiên cứu đã xây dựng thành công một hệ thống phát hiện hư hỏng đường bộ theo thời gian thực dựa trên mô hình YOLOv12m và ứng dụng Android. Kết quả thực nghiệm chứng minh rằng hệ thống đáp ứng tốt yêu cầu về tốc độ và độ chính xác, đồng thời có khả năng triển khai trong thực tế.
Trong tương lai, hệ thống có thể được mở rộng bằng cách tăng quy mô dữ liệu huấn luyện, tối ưu mô hình để chạy trực tiếp trên thiết bị di động và tích hợp thêm các chức năng quản lý, đánh giá mức độ hư hỏng nhằm hỗ trợ hiệu quả hơn cho công tác bảo trì hạ tầng giao thông. |