Một tập dữ liệu được xem là mất cân bằng khi có sự chênh lệch lớn về số lượng mẫu giữa các lớp phân loại. Điều này xảy ra khi có một lớp chứa số lượng mẫu lớn hơn hẳn so với các lớp khác. Trong trường hợp này, một mô hình phân loại có thể đạt được độ chính xác cao khi dự đoán trên lớp có số lượng mẫu lớn, nhưng lại hoạt động kém hiệu quả trên lớp có ít mẫu. Do đặc điểm này, các thuật toán học máy truyền thống thường không phát huy hiệu quả trên tập dữ liệu mất cân bằng, dẫn đến việc phát triển các phương pháp và kỹ thuật mới nhằm cải thiện khả năng dự đoán của các thuật toán học máy trên những tập dữ liệu như vậy.
Bài viết này tập trung vào việc khám phá thuật toán lấy mẫu dữ liệu (data sampling) gồm có lấy mẫu giảm (under-sampling) và lấy mẫu tăng (oversampling) và sự kết hợp giữa lấy mẫu giảm với lấy mẫu tăng nhằm giải quyết vấn đề mất cân bằng dữ liệu thông qua cách tiếp cận dựa trên dữ liệu. Ngoài ra, thuật toán Focal Loss cũng được xem xét để giải quyết vấn đề tương tự nhưng thông qua cách tiếp cận dựa trên hàm mất mát và đề xuất giới thiệu phương pháp áp dụng Transfer Learning với mô hình Resnet-18 tiếp cận Model. Trong quá trình nghiên cứu, các thuật toán học máy được xây dựng, triển khai, thực nghiệm và đánh giá; sử dụng tập dữ liệu Cat-Dog (Bộ dữ liệu huấn luyện: 1000 ảnh mèo, 11000 ảnh chó; Bộ dữ liệu kiểm thử: 1500 ảnh mèo, 1500 ảnh chó). Thực nghiệm được thực hiện trên ba phương pháp tiếp cận khác nhau: Data, Model và Loss để giải quyết vấn đề dữ liệu mất cân bằng, áp dụng trên chín kỹ thuật khác nhau trong học máy, và đo lường hiệu suất qua chỉ số F1- score và accuracy. Kết quả nghiên cứu chỉ ra rằng việc lựa chọn thuật toán học máy phù hợp có tác động đáng kể đến hiệu quả của mô hình dự đoán.
Qua quá trình nghiên cứu, có một số kết luận như sau:
Bài viết này đưa ra góc nhìn sâu sắc về một thách thức lớn trong học máy và học sâu, đó là vấn đề dữ liệu mất cân bằng. Điều này đặc biệt quan trọng trong các tình huống phát hiện ngoại lệ, nơi mà dữ liệu cần dự đoán có xu hướng bị át đi bởi các dữ liệu khác chiếm đa số.
Bài viết khám phá và đánh giá một loạt các phương pháp tiếp cận từ việc điều chỉnh tập dữ liệu, tinh chỉnh mô hình, đến tối ưu hóa hàm mất mát để giải quyết vấn đề này. Nổi bật trong số đó là sự hiệu quả của kỹ thuật Transfer Learning khi áp dụng với mô hình Resnet-18, mang lại một giải pháp mạnh mẽ và đa dạng để nâng cao hiệu suất mô hình trên dữ liệu mất cân bằng.
Bài viết cung cấp một cái nhìn toàn diện và chi tiết về các phương pháp tiếp cận và giải quyết dữ liệu mất cân bằng trong lĩnh vực học sâu, đóng góp một hướng tiếp cận mới cho cộng đồng nghiên cứu và ứng dụng học máy. |