Tin học [ Đăng ngày (29/03/2025) ]
Vấn đề mất cân bằng dữ liệu và một số phương pháp xử lý dữ liệu mất cân bằng trong mô hình học sâu
Nghiên cứu được thực hiện bởi nhóm tác giả Tống Lê Thanh Hải và Phạm Ngọc Giàu thuộc Trường Đại học Tiền Giang và Trường Đại học Trà Vinh. Nghiên cứu được đăng trên Tạp chí Khoa học Đại học Cần Thơ Tập 60, Số 5A (2024): 50-58.

Một tập dữ liệu được xem là mất cân bằng khi có sự chênh lệch lớn về số lượng mẫu giữa các lớp phân loại. Điều này xảy ra khi có một lớp chứa số lượng mẫu lớn hơn hẳn so với các lớp khác. Trong trường hợp này, một mô hình phân loại có thể đạt được độ chính xác cao khi dự đoán trên lớp có số lượng mẫu lớn, nhưng lại hoạt động kém hiệu quả trên lớp có ít mẫu. Do đặc điểm này, các thuật toán học máy truyền thống thường không phát huy hiệu quả trên tập dữ liệu mất cân bằng, dẫn đến việc phát triển các phương pháp và kỹ thuật mới nhằm cải thiện khả năng dự đoán của các thuật toán học máy trên những tập dữ liệu như vậy.

Bài viết này tập trung vào việc khám phá thuật toán lấy mẫu dữ liệu (data sampling) gồm có lấy mẫu giảm (under-sampling) và lấy mẫu tăng (oversampling) và sự kết hợp giữa lấy mẫu giảm với lấy mẫu tăng nhằm giải quyết vấn đề mất cân bằng dữ liệu thông qua cách tiếp cận dựa trên dữ liệu. Ngoài ra, thuật toán Focal Loss cũng được xem xét để giải quyết vấn đề tương tự nhưng thông qua cách tiếp cận dựa trên hàm mất mát và đề xuất giới thiệu phương pháp áp dụng Transfer Learning với mô hình Resnet-18 tiếp cận Model. Trong quá trình nghiên cứu, các thuật toán học máy được xây dựng, triển khai, thực nghiệm và đánh giá; sử dụng tập dữ liệu Cat-Dog (Bộ dữ liệu huấn luyện: 1000 ảnh mèo, 11000 ảnh chó; Bộ dữ liệu kiểm thử: 1500 ảnh mèo, 1500 ảnh chó). Thực nghiệm được thực hiện trên ba phương pháp tiếp cận khác nhau: Data, Model và Loss để giải quyết vấn đề dữ liệu mất cân bằng, áp dụng trên chín kỹ thuật khác nhau trong học máy, và đo lường hiệu suất qua chỉ số F1- score và accuracy. Kết quả nghiên cứu chỉ ra rằng việc lựa chọn thuật toán học máy phù hợp có tác động đáng kể đến hiệu quả của mô hình dự đoán.

Qua quá trình nghiên cứu, có một số kết luận như sau:

Bài viết này đưa ra góc nhìn sâu sắc về một thách thức lớn trong học máy và học sâu, đó là vấn đề dữ liệu mất cân bằng. Điều này đặc biệt quan trọng trong các tình huống phát hiện ngoại lệ, nơi mà dữ liệu cần dự đoán có xu hướng bị át đi bởi các dữ liệu khác chiếm đa số.

Bài viết khám phá và đánh giá một loạt các phương pháp tiếp cận từ việc điều chỉnh tập dữ liệu, tinh chỉnh mô hình, đến tối ưu hóa hàm mất mát để giải quyết vấn đề này. Nổi bật trong số đó là sự hiệu quả của kỹ thuật Transfer Learning khi áp dụng với mô hình Resnet-18, mang lại một giải pháp mạnh mẽ và đa dạng để nâng cao hiệu suất mô hình trên dữ liệu mất cân bằng.

Bài viết cung cấp một cái nhìn toàn diện và chi tiết về các phương pháp tiếp cận và giải quyết dữ liệu mất cân bằng trong lĩnh vực học sâu, đóng góp một hướng tiếp cận mới cho cộng đồng nghiên cứu và ứng dụng học máy.

nhahuy
Theo Tạp chí Khoa học Đại học Cần Thơ Tập 60, Số 5A (2024): 50-58
In bài viết  
Bookmark
Ý kiến của bạn

Xem nhiều

Tiêu điểm

Microsoft cáo buộc nhóm tin tặc đứng sau mạng lưới Deepfake AI
Công nghệ lưu trữ lượng tử vừa đạt đột phá: Chứa 5.000 phim 4K trên một tinh thể bé hơn đầu ngón tay?
Sony tuyên bố hợp tác gây chấn động ngành game, mang tính năng độc quyền trên AMD RX 9000 đến PS5 Pro, vạch ra tương lai cho PS6
Startup xe điện Dat Bike đã không còn "trong tay” người Việt
Trung Quốc tự đẩy mình vào 'thời khắc sinh tử': 300 startup xe điện chỉ còn 7 hãng lớn có thể tồn tại, chiến trường xe điện khốc liệt hơn bất kỳ lúc nào
Chuyên gia Phạm Chi Lan chỉ ra 4 điểm yếu của các nhà sáng lập Việt: Nhiều startup cho rằng xuất khẩu được mới 'oai', trong khi thị trường nội còn khó hơn ngoại
Startup KAMEREO ‘ấm bụng’ trong ‘mùa đông gọi vốn’: Hoàn tất vòng Series B với 7,8 triệu USD từ 5 ‘đồng hương’ Nhật Bản
Founder - CEO Amslink: Kiến tạo tương lai Anh ngữ cho thế hệ trẻ Việt
CASTI Awards 2024 - Tôn vinh sản phẩm khoa học, công nghệ và đổi mới sáng tạo
Thông cáo báo chí Hội thảo “Phát triển hệ sinh thái số về nguồn tin khoa học, công nghệ và đổi mới sáng tạo phục vụ phát triển kinh tế - xã hội thành phố Cần Thơ”
Khai mạc Chợ công nghệ và thiết bị chuyên ngành Nông nghiệp Cần Thơ 2024 – Tech4Agri CanTho 2024
Lãnh đạo thành phố tham quan, trải nghiệm các công nghệ, thiết bị tại Tech4Agri CanTho 2024
Các ứng dụng AI trong nông nghiệp
Hành trình Tech4Agri CanTho 2024 – với chủ đề “Khoa học, công nghệ và đổi mới sáng tạo – Đánh thức nền nông nghiệp đa giá trị”
Gần 300 công nghệ, thiết bị và sản phẩm dự kiến trưng bày, giới thiệu tại Tech4Agri CanTho 2024
Siêu thị số  
 
Thiết kế, chế tạo và thử nghiệm hệ thống cân đa đầu
Nghiên cứu được thực hiện bởi nhóm tác giả Trần Nhựt Thanh, Dương Công Thương, Nguyễn Phước Ân, Đái Tiến Trung và Nguyễn Hoàng Dũng thuộc Khoa Tự động hóa, Trường Bách Khoa, Trường Đại học Cần Thơ. Nghiên cứu được đăng trên Tạp chí Khoa học Đại học Cần Thơ Tập 60, Số Chuyên đề SDMD (2024): 305-315.


 
Công nghệ 4.0  
 
AI có mô phỏng được cách viết của con người không?
Với sự phát triển của các mô hình ngôn ngữ lớn (LLMs) như ChatGPT và Llama, một câu hỏi luôn thường trực là liệu các mô hình này có thể mô phỏng được cách viết của con người hay không. Một nhóm các nhà nghiên cứu từ Đại học Carnegie Mellon đã tìm kiếm câu trả lời cho câu hỏi này và công bố kết quả nghiên cứu trên tạp chí Proceedings of the National Academy of Sciences (PNAS).


 
Điện tử  
 
Thiết kế bộ sạc pin điều khiển mờ tối ưu dùng giải thuật di truyền
Nguồn năng lượng pin đang là một trong những chủ đề nóng trong ngành công nghiệp tự động, từ bộ lưu điện (Uninterruptible Power Supply – UPS) đến cuộc đua xe điện của nhiều hãng xe lớn. Tuy vậy, thử thách lớn nhất trong sử dụng pin chính là thời gian sạc, nhiệt độ và tuổi thọ của pin.


 
Tin học  
 
Thiết kế, chế tạo và thử nghiệm hệ thống cân đa đầu
Nghiên cứu được thực hiện bởi nhóm tác giả Trần Nhựt Thanh, Dương Công Thương, Nguyễn Phước Ân, Đái Tiến Trung và Nguyễn Hoàng Dũng thuộc Khoa Tự động hóa, Trường Bách Khoa, Trường Đại học Cần Thơ. Nghiên cứu được đăng trên Tạp chí Khoa học Đại học Cần Thơ Tập 60, Số Chuyên đề SDMD (2024): 305-315.


 



© Copyright 2020 Trung tâm Thông tin Khoa học và Công nghệ - Sở Khoa học & Công nghệ TP. Cần Thơ
Địa chỉ: 118/3 Trần Phú - Phường Cái Khế - Quận Ninh Kiều - thành phố Cần Thơ
Giấy phép số: 05/ GP-TTĐT, do Sở Thông tin và Truyền Thông thành phố Cần Thơ cấp ngày 23/5/2017
Trưởng Ban biên tập: Ông Vũ Minh Hải - Giám Đốc Trung tâm Thông tin Khoa học và Công nghệ - Sở Khoa học & Công nghệ TP. Cần Thơ
Ghi rõ nguồn www.trithuckhoahoc.vn khi bạn sử dụng lại thông tin từ website này
-->