Trí tuệ nhân tạo [ Đăng ngày (08/10/2022) ]
KSI - PHƯƠNG PHÁP KẾT HỢP PHÂN CỤM VỚI BỘ LỌC TÁI LẤY MẪU ĐỂ LOẠI BỎ NHIỄU TRONG DỮ LIỆU MẤT CÂN BẰNG
Ngày nay, với sự xuất hiện ngày càng quan trọng của dữ liệu lớn, nghiên cứu về xử lý và khai phá dữ liệu lớn trở thành một chủ đề nóng, thách thức các phương pháp học máy truyền thống với mong muốn nhanh, hiệu quả, và chính xác. Hiện nay chưa có một phương pháp hiệu quả nào khai phá các loại dữ liệu thực tế. Đặc biệt, một khó khăn nữa mà chúng ta cũng thường phải đối mặt là dữ liệu mất cân bằng.

Cụ thể như xác định những giao dịch thẻ tín dụng gian lận [1], kiểm tra các xâm nhập mạng trái phép [2], phát hiện vết dầu loang từ hình ảnh vệ tinh [3], các chuẩn đoán, dự đoán trong y sinh học [4]. Các phương pháp phân lớp dữ liệu chuẩn truyền thống thường gặp nhiều khó khăn do việc học bị lệch sang lớp đa số, dẫn đến độ chính xác thấp khi dự đoán lớp thiểu số. Một số giải pháp cho vấn đề phân lớp dữ liệu mất cân bằng được đưa ra là dựa trên mức độ dữ liệu và mức độ thuật toán. Ở cấp độ thuật toán, các giải pháp cố gắng cải tiến các thuật toán phân lớp truyền thống để tăng cường việc học với các mẫu trong lớp thiểu số. Cụ thể như một số thuật toán học dựa trên chi phí với việc đặt thêm trọng số cho lớp thiểu số [5], điều chỉnh xác xuất dự đoán ở lá đối với phương pháp cây quyết định [6], bổ sung thêm hằng số phạt khác nhau cho mỗi lớp hoặc điều chỉnh ranh giới phân lớp cải tiến thuật toán máy vector hỗ trợ. Ở cấp độ dữ liệu, mục đích là để cân bằng sự phân bố các lớp bởi việc điều chỉnh mẫu vùng dữ liệu theo hai hướng gồm giảm kích thước mẫu lớp đa số hoặc tăng kích thước mẫu lớp thiểu số. Trong đó, có một số phương pháp phổ biến được áp dụng như Condensed Nearest Neighbor Rule (CNN) [7], Neighborhood Cleaning Rule (NCL) [8], Tomek links [9], SMOTE [10], BorderlineSMOTE [11], Safe-level-SMOTE [12]. Ngoài ra, một số nghiên cứu khác sử dụng các bộ lọc như lọc tập hợp EF [13], lọc phân vùng IPF [14] kết hợp với các phương pháp sinh thêm phần tử nhằm nâng cao hiệu quả phân lớp. Cụ thể như phương pháp SMOTE-IPF [15] được giới thiệu năm 2015 nhằm xử lý nhiễu trong các phân lớp mất cân bằng. Mặc dù các phương pháp trên đã có những hiệu quả nhất định đối với phân lớp dữ liệu mất cân bằng có phần tử nhiễu. Tuy nhiên, các phương pháp này vẫn có những hạn chế nhất định như: SMOTE có một số hạn chế liên quan đến sinh thêm phần tử “mù”. Bởi việc sinh thêm các phần tử nhân tạo (ở lớp thiểu số) chỉ làm một cách hình thức và do đó những phần tử ở mỗi lớp có thể bị gần sát nhau. Trong khi các đặc tính khác của dữ liệu bị bỏ qua như sự phân bố của các phần tử ở lớp đa số và thiểu số ở từng vùng khác nhau. Từ đó, tác giả đề xuất mở rộng mới (KSI) của SMOTE-IPF thông qua việc phân cụm, nhằm xác định các cụm dữ liệu có những phần tử lớp là thiểu số ở toàn cục nhưng lại là phần tử chiếm đa số trong cục bộ cụm. Dựa vào đó chúng tôi có cơ chế sinh thêm phần tử nhân tạo một cách phù hợp hơn, nâng cao hiệu quả phân lớp dữ liệu hơn. Trước khi đi vào giới thiệu chi tiết phương pháp KSI ở phần III, phần II sẽ trình bày về tiêu chí đánh giá. Một số kết quả đạt được và đánh giá sẽ được trình bày trong phần IV, và cuối cùng là phần kết luận.

Nghiên cứu do nhóm tác giả: Bùi Dương Hưng Trường Đại học Công đoàn, Vũ Văn Thỏa Học viện Công nghệ Bưu chính Viễn thông và Đặng Xuân Thọ Trường Đại học Sư phạm Hà Nội.

Tiêu chí đánh giá: Nhằm đánh giá hiệu quả giữa các phương pháp phân lớp dữ liệu, đầu tiên, chúng ta xác định ma trận nhầm lẫn đối với phân lớp dữ liệu nhị phân, như được chỉ ra trong Bảng 1, TP là số lượng phần tử lớp positive được dự đoán đúng, FN là số lượng phần tử thực sự là positive nhưng bị dự đoán nhầm là negative, FP là số lượng phần tử thực sự là negative nhưng bị dự đoán nhầm là positive, TN là số lượng phần tử lớp negative được dự đoán đúng.

Trong nghiên cứu này, Nhóm tác giả sử dụng phương pháp SMOTE Thuật toán SMOTE (Synthetic Minority Over-sampling Technique), Phương pháp lọc phân vùng lặp lại IPF (Iterative-Partitioning Filter).

Thuật toán SMOTE (Synthetic Minority Over-sampling Technique) được đề xuất năm 2002, nhằm giải quyết vấn đề mất cân bằng dữ liệu [10]. Đây là một trong những cách tiếp cận nổi tiếng nhất do sự đơn giản và hiệu quả của nó. Cụ thể SMOTE sinh thêm phần tử nhân tạo bằng cách như sau: đầu tiên tìm hàng xóm gần nhất của mỗi phần tử của lớp thiểu số; sau đó chọn ngẫu nhiên một trong số những hàng xóm gần nhất; cuối cùng sinh thêm phần tử nhân tạo trên đoạn thẳng nối phần tử đang xét và láng giềng được lựa chọn bằng cách tính độ lệch giữa véc tơ thuộc tính của phần tử lớp thiểu số đang xét và láng giềng của nó.

Phương pháp IPF Phương pháp lọc phân vùng lặp lại IPF (IterativePartitioning Filter) [14] loại bỏ các trường hợp nhiễu bằng cách lặp đi lặp lại cho đến khi đạt được một tiêu chí dừng. Quá trình lặp sẽ dừng nếu, đối với một số lặp lặp đi lặp lại, số lượng các phần tử nhiễu được xác định trong mỗi lần lặp lại này ít hơn 1% kích thước của tập dữ liệu huấn luyện ban đầu. Các bước cơ bản của mỗi lần lặp là: (1) Chia tập dữ liệu huấn luyện DT hiện tại thành các tập hợp con bằng nhau. (2) Xây dựng mô hình với thuật toán C4.5 trên mỗi tập con này và sử dụng chúng để đánh giá toàn bộ tập dữ liệu huấn luyện hiện tại DT. (3) Thêm vào DN các ví dụ nhiễu được xác định trong DT sử dụng một chương trình bỏ phiếu. (4) Loại bỏ nhiễu từ tập huấn luyện: FS = DT \ DN Quá trình lặp đi lặp lại kết thúc khi điều kiện dừng thỏa mãn, đó là, trong ba lần lặp lại liên tiếp, nếu số lượng các ví dụ nhiễu được xác định trong mỗi lần lặp là ít hơn 1% kích thước của các tập dữ liệu huấn luyện ban đầu, quá trình lặp đi lặp lại dừng.

C. Phương pháp KSI

Phương pháp SMOTE-IPF [15] được giới thiệu năm 2015 nhằm xử lý nhiễu trong các phân lớp mất cân bằng. Mặc dù SMOTE-IPF đã có những hiệu quả nhất định đối với mất cân bằng lớp có dữ liệu nhiễu, tuy nhiên phương pháp này vẫn có những hạn chế như: SMOTE có một số hạn chế liên quan đến sinh thêm phần tử “mù”. Bởi việc sinh thêm các phần tử nhân tạo (ở lớp thiểu số) chỉ làm một cách hình thức và do đó những phần tử ở mỗi lớp có thể bị gần sát nhau. Trong khi các đặc tính khác của dữ liệu bị bỏ qua như sự phân bố của các phần tử ở lớp đa số và thiểu số ở từng vùng khác nhau, cụ thể như ở một số vùng dữ liệu, các phần tử lớp thiểu số ở toàn cục nhưng lại là phần tử chiếm đa số trong cục bộ vùng dữ liệu đó. Từ đó, tác giả đề xuất mở rộng mới của SMOTEIPF là thuật toán KSI (K-means-SMOTE-IPF) thông qua việc phân cụm, nhằm xác định các cụm dữ liệu có những phần tử lớp là thiểu số ở toàn cục nhưng lại là phần tử chiếm đa số trong cục bộ cụm. Dựa vào đó chúng tôi có cơ chế sinh thêm phần tử nhân tạo một cách phù hợp hơn, nâng cao hiệu quả phân lớp dữ liệu hơn. Mô hình thuật toán đề xuất KSI được mô tả chi tiết ở Hình 1. Đầu tiên, bộ dữ liệu được chia làm 10 phần, trong đó 9 phần làm tập huấn luyện, còn 1 phần làm tập kiểm thử. Sau đó, tập dữ liệu huấn luyện được phân cụm thành từng vùng dữ liệu nhằm kiểm tra mức độ mất cân bằng tại từng cụm cục bộ. Những cụm có phần tử lớp thiểu số ở toàn cục nhưng lại chiếm đa số tại cụm đó thì sẽ được giữ nguyên, không cần sinh thêm phần tử nhân tạo ở những vùng này. Ngược lại, ở những cụm các phần tử thiểu số ở toàn cục cũng là thiểu số ở cục bộ sẽ được áp dụng SMOTE và bộ lọc IPF. Cuối cùng chúng ta thu được tập dữ liệu mới. Chi tiết thuật toán KSI được mô tả như sau: Input: Bộ dữ liệu huấn luyện (Train) gồm P phần tử thiểu số (positive) và N phần tử đa số (negative). Output: Tập các phần tử nhân tạo thuộc lớp thiểu số.

Thực nghiệm và đánh giá: Các bộ dữ liệu được sử dụng là các bộ dữ liệu thực tế áp dụng cho phân lớp mất cân bằng với các phần tử nhiễu và đường biên, các bộ dữ liệu dành cho phân lớp mất cân bằng khác. Các bộ dữ liệu này có sẵn tại kho dữ liệu KEEL (http://keel.es) và kho dữ liệu UCI [22]. Để đánh giá hiệu quả của phương pháp đề xuất KSI, chúng tôi đã tiến hành thực nghiệm trên các bộ dữ liệu được trình bày trong Bảng 2 với các phương pháp điều chỉnh dữ liệu: Original, SMOTE, IPF, SMOTE – IPF, và phương pháp KSI. Sau khi áp dụng các phương pháp điều chỉnh dữ liệu, các bộ dữ liệu mới được phân lớp bằng thuật toán phân lớp “bagging tree”. Kết quả so sánh cuối cùng là giá trị trung bình của AUC và G-mean sau 20 lần thực hiện các phương pháp trên.

Kết luận: Trong bài báo này, chúng tôi đã tập trung vào giải quyết của các phần tử nhiễu, đây là một vấn đề nghiên cứu quan trọng trong dữ liệu mất cân bằng. Đồng thời, chúng tôi nghiên cứu đề xuất thuật toán KSI mở rộng thuật toán SMOTE kết hợp với bộ lọc nhiễu IPF (SMOTE-IPF) nhằm kiểm soát tốt hơn các phần tử nhiễu được tạo ra bởi SMOTE. Sự phù hợp của cách tiếp cận trong phương pháp đề xuất đã được phân tích. Các kết quả thực nghiệm với độ đo AUC và G-mean đã chỉ ra rằng đề xuất KSI của chúng tôi có hiệu suất đáng chú ý hơn khi áp dụng vào các tập dữ liệu mất cân bằng với các phần tử nhiễu trên các bộ dữ liệu thực tế. Mặc dù phương pháp KSI đã đạt được hiểu quả phân lớp tốt hơn so với một số phương pháp khác, vẫn còn nhiều chủ đề khác cần xem xét kỹ hơn trong hướng nghiên cứu này. Trong thời gian tới, chúng tôi nhận thấy có thể điều chỉnh cải tiến phương pháp KSI bằng cách áp dụng một số bộ lọc mới hiện nay như INFFC có thể cho kết quả lọc nhiễu tốt hơn bộ lọc IPF, từ đó có thể nâng cao hiệu quả thuật toán phân lớp dữ liệu mất cân bằng. Bên cạnh đó, có thể kết hợp KSI với giảm chiều dữ liệu để áp dụng cho các bộ dữ liệu mất cân bằng có số lượng phần tử và thuộc tính lớn.

ntdien
Theo Tạp chí KH CNTT và Truyền thông số 02(CS01) 2019
In bài viết  
Bookmark
Ý kiến của bạn


Marketing xanh trong khởi nghiệp: Yếu tố cốt lõi để phát triển bền vững
Marketing xanh đang trở thành một xu hướng quan trọng trong bối cảnh môi trường ngày càng bị đe dọa. Đây không chỉ là một chiến lược kinh doanh mà còn thể hiện trách nhiệm xã hội của doanh nghiệp. Việc áp dụng Marketing xanh giúp giảm thiểu tác động tiêu cực đến môi trường, đồng thời tạo lợi thế cạnh tranh và thu hút khách hàng có ý thức bền vững. Bài viết này sẽ phân tích các yếu tố quan trọng của Marketing xanh, bao gồm thiết kế xanh, hình ảnh thương hiệu xanh, chiến lược giá, logistics xanh và vòng đời sản phẩm bền vững.





© Copyright 2020 Trung tâm Thông tin Khoa học và Công nghệ - Sở Khoa học & Công nghệ TP. Cần Thơ
Địa chỉ: 118/3 Trần Phú - Phường Cái Khế - Quận Ninh Kiều - thành phố Cần Thơ
Giấy phép số: 05/ GP-TTĐT, do Sở Thông tin và Truyền Thông thành phố Cần Thơ cấp ngày 23/5/2017
Trưởng Ban biên tập: Ông Vũ Minh Hải - Giám Đốc Trung tâm Thông tin Khoa học và Công nghệ - Sở Khoa học & Công nghệ TP. Cần Thơ
Ghi rõ nguồn www.trithuckhoahoc.vn khi bạn sử dụng lại thông tin từ website này
-->