Tin học [ Đăng ngày (19/05/2021) ]
Ứng dụng phân tích dữ liệu và phân lớp giám sát Naive Bayes phát hiện gian lận trong thanh toán trực tuyến
Bài viết này nghiên cứu về một số thuật toán học máy có giám sát: Sử dụng mạng Bayes, cây tăng cường Naïve Bayes (Tree Augmented Naïve Bayes – TAN) và Naïve Bayes trong bài toán phân lớp nhị phân dựa trên dữ liệu là hơn 4 triệu bản ghi giao dịch tín dụng trực tuyến tương ứng với khoảng 80 nghìn mã thẻ nhằm phát hiện giao dịch gian lận. Sau khi tiền xử lý dữ liệu bằng phương pháp chuẩn tắc và phân tích thành phần chính (Principal Component Analysis-PCA), tất cả các thuật toán phân lớp đạt độ chính xác hơn 95% so với bộ dữ liệu chưa qua tiền xử lý.

Những năm gần đây, gian lận thẻ tín dụng phát triển đến mức đáng báo động. Theo báo cáo của Nilson, tổn thất gian lận thẻ tín dụng toàn cầu đạt 16,31 tỷ đô trong năm 2014 và ước tính sẽ vượt mức 35 tỷ đô vào năm 2022. Do đó, việc phát triển kỹ thuật phát hiện và ngăn chặn gian lận thẻ tín dụng là cần thiết để chống lại hoạt động phi pháp tài chính này. Kỹ thuật phát hiện gian lận thẻ tín dụng được biết đến là quá trình phân lớp, xác định xem một giao dịch tín dụng có phải là gian lận hay không. Phương pháp khai phá dữ liệu kết hợp cùng các thuật toán học máy ngày nay được sử dụng rộng rãi để chống lại các hành vi thám mã trực tuyến nói chung.

Nhóm nghiên cứu đã ứng dụng khai phá dữ liệu để xác định các mẫu và mô hình từ lượng lớn dữ liệu đã có. Khả năng trích xuất thông tin của khai phá dữ liệu từ tập dữ liệu quy mô lớn sử dụng các kỹ thuật thống kê và toán học sẽ hỗ trợ phát hiện gian lận thẻ tín dụng dựa trên việc phân biệt các đặc điểm của giao dịch bình thường và giao dịch gian lận. Trong khi kỹ thuật khai phá dữ liệu tập trung vào việc tìm ra những thông tin có giá trị, thì thuật toán học máy sẽ tập trung vào việc xây dựng, trích chọn, nghiên cứu các đặc trưng của dữ liệu, từ đó phát triển mô hình nhằm phân lớp, phân cụm dữ liệu. Ứng dụng của các thuật toán học máy trải rộng trên hầu hết mọi lĩnh vực khoa học máy tính như: Lọc thư rác, tạo chiến dịch quảng cáo online theo thói quen người dùng, chấm điểm tín dụng, phát hiện gian lận giao dịch cổ phiếu, và nhiều ứng dụng khác. Nổi bật trong lĩnh vực học máy này là bài toán phân lớp, bài toán này được giải quyết bằng cách xây dựng, phát triển một mô hình học máy từ mẫu dữ liệu đầu vào, mô hình này sẽ được sử dụng để dự đoán hoặc quyết định cho các dữ liệu đầu vào tiếp theo một cách linh hoạt, tự động thay vì hoạt động như một chương trình lập trình sẵn theo từng trường hợp cụ thể. Có rất nhiều phương pháp học máy khác nhau để xử lý các bài toán khác nhau.

Có khá nhiều các nghiên cứu tận dụng thế mạnh của kỹ thuật khai phá dữ liệu, thuật toán học máy ngăn chặn các hành vi gian lận giao dịch thẻ tín dụng. Ứng dụng kỹ thuật khai phá dữ liệu SOM (Self-Organizing Map) và mạng Nơ-ron cho kết quả lên đến 95% các trường hợp gian lận được dự đoán chính xác. Mô hình Markov ẩn cũng được áp dụng trong phát hiện gian lận thẻ tín dụng với tỷ lệ dự đoán sai giao dịch gian lận khá thấp. Tuy vậy, quá trình chuyển đổi trạng thái khác nhau và việc tính toán xác suất trong mô hình Markov ẩn rất phức tạp và tiêu tốn tài nguyên. Thay vì sử dụng phân lớp dữ liệu, một số nghiên cứu phát hiện gian lận thẻ tín dụng đi theo hướng tiếp cận đó là học phương pháp học dựa trên các thuật toán học máy có giám sát.

Qua quá trình nghiên cứu và thực hiện, nhóm thực hiện nghiên cứu đã trình bày cơ sở lý thuyết về phân tích dữ liệu và phân lớp giám sát NAÏVE BAYES. Hai bộ dữ liệu một bộ dữ liệu thô, một bộ dữ liệu mới đã được sử dụng trong thử nghiệm. Kết quả trên bộ dữ liệu mới được chuẩn hóa với các tham số tương ứng tốt hơn nhiều so với bộ dữ liệu thô ban đầu.

lqnhu
Theo Tạp chí Khoa học & Công nghệ ĐHTN
In bài viết  
Bookmark
Ý kiến của bạn

Video




© Copyright 2020 Trung tâm Thông tin Khoa học và Công nghệ - Sở Khoa học & Công nghệ TP. Cần Thơ
Địa chỉ: 118/3 Trần Phú - Phường Cái Khế - Quận Ninh Kiều - thành phố Cần Thơ
Giấy phép số: 05/ GP-TTĐT, do Sở Thông tin và Truyền Thông thành phố Cần Thơ cấp ngày 23/5/2017
Trưởng Ban biên tập: Ông Vũ Minh Hải - Giám Đốc Trung tâm Thông tin Khoa học và Công nghệ - Sở Khoa học & Công nghệ TP. Cần Thơ
Ghi rõ nguồn www.trithuckhoahoc.vn khi bạn sử dụng lại thông tin từ website này
-->
-->