Trí tuệ nhân tạo [ Đăng ngày (08/10/2022) ]
NÂNG CAO KHẢ NĂNG PHÁT HIỆN XÂM NHẬP MẠNG SỬ DỤNG MẠNG CNN
Việc phát triển của các thiết bị tính toán và sự phổ biến của các ứng dụng mạng như thương mại điện tử, mạng xã hội, tính toán đám mây đã làm cho các vấn đề về an toàn thông tin càng trở nên phức tạp và cấp thiết.

Hành vi xâm nhập hệ thống có thể được coi là các hành động cố gắng làm tổn hại các thuộc tính an toàn của hệ thống, bao gồm bí mật, toàn vẹn và sẵn sàng, bằng cách vượt qua các cơ chế hay biện pháp đảm bảo an toàn của hệ thống tính toán hay mạng. Nói cách khác, người tấn công cố gắng thực hiện các hành động để lấy được quyền truy nhập tới đối tượng mong muốn của mình và các hành động này xâm phạm đến các chính sách an ninh của hệ thống. Để ngăn ngừa hiệu quả các hành động trái phép, rõ ràng hệ thống cần nhận được sự hỗ trợ từ việc phát hiện và cảnh báo chính xác về các hoạt động gây tổn hại đến an toàn thông tin của hệ thống. Việc phát hiện xâm nhập là quá trình xác định và đối phó với các hành vi xâm nhập nhằm vào các hệ thống tính toán hay mạng. Quá trình này được tiến hành dựa vào hệ thống phát hiện xâm nhập, thông qua việc giám sát các sự kiện xảy ra trong quá trình sử dụng hệ thống máy tính hay mạng và phân tích xem có dấu hiệu của việc xâm nhập hay không. Hệ thống phát hiện xâm nhập (IDS) có thể là hệ thống phần cứng hay phần mềm cho phép tự động hóa quá trình phát hiện hành vi xâm nhập và thông thường dựa trên hai phương pháp chính: dựa trên chữ ký và dựa trên bất thường. Phương pháp phát hiện xâm nhập dựa trên các dấu hiệu/chữ ký [6] là kỹ thuật căn bản của hệ thống phát hiện xâm nhập. Các dấu hiệu thường là các mô hình hay chuỗi ký tự tương ứng với các vụ tấn công hay mối đe dọa đã biết. Để phát hiện, IDS so sánh các mô hình với các sự kiện thu được để nhận biết việc xâm nhập. Phương pháp này còn được gọi là phương pháp dựa trên tri thức do sử dụng cơ sở tri thức về các hành vi xâm nhập trước đó. Rõ ràng, kỹ thuật này khó có thể phát hiện được các hành vi xâm nhập mới chưa có trong cơ sở tri thức của hệ thống cho dù có độ tin cậy và chính xác cao. Phương pháp phát hiện xâm nhập dựa trên bất thường [6] là phương pháp quan trọng trong hệ thống IDS. Sự bất thường được coi là sự khác biệt với hành vi đã biết bằng các lập hồ sơ các hành vi thông thường trên cơ sở việc theo dõi các hoạt động thường xuyên, các kết nối mạng, máy trạm hay người dùng qua một khoảng thời gian. Hệ thống phát hiện thực hiện việc so sánh các hồ sơ với các sự kiện quan sát được để nhận biết các vụ tấn công nghiêm trọng. Như vậy, phương pháp phát hiện dựa trên bất thường trang bị công cụ hữu hiệu cho người quản trị hệ thống để có thể chống chọi hiệu quả với các hình thức xâm nhập mới chưa được biết. Bài toán phân biệt các hành vi truy nhập hay sử dụng các tài nguyên của hệ thống là một trong những bài toán tiêu biểu của kỹ thuật học máy [12]. Về cơ bản, các kỹ thuật học máy giúp xây dựng mô hình cho phép tự động phân loại các lớp hành vi sử dụng hệ thống dựa trên các đặc trưng của các hành vi này. Có thể kể tên một số kỹ thuật tiêu biểu như các kỹ thuật dựa trên cây quyết định C4.5 [9], máy véc-tơ tựa SVM [7], mạng nơ-ron [10]. Trong thời gian gần đây, mô hình học sâu đã có tác động sâu rộng đến ứng dụng mô hình học máy, đặc biệt trong lĩnh vực như nhận dạng tiếng nói, xử lý ảnh và xử lý ngôn ngữ tự nhiên [3, 4]. Đặc trưng nổi bật của mô hình học sâu là việc sử dụng khối lượng lớn dữ liệu so với cách tiếp cận truyền thống. Các mô hình sử dụng nhiều tham số cho phép khai thác các thông tin trong tập dữ liệu khổng lồ một cách hiệu quả hơn. Hiện nay, có nhiều nghiên cứu về phát hiện xâm nhập sử dụng kỹ thuật học sâu và phân tích các mô hình xây dựng dựa trên bộ dữ liệu KDD 99 [13] hay NSLKDD [18] như [1, 5, 8, 11], tuy nhiên, rất ít trong số đó thể hiện hiệu quả sức mạnh của các kỹ thuật học sâu. Trong số các cách tiếp cận khác nhau trong học sâu, mạng nơ-ron tích chập (CNN) thể hiện khả năng vượt trội trong xử lý ảnh và nhiều lĩnh vực khác. Đây là một biến thể của mạng nơ-ron tiêu chuẩn, trong đó sử dụng các lớp tích chập và gộp thay thế cho các lớp ẩn được kết nối đầy đủ của một mạng nơ-ron truyền thống. Tuy nhiên, mặc dù mạng CNN thường cho thấy độ chính xác cao nhưng lại chưa được khai thác nhiều trong các hệ thống IDS. Bài báo này đề xuất một mô hình mạng CNN nhằm nâng cao độ chính xác và giảm mức độ cảnh báo sai trong các hệ thống phát hiện xâm nhập mạng. Ngoài ra, hiệu năng của mô hình CNN đề xuất sẽ được so sánh với một số kỹ thuật học máy cơ bản khác trên cơ sở bộ dữ liệu NSL-KDD. Phần còn lại của bài báo được trình bày như sau: Phần 2 trình bày một số nghiên cứu về phát hiện xâm nhập. Phần 3 mô tả phương pháp phát hiện xâm nhập đề xuất dựa trên CNN. Phần 4 đưa ra các kết quả thực nghiệm, đánh giá mô hình trên tập dữ liệu NSL-KDD, và so sánh với các phương pháp khác. Cuối cùng là phần kết luận.

Nghiên cứu do nhóm tác giả: Nguyễn Ngọc Điệp và Nguyễn Thị Thanh Thủy, Học viện Công nghệ Bưu chính Viễn thông thực hiện

Trong nghiên cứu này, Nhóm tác giả đề xuất phương pháp phát hiện xâm nhập mạng sử dụng mạng nơ-ron tích chập CNN và tiền xử lý dữ liệu.

Phát hiện xâm nhập mạng sử dụng CNN: CNN là một biến thể của mạng nơ-ron, với mục đích chính là tự động học các biểu diễn đặc trưng phù hợp cho dữ liệu đầu vào. CNN có hai điểm khác biệt chính so với MLP, đó là chia sẻ trọng số và pooling. Mỗi lớp CNN có thể bao gồm nhiều nhân tích chập được sử dụng để tạo bản đồ đặc trưng (feature map) khác nhau. Mỗi vùng của các nơ-ron lân cận được kết nối với một nơ-ron của bản đồ đặc trưng của lớp tiếp theo. Hơn nữa, để tạo bản đồ đặc trưng, tất cả các vị trí không gian của đầu vào đều chia sẻ nhân. Sau một số lớp tích chập và pooling, một hoặc nhiều lớp được kết nối đầy đủ được sử dụng để phân loại [20]. Mô hình CNN có 2 tính chất quan trọng là tính bất biến (Location Invariance) và tính kết hợp (Compositionality). Lớp pooling sẽ đảm bảo tính bất biến đối với phép dịch chuyển (translation), phép quay (rotation) và phép co giãn (scaling). Tính kết hợp cục bộ cho ta các cấp độ biểu diễn thông tin từ mức độ thấp đến mức độ cao và trừu tượng hơn thông qua convolution từ các bộ lọc. Hai tính chất này cho phép CNN tạo ra mô hình với độ chính xác rất cao, do giống cách con người nhận biết các vật thể trong tự nhiên.

Tiền xử lý dữ liệu: Mạng nơ-ron học sâu nhận các giá trị đầu vào là các thuộc tính/đặc trưng của mỗi hành vi truy nhập hệ thống, các giá trị này bắt buộc là các giá trị kiểu số thực. Tuy nhiên, giá trị thuộc tính của các hành vi truy nhập thực tế có thể theo giá trị kiểu loại, dưới dạng chữ. Ví dụ như kiểu truyền tin đối với mỗi truy nhập có thể là: “tcp” hay “udp”. Khi đó, ta cần chuyển các giá trị dạng này sang kiểu số thực. Việc này có thể được thực hiện bằng cách sử dụng véc-tơ one-hot thường thấy trong xử lý ngôn ngữ tự nhiên. Một véc-tơ one-hot là một ma trận 1xN sử dụng để phân biệt mỗi từ trong bộ từ vựng với các từ khác. Véc-tơ chứa các giá trị 0 tại toàn bộ vị trí trừ một vị trí chứa giá trị 1 để nhằm xác định từ đó.

Kết quả thực nghiệm và đánh giá: Tập dữ liệu cho các thử nghiệm phát hiện xâm nhập dựa trên phát hiện bất thường, sử dụng kỹ thuật mạng CNN đã đề xuất và các bộ phân lớp khác, gồm: mạng nơ-ron perceptron đơn giản, máy véc-tơ tựa SVM (sử dụng kỹ thuật SVC), cây quyết định (sử dụng thuật toán CART), rừng ngẫu nhiên (Random Forest), phân loại giảm gradient ngẫu nhiên (SGD) và mạng MLP. Một phần nội dung khác trình bày các tham số cấu hình cho các thử nghiệm và phần cuối cùng trình bày về kết quả thực nghiệm cùng các phân tích đánh giá.

Kết luận: Bài báo này nghiên cứu việc sử dụng mạng CNN cho việc phát hiện hành vi xâm nhập mạng trái phép để đảm bảo an toàn cho hệ thống thông tin. Ngoài ra, hiệu năng của mô hình mạng CNN đề xuất được kiểm nghiệm với các mô hình sử dụng các kỹ thuật tiêu biểu khác bao gồm rừng ngẫu nhiên, cây quyết định, giảm gradient ngẫu nhiên, máy véc tơ tựa SVM, và mạng MLP bằng tập dữ liệu NSL-KDD. Do đặc trưng của tập dữ liệu NSL-KDD, bài báo sử dụng phương pháp đánh giá kiểm tra chéo 10 lần trên toàn bộ tập dữ liệu nhằm đánh giá hiệu năng thuần túy của các kỹ thuật phân loại hành vi truy nhập. Kết quả cho thấy hiệu năng của kỹ thuật CNN thể hiện sự vượt trội so với các mô hình còn lại. Khi xác định chi tiết các hành vi xâm nhập, mô hình dựa trên CNN cũng vượt trội các kỹ thuật khác. Kết quả này đạt được là do các đặc tính ưu việt trong quá trình học đặc trưng của CNN, giúp mô hình có thể học được các đặc trưng tốt nhất để phân loại các tấn công.

ntdien
Theo Tạp chí KH CNTT và Truyền thông số 04B(CS.01) 2020
In bài viết  
Bookmark
Ý kiến của bạn

Xem nhiều

Tiêu điểm

Phát triển công nghiệp bán dẫn là cơ hội để Việt Nam tạo dựng lại ngành công nghiệp điện tử nước nhà
Tối ưu hóa nguồn lực hỗ trợ khởi nghiệp đổi mới sáng tạo
2024: Dự đoán 10 xu hướng khoa học
KH&CN năm 2024: Giải phóng các nguồn lực bằng những cơ chế mới
Những sự kiện khoa học đáng chú ý năm 2024
Tổng kết Ngày hội khởi nghiệp đổi mới sáng tạo thành phố Cần Thơ năm 2023 - TECHFEST CANTHO 2023
Khai mạc Ngày hội khởi nghiệp đổi mới sáng tạo thành phố Cần Thơ năm 2023 - TECHFEST CANTHO 2023
Thông cáo báo chí Ngày hội khởi nghiệp đổi mới sáng tạo thành phố Cần Thơ năm 2023 - TECHFEST CANTHO 2023
Sắp diễn ra Ngày hội khởi nghiệp đổi mới sáng tạo thành phố Cần Thơ năm 2023 - Techfest Cantho 2023 với chủ đề “Hào khí Tây Đô”
Trao Giải thưởng khoa học và công nghệ dành cho sinh viên toàn quốc năm 2023
Chiến lược, chính sách phát triển khoa học, công nghệ và đổi mới sáng tạo
Chuyển đổi số muốn thành công cần có chiến lược và chuyển đổi tự thân trong tổ chức
Việt Nam có tiềm năng trở thành trung tâm kinh tế số ảo của khu vực và thế giới
Khai mạc sự kiện triển lãm “Thành tựu khoa học và công nghệ Cần Thơ” trong chuỗi sự kiện “Thành phố Cần Thơ – 20 năm thành tựu và phát triển”
Cần Thơ - Trung tâm khoa học, công nghệ và đổi mới sáng tạo vùng đồng bằng sông Cửu Long
Siêu thị số  
 
Chính thức mở hệ thống dự thi vòng sơ loại trực tuyến Hội thi Tin học trẻ TP.HCM năm 2024
Sáng 16/3/2024, tại Trường THPT Tân Thông Hội, huyện Củ Chi, TP.HCM đã diễn ra lễ khai mạc “Vòng sơ loại Hội thi Tin học trẻ TP.HCM lần thứ 33” và Hội thi Tin học trẻ huyện Củ Chi năm 2024.


 
Công nghệ 4.0  
 
Chạy đua phát triển sản phẩm bảo vệ sức khỏe
Vài năm gần đây, người dân ngày càng quan tâm các vấn đề sức khỏe cá nhân nên ưu tiên lựa chọn sản phẩm tích hợp trí tuệ nhân tạo (AI) đáp ứng nhu cầu mới


 
Tin học  
 
Chính thức mở hệ thống dự thi vòng sơ loại trực tuyến Hội thi Tin học trẻ TP.HCM năm 2024
Sáng 16/3/2024, tại Trường THPT Tân Thông Hội, huyện Củ Chi, TP.HCM đã diễn ra lễ khai mạc “Vòng sơ loại Hội thi Tin học trẻ TP.HCM lần thứ 33” và Hội thi Tin học trẻ huyện Củ Chi năm 2024.


 



© Copyright 2020 Trung tâm Thông tin Khoa học và Công nghệ - Sở Khoa học & Công nghệ TP. Cần Thơ
Địa chỉ: 118/3 Trần Phú - Phường Cái Khế - Quận Ninh Kiều - thành phố Cần Thơ
Giấy phép số: 05/ GP-TTĐT, do Sở Thông tin và Truyền Thông thành phố Cần Thơ cấp ngày 23/5/2017
Trưởng Ban biên tập: Ông Vũ Minh Hải - Giám Đốc Trung tâm Thông tin Khoa học và Công nghệ - Sở Khoa học & Công nghệ TP. Cần Thơ
Ghi rõ nguồn www.trithuckhoahoc.vn khi bạn sử dụng lại thông tin từ website này
-->