Công nghiệp [ Đăng ngày (22/09/2022) ]
Sử dụng trí tuệ nhân tạo để tìm điểm bất thường ẩn trong tập dữ liệu lớn
Xác định sự cố trong lưới điện Hoa Kỳ có thể giống như mò kim đáy bể. Hàng trăm nghìn cảm biến có liên quan đến nhau trải khắp Hoa Kỳ thu thập dữ liệu về dòng điện, điện áp và các thông tin quan trọng khác trong thời gian thực, thường ghi nhiều bản ghi mỗi giây

Các nhà nghiên cứu tại Phòng thí nghiệm Watson AI của MIT-IBM đã phát minh ra một phương pháp tính toán hiệu quả có thể tự động xác định các điểm bất thường trong các luồng dữ liệu đó theo thời gian thực. Họ đã chứng minh rằng phương pháp trí tuệ nhân tạo của họ, học cách lập mô hình tính liên kết của lưới điện, phát hiện những trục trặc này tốt hơn nhiều so với một số kỹ thuật phổ biến khác.

Bởi vì mô hình học máy mà họ phát triển không yêu cầu dữ liệu chú thích về các dị thường của lưới điện để đào tạo, nên sẽ dễ dàng áp dụng hơn trong các tình huống thực tế, nơi thường khó có được các bộ dữ liệu có nhãn, chất lượng cao. Mô hình này cũng linh hoạt và có thể được áp dụng cho các tình huống khác khi có rất nhiều cảm biến được kết nối với nhau thu thập và báo cáo dữ liệu, như hệ thống giám sát giao thông. Ví dụ, nó có thể xác định tắc nghẽn giao thông hoặc tiết lộ mức độ ùn tắc giao thông.

“Trong trường hợp lưới điện, người ta đã cố gắng nắm bắt dữ liệu bằng cách sử dụng thống kê và sau đó xác định các quy tắc phát hiện với kiến ​​thức miền để nói rằng, ví dụ, nếu điện áp tăng theo một tỷ lệ phần trăm nhất định, thì người vận hành lưới phải được cảnh báo. Các hệ thống dựa trên quy tắc như vậy, thậm chí được trao quyền bởi phân tích dữ liệu thống kê, đòi hỏi rất nhiều lao động và chuyên môn. Chúng tôi cho thấy rằng chúng tôi có thể tự động hóa quá trình này và cũng có thể học các mẫu từ dữ liệu bằng cách sử dụng các kỹ thuật học máy tiên tiến, ”tác giả cấp cao Jie Chen, nhân viên nghiên cứu và quản lý của MIT-IBM Watson AI Lab cho biết.

Đồng tác giả là Enyan Dai, một thực tập sinh của MIT-IBM Watson AI Lab và là sinh viên tốt nghiệp tại Đại học Bang Pennsylvania. Nghiên cứu này sẽ được trình bày tại Hội nghị Quốc tế về Đại diện Học tập.

Các nhà nghiên cứu bắt đầu bằng cách định nghĩa một sự bất thường là một sự kiện có khả năng xảy ra thấp, giống như một sự tăng vọt điện áp đột ngột. Họ coi dữ liệu lưới điện như một phân bố xác suất, vì vậy nếu họ có thể ước tính mật độ xác suất, họ có thể xác định các giá trị mật độ thấp trong tập dữ liệu. Những điểm dữ liệu ít có khả năng xảy ra nhất tương ứng với các điểm bất thường.

Việc ước tính những xác suất đó không phải là nhiệm vụ dễ dàng, đặc biệt là vì mỗi mẫu ghi lại nhiều chuỗi thời gian và mỗi chuỗi thời gian là một tập hợp các điểm dữ liệu đa chiều được ghi lại theo thời gian. Thêm vào đó, các cảm biến thu thập tất cả dữ liệu đó có điều kiện với nhau, có nghĩa là chúng được kết nối trong một cấu hình nhất định và một cảm biến đôi khi có thể tác động đến những cảm biến khác.

Để tìm hiểu phân phối xác suất có điều kiện phức tạp của dữ liệu, các nhà nghiên cứu đã sử dụng một loại mô hình học sâu đặc biệt được gọi là quy trình chuẩn hóa, đặc biệt hiệu quả trong việc ước tính mật độ xác suất của một mẫu.

Họ đã tăng cường mô hình dòng chảy chuẩn hóa đó bằng cách sử dụng một loại biểu đồ, được gọi là mạng Bayes, có thể tìm hiểu cấu trúc mối quan hệ nhân quả, phức tạp giữa các cảm biến khác nhau. Cấu trúc đồ thị này cho phép các nhà nghiên cứu nhìn thấy các mẫu trong dữ liệu và ước tính sự bất thường chính xác hơn, Chen giải thích.

“Các cảm biến đang tương tác với nhau, và chúng có mối quan hệ nhân quả và phụ thuộc vào nhau. Vì vậy, chúng tôi phải có khả năng đưa thông tin phụ thuộc này vào cách chúng tôi tính toán các xác suất, ”ông nói.

Mạng Bayes này phân tích hoặc chia nhỏ xác suất chung của nhiều dữ liệu chuỗi thời gian thành các xác suất có điều kiện, ít phức tạp hơn, dễ tham số hóa, tìm hiểu và đánh giá hơn nhiều. Điều này cho phép các nhà nghiên cứu ước tính khả năng quan sát các chỉ số cảm biến nhất định và xác định các kết quả đọc đó có xác suất xuất hiện thấp, nghĩa là chúng là dị thường.

Phương pháp của họ đặc biệt mạnh mẽ vì cấu trúc đồ thị phức tạp này không cần phải xác định trước - mô hình có thể tự học đồ thị theo cách không bị giám sát.

Họ đã thử nghiệm khuôn khổ này bằng cách xem nó có thể xác định các điểm bất thường trong dữ liệu lưới điện, dữ liệu giao thông và dữ liệu hệ thống nước tốt như thế nào. Các bộ dữ liệu mà họ sử dụng để kiểm tra chứa các điểm bất thường đã được con người xác định, vì vậy các nhà nghiên cứu có thể so sánh các điểm bất thường mà mô hình của họ đã xác định với các trục trặc thực sự trong mỗi hệ thống.

Mô hình của họ hoạt động tốt hơn tất cả các đường cơ sở bằng cách phát hiện tỷ lệ phần trăm các điểm bất thường thực sự cao hơn trong mỗi tập dữ liệu.

“Đối với các đường cơ sở, rất nhiều trong số chúng không kết hợp cấu trúc đồ thị. Điều đó hoàn toàn chứng thực cho giả thuyết của chúng tôi. Việc tìm ra mối quan hệ phụ thuộc giữa các nút khác nhau trong biểu đồ chắc chắn sẽ giúp ích cho chúng tôi, ”Chen nói.

Phương pháp luận của họ cũng linh hoạt. Được trang bị một tập dữ liệu lớn, không được gắn nhãn, họ có thể điều chỉnh mô hình để đưa ra các dự đoán bất thường hiệu quả trong các tình huống khác, chẳng hạn như các mẫu lưu lượng truy cập.

Chen cho biết: Khi mô hình được triển khai, nó sẽ tiếp tục học hỏi từ một luồng dữ liệu cảm biến mới ổn định, thích ứng với khả năng phân bổ dữ liệu và duy trì độ chính xác theo thời gian.

Mặc dù dự án cụ thể này đã gần kết thúc, nhưng anh ấy mong muốn áp dụng những bài học mà anh ấy đã học được vào các lĩnh vực nghiên cứu học sâu khác, đặc biệt là trên đồ thị.

Chen và các đồng nghiệp của ông có thể sử dụng cách tiếp cận này để phát triển các mô hình ánh xạ các mối quan hệ phức tạp, có điều kiện khác. Họ cũng muốn khám phá cách họ có thể học các mô hình này một cách hiệu quả khi các biểu đồ trở nên khổng lồ, có lẽ với hàng triệu hoặc hàng tỷ nút được kết nối với nhau. Và thay vì tìm ra điểm bất thường, họ cũng có thể sử dụng cách tiếp cận này để cải thiện độ chính xác của các dự báo dựa trên bộ dữ liệu hoặc hợp lý hóa các kỹ thuật phân loại khác.

N.T.T
Theo https://www.architectureandgovernance.com
In bài viết  
Bookmark
Ý kiến của bạn

Thuốc kháng sinh cho vật nuôi và nhiệt độ tăng cao phá vỡ các cộng đồng vi sinh vật trong đất
Đất là nơi sinh sống của các cộng đồng vi sinh vật đa dạng giúp luân chuyển các chất dinh dưỡng, hỗ trợ nông nghiệp và giữ các-bon - một hoạt động quan trọng để giảm thiểu khí hậu. Trên toàn cầu, khoảng 80% các-bon dự trữ trên mặt đất của Trái đất được tìm thấy trong đất. Do sự nóng lên của khí hậu và các hoạt động khác của con người ảnh hưởng đến vi sinh vật trong đất, bể chứa các-bon quan trọng này đang gặp nguy hiểm.






Video




© Copyright 2020 Trung tâm Thông tin Khoa học và Công nghệ - Sở Khoa học & Công nghệ TP. Cần Thơ
Địa chỉ: 118/3 Trần Phú - Phường Cái Khế - Quận Ninh Kiều - thành phố Cần Thơ
Giấy phép số: 05/ GP-TTĐT, do Sở Thông tin và Truyền Thông thành phố Cần Thơ cấp ngày 23/5/2017
Trưởng Ban biên tập: Ông Vũ Minh Hải - Giám Đốc Trung tâm Thông tin Khoa học và Công nghệ - Sở Khoa học & Công nghệ TP. Cần Thơ
Ghi rõ nguồn www.trithuckhoahoc.vn khi bạn sử dụng lại thông tin từ website này
-->