Trí tuệ nhân tạo
[ Đăng ngày (28/02/2026) ]
|
|
Kỹ thuật tri thức cho khoa học mở: Xây dựng và triển khai các cơ sở tri thức cho các tiêu chuẩn siêu dữ liệu
|
|
|
Nghiên cứu do nhóm các tác giả gồm: Mark A. Musen, Martin J. O'Connor, Josef Hardi, Marcos Martínez-Romero thuộc Khoa Y học Tính toán, Trường Y khoa Đại học Stanford, Stanford, California, Hoa Kỳ thực hiện.
|
Hình minh họa. Nguồn Internet
Hơn một thập kỷ qua, các nhà khoa học đã nỗ lực để đưa các bộ dữ liệu của họ vào các kho lưu trữ mở, với mục tiêu là chúng có thể tìm thấy, truy cập, tương tác và tái sử dụng được (FAIR). Mặc dù hầu hết các nhà nghiên cứu khó nhớ hết tất cả các “nguyên tắc hướng dẫn” liên quan đến dữ liệu FAIR, nhưng có một yêu cầu bao quát: Dữ liệu cần được chú thích bằng siêu dữ liệu “phong phú”, chuyên ngành, được chuẩn hóa để cho phép bên thứ ba hiểu được ai đã thực hiện thí nghiệm, đối tượng nghiên cứu là ai hoặc cái gì, điều kiện thí nghiệm là gì và kết quả dường như cho thấy điều gì. Hầu hết các lĩnh vực khoa học đều thiếu các tiêu chuẩn cho siêu dữ liệu như vậy và, ngay cả khi các tiêu chuẩn đó tồn tại, các nhà nghiên cứu hoặc người quản lý dữ liệu cũng khó áp dụng chúng.
Trung tâm nghiên cứu chuyên sâu về khoa học dữ liệu sinh y học (CEDAR) xây dựng công nghệ cho phép các nhà khoa học mã hóa các tiêu chuẩn siêu dữ liệu mô tả dưới dạng các mẫu liệt kê các thuộc tính của các loại thí nghiệm khác nhau và liên kết các thuộc tính đó với các hệ thống phân loại hoặc tập giá trị có thể cung cấp các giá trị được kiểm soát cho các thuộc tính đó. Các mẫu siêu dữ liệu này ghi lại các ưu tiên của các nhóm nhà nghiên cứu về cách mô tả dữ liệu của họ và những thông tin mà bên thứ ba cần biết để hiểu được tập dữ liệu của họ. Các mẫu CEDAR mô tả các ưu tiên siêu dữ liệu của cộng đồng đã được sử dụng để chuẩn hóa siêu dữ liệu cho nhiều liên minh khoa học khác nhau. Chúng đã được sử dụng làm cơ sở cho các hệ thống chú thích dữ liệu thu thập siêu dữ liệu thông qua các biểu mẫu trên web hoặc thông qua bảng tính, và chúng có thể giúp sửa chữa siêu dữ liệu để đảm bảo tuân thủ các tiêu chuẩn. Giống như các cơ sở tri thức khai báo đã làm nền tảng cho các hệ thống thông minh hàng thập kỷ trước, các mẫu CEDAR ghi lại kiến thức của một cộng đồng thực hành dưới dạng ký hiệu, và chúng cho phép kiến thức đó được áp dụng trong nhiều bối cảnh khác nhau. Chúng cung cấp một cơ chế cho các cộng đồng khoa học để tạo ra các tiêu chuẩn siêu dữ liệu chung và mã hóa các ưu tiên của họ cho việc áp dụng các tiêu chuẩn đó, và để triển khai các tiêu chuẩn đó trong một loạt các hệ thống thông minh nhằm thúc đẩy khoa học mở. |
ctngoc
Theo Tạp chí AI, Tập 47 Số 1 (2026) DOI: 10.1002/aaai.70048 |