Trong những lĩnh vực quan trọng như chẩn đoán y tế, người dùng thường muốn biết điều gì đã dẫn đến việc mô hình thị giác máy tính đưa ra dự đoán nhất định, để họ có thể xác định xem có nên tin tưởng vào kết quả đầu ra của nó hay không.
Mô hình nút thắt khái niệm là một phương pháp cho phép các hệ thống trí tuệ nhân tạo giải thích quá trình ra quyết định của chúng. Các phương pháp này buộc mô hình học sâu phải sử dụng một tập hợp các khái niệm mà con người có thể hiểu được để đưa ra dự đoán. Trong nghiên cứu mới, các nhà khoa học máy tính của MIT đã phát triển một phương pháp giúp mô hình đạt được độ chính xác tốt hơn và đưa ra những giải thích rõ ràng, súc tích hơn.
Các khái niệm mà mô hình sử dụng thường được các chuyên gia định nghĩa trước. Ví dụ, một bác sĩ lâm sàng có thể đề xuất sử dụng các khái niệm như “các chấm nâu tập trung” và “sắc tố loang lổ” để dự đoán rằng hình ảnh y tế cho thấy có khối u ác tính (melanoma).
Tuy nhiên, các khái niệm đã được định nghĩa trước đó có thể không phù hợp hoặc thiếu chi tiết cần thiết cho một nhiệm vụ cụ thể, làm giảm độ chính xác của mô hình. Phương pháp mới trích xuất các khái niệm mà mô hình đã học được trong quá trình huấn luyện để thực hiện nhiệm vụ cụ thể đó, và buộc mô hình phải sử dụng chúng, tạo ra các giải thích tốt hơn so với các mô hình tắc nghẽn khái niệm tiêu chuẩn.
Phương pháp này sử dụng một cặp mô hình máy học chuyên dụng để tự động trích xuất kiến thức từ mô hình mục tiêu và chuyển đổi nó thành các khái niệm bằng ngôn ngữ thông thường. Cuối cùng, kỹ thuật của họ có thể chuyển đổi bất kỳ mô hình thị giác máy tính nào đã được huấn luyện trước đó thành một mô hình có thể sử dụng các khái niệm để giải thích lập luận của nó.
“Về cơ bản, chúng tôi muốn có thể đọc được suy nghĩ của các mô hình thị giác máy tính này. Mô hình nút thắt khái niệm là một cách để người dùng biết được mô hình đang nghĩ gì và tại sao nó lại đưa ra dự đoán nhất định. Bởi vì phương pháp của chúng tôi sử dụng các khái niệm tốt hơn, nó có thể dẫn đến độ chính xác cao hơn và cuối cùng cải thiện tính minh bạch của các mô hình AI hộp đen”, tác giả chính Antonio De Santis, nghiên cứu sinh tại Đại học Bách khoa Milan, người đã hoàn thành nghiên cứu này khi là nghiên cứu sinh thỉnh giảng tại Phòng thí nghiệm Khoa học Máy tính và Trí tuệ Nhân tạo (CSAIL) tại MIT, cho biết.
Cùng tham gia viết bài báo về công trình này còn có Schrasing Tong SM '20, PhD '26; Marco Brambilla, giáo sư khoa học máy tính và kỹ thuật tại Đại học Bách khoa Milan; và tác giả chính Lalana Kagal, nhà khoa học nghiên cứu chính tại CSAIL. Nghiên cứu này sẽ được trình bày tại Hội nghị Quốc tế về Biểu diễn Học tập.
Xây dựng một nút thắt cổ chai tốt hơn
Mô hình nút thắt khái niệm (CBM) là một phương pháp phổ biến để cải thiện khả năng giải thích của AI. Các kỹ thuật này bổ sung một bước trung gian bằng cách buộc mô hình thị giác máy tính phải dự đoán các khái niệm có trong hình ảnh, sau đó sử dụng các khái niệm đó để đưa ra dự đoán cuối cùng.
Bước trung gian này, hay còn gọi là "nút thắt cổ chai", giúp người dùng hiểu được lý lẽ của mô hình.
Ví dụ, một mô hình nhận dạng loài chim có thể chọn các khái niệm như “chân vàng” và “cánh xanh” trước khi dự đoán đó là chim én nhà.
Nhưng vì những khái niệm này thường được con người hoặc các mô hình ngôn ngữ lớn (LLM) tạo ra trước, chúng có thể không phù hợp với nhiệm vụ cụ thể. Ngoài ra, ngay cả khi được cung cấp một tập hợp các khái niệm được định nghĩa trước, mô hình đôi khi vẫn sử dụng thông tin đã học không mong muốn, đây là vấn đề được gọi là rò rỉ thông tin.
“Những mô hình này được huấn luyện để tối đa hóa hiệu suất, vì vậy mô hình có thể bí mật sử dụng các khái niệm mà chúng ta không biết,” De Santis giải thích.
Các nhà nghiên cứu tại MIT lại có một ý tưởng khác: Vì mô hình đã được huấn luyện trên một lượng dữ liệu khổng lồ, nên nó có thể đã học được các khái niệm cần thiết để tạo ra các dự đoán chính xác cho nhiệm vụ cụ thể đang thực hiện. Họ tìm cách xây dựng một mô hình dựa trên ngữ cảnh (CBM) bằng cách trích xuất kiến thức hiện có này và chuyển đổi nó thành văn bản mà con người có thể hiểu được.
Bước đầu tiên trong phương pháp của họ, một mô hình học sâu chuyên biệt gọi là bộ mã hóa tự động thưa (sparse autoencoder) sẽ chọn lọc các đặc trưng quan trọng nhất mà mô hình đã học được và tái cấu trúc chúng thành một số khái niệm. Sau đó, một mô hình ngôn ngữ đa phương thức (multimodal LLM) mô tả từng khái niệm bằng ngôn ngữ thông thường.
Mô hình LLM đa phương thức này cũng chú thích các hình ảnh trong tập dữ liệu bằng cách xác định những khái niệm nào có mặt và không có mặt trong mỗi hình ảnh. Các nhà nghiên cứu sử dụng tập dữ liệu được chú thích này để huấn luyện một mô-đun nhận diện khái niệm nhằm nhận biết các khái niệm đó.
Họ tích hợp mô-đun này vào mô hình mục tiêu, buộc nó phải đưa ra dự đoán chỉ dựa trên tập hợp các khái niệm đã học được mà các nhà nghiên cứu đã trích xuất.
Kiểm soát các khái niệm
Họ đã vượt qua nhiều thách thức trong quá trình phát triển phương pháp này, từ việc đảm bảo LLM chú thích các khái niệm một cách chính xác đến việc xác định xem bộ mã hóa tự động thưa thớt có xác định được các khái niệm mà con người có thể hiểu được hay không.
Để ngăn mô hình sử dụng các khái niệm không xác định hoặc không mong muốn, họ giới hạn mô hình chỉ được sử dụng năm khái niệm cho mỗi dự đoán. Điều này cũng buộc mô hình phải chọn các khái niệm phù hợp nhất và làm cho các giải thích dễ hiểu hơn.
Khi so sánh phương pháp của họ với các mô hình dựa trên cộng đồng (CBM) tiên tiến nhất trong các nhiệm vụ như dự đoán loài chim và xác định tổn thương da trong hình ảnh y tế, phương pháp của họ đạt được độ chính xác cao nhất đồng thời cung cấp các giải thích chính xác hơn.
Cách tiếp cận của họ cũng tạo ra những khái niệm phù hợp hơn với các hình ảnh trong tập dữ liệu.
“Chúng tôi đã chứng minh rằng việc trích xuất các khái niệm từ mô hình gốc có thể vượt trội hơn các mô hình dựa trên khái niệm khác, nhưng vẫn còn sự đánh đổi giữa khả năng giải thích và độ chính xác cần được giải quyết. Các mô hình hộp đen không thể giải thích vẫn hoạt động tốt hơn mô hình của chúng tôi,” De Santis nói.
Trong tương lai, các nhà nghiên cứu muốn nghiên cứu các giải pháp tiềm năng cho vấn đề rò rỉ thông tin, có thể bằng cách thêm các mô-đun nút thắt khái niệm bổ sung để các khái niệm không mong muốn không thể bị rò rỉ. Họ cũng có kế hoạch mở rộng phương pháp của mình bằng cách sử dụng mô hình LLM đa phương thức lớn hơn để chú thích một tập dữ liệu huấn luyện lớn hơn, điều này có thể giúp tăng hiệu suất.
“Tôi rất hào hứng với công trình này vì nó thúc đẩy trí tuệ nhân tạo có thể giải thích được theo một hướng rất triển vọng và tạo ra một cầu nối tự nhiên với trí tuệ nhân tạo mang tính biểu tượng và đồ thị tri thức”, Andreas Hotho, giáo sư và trưởng bộ môn Khoa học Dữ liệu tại Đại học Würzburg, người không tham gia vào công trình này, cho biết. “Bằng cách rút ra các điểm nghẽn khái niệm từ các cơ chế nội tại của chính mô hình chứ không chỉ từ các khái niệm do con người định nghĩa, nó cung cấp một con đường hướng tới các giải thích trung thực hơn với mô hình và mở ra nhiều cơ hội cho các nghiên cứu tiếp theo với tri thức có cấu trúc”.