Công trình được công bố trên PNAS Nexus bởi Hector Zenil và cộng sự, dựa trên định lý bất toàn của Gödel cùng kết quả bất khả quyết của Turing về “Halting Problem”. Nhóm nghiên cứu chỉ ra rằng bất kỳ mô hình ngôn ngữ lớn (LLM) nào đủ phức tạp để đạt trí tuệ tổng quát hoặc siêu trí tuệ đều sẽ mang tính “không thể rút gọn” về mặt tính toán, dẫn đến hành vi khó dự đoán, khiến việc ép buộc đồng bộ trở nên bất khả thi.
Thay vào đó, các tác giả đề xuất chiến lược “quản lý sự lệch chuẩn” (managed misalignment), trong đó nhiều tác nhân AI với phong cách nhận thức khác nhau và mục tiêu chỉ trùng khớp một phần sẽ hoạt động ở các vai trò riêng biệt để kiểm soát lẫn nhau.
Mỗi tác nhân theo đuổi mục tiêu riêng bằng cách lập luận và khung đạo đức riêng—điều mà nhóm nghiên cứu gọi là “sự đa dạng thần kinh nhân tạo” (artificial agentic neurodivergence). Nhờ đó, các hệ thống có thể vừa hỗ trợ vừa cản trở nhau, ngăn chặn việc một hệ thống duy nhất chiếm ưu thế tuyệt đối.
Trong mô phỏng “hệ sinh thái nhận thức”, nhóm đã thử nghiệm các tác nhân AI với hành vi đồng bộ hoàn toàn (tối ưu hóa lợi ích con người), hành vi đồng bộ một phần (ưu tiên môi trường), và hành vi không đồng bộ (theo đuổi mục tiêu tùy ý).
Các thử nghiệm tranh luận đạo đức giữa nhiều LLM cho thấy: khi con người hoặc các mô hình khác cố gắng phá vỡ sự đồng thuận, các mô hình mở thể hiện phổ quan điểm rộng hơn so với mô hình độc quyền. Điều này tạo ra một hệ sinh thái AI “bền vững” hơn, ít có khả năng hội tụ về một ý kiến duy nhất—trong trường hợp ý kiến đó không phù hợp với lợi ích con người, sự đa dạng này lại trở thành yếu tố bảo vệ. |