Học tăng cường và cảm hứng từ sinh học
Học tăng cường được xem là một trong những hướng đi đầy hứa hẹn để đạt được khả năng học liên tục trong trí tuệ nhân tạo. Não bộ con người thực hiện điều này thông qua các gradient ion, vốn kiểm soát tín hiệu chậm và có định hướng qua màng tế bào. Việc tái tạo cơ chế này trong phần cứng là mục tiêu quan trọng của điện toán thần kinh (neuromorphic computing).
Tuy nhiên, hầu hết memristor hiện nay gặp vấn đề với sự thay đổi dẫn điện đột ngột và khó dự đoán, khiến việc học liên tục trở nên bất ổn. Nhóm nghiên cứu đã giải quyết bằng cách xây dựng memristor có trạng thái nội tại ổn định và tương quan theo thời gian – yếu tố cốt lõi cho học liên tục.
Tạo gradient oxy trong phần cứng
Thiết bị được chế tạo với cấu trúc gồm: indium tin oxide (ITO), lớp phân tử zinc-porphyrin (ZnTPP), lớp oxit nhôm lắng đọng bằng ALD (ALD-AIOx), và điện cực nhôm. Lớp ZnTPP đóng vai trò quan trọng:
- Trong quá trình chế tạo, ZnTPP tạo ra vùng giàu oxy, hình thành gradient oxy nội tại.
- Trong quá trình vận hành, ZnTPP tham gia vào tương tác phối hợp đảo ngược với ion oxy, giúp kiểm soát sự di chuyển của chúng và duy trì gradient ổn định.
Nhờ đó, memristor có thể tiến hóa dẫn điện một cách chậm rãi và liên tục, với thời gian thư giãn vượt quá 100 giây – lâu hơn nhiều so với các thiết bị thông thường chỉ ở mức nano giây.
Ứng dụng trong học tăng cường
Thiết bị cho thấy khả năng điều chỉnh dẫn điện lên tới 98,1% qua 40 trạng thái dẫn điện giả không bay hơi (PNV). Nhóm nghiên cứu đã phát triển cơ chế U-SVDP (Unipolar Spike Voltage-Dependent Plasticity) để kiểm soát chính xác sự dịch chuyển ion oxy theo gradient.
Các trạng thái này được ánh xạ thành tốc độ học trong thuật toán Q-learning. Kết quả:
- Trong bài toán tìm đường tĩnh, số vòng huấn luyện giảm 68,75%.
- Trong môi trường động, mức giảm đạt 35,65%.
Điều này chứng minh memristor không chỉ cung cấp tín hiệu thư giãn thụ động mà còn tạo ra chuỗi trạng thái nội tại mang tính sinh học, phù hợp cho học liên tục trong môi trường phi tĩnh.
Hướng phát triển tiếp theo
Nhóm nghiên cứu dự định mở rộng từ thử nghiệm đơn lẻ sang hệ thống thần kinh nhân tạo quy mô lớn bằng cách tích hợp memristor vào mảng crossbar. Xa hơn, họ muốn khám phá vai trò của thiết bị trong các hệ thống trí tuệ hiện thân (embodied intelligence), nơi hành vi học tập được định hình bởi chính đặc tính vật lý của phần cứng.
“Bằng cách tích hợp các thiết bị memristor thích ứng vật lý vào nền tảng thần kinh nhân tạo, chúng tôi hy vọng tiến tới những hệ thống phần cứng mà hành vi học tập được định hình một phần bởi chính đặc tính nội tại của thiết bị,” – Haifeng Ling, đồng tác giả, chia sẻ. |