Bài viết này đề xuất một mô hình học tăng cường cải tiến bằng cách kết hợp thông tin xu hướng giá nhằm hỗ trợ quá trình ra quyết định mua, bán hoặc giữ tài sản tiền điện tử. Mô hình được xây dựng dựa trên quy trình quyết định Markov và thuật toán Q-learning, trong đó tín hiệu xu hướng được sử dụng như một cơ chế điều chỉnh hành động nhằm nâng cao hiệu quả giao dịch. Hiệu năng của mô hình được đánh giá thông qua các chỉ số định lượng bao gồm mức sụt giảm tối đa, lợi nhuận hằng năm và độ chính xác. Kết quả thực nghiệm trên hai tập dữ liệu Bitcoin và Dogecoin cho thấy mô hình học tăng cường kết hợp xu hướng mang lại lợi nhuận cao hơn và mức độ ổn định tốt hơn so với mô hình học tăng cường không xét đến xu hướng dữ liệu.
1. GIỚI THIỆU
Học tăng cường là một trong những nhánh quan trọng của trí tuệ nhân tạo, tập trung vào việc huấn luyện tác nhân đưa ra quyết định tối ưu thông qua quá trình tương tác liên tục với môi trường. Khác với các phương pháp học có giám sát, học tăng cường không yêu cầu dữ liệu được gán nhãn trước mà học trực tiếp từ phần thưởng thu được sau mỗi hành động. Cách tiếp cận này đặc biệt phù hợp với các bài toán ra quyết định tuần tự trong môi trường động và không chắc chắn, tiêu biểu là thị trường tài chính.
Trong lĩnh vực công nghệ tài chính, việc ứng dụng các mô hình học máy nhằm hỗ trợ giao dịch, đầu tư và quản lý rủi ro đang ngày càng phổ biến. Tuy nhiên, thị trường tiền điện tử với đặc trưng biến động mạnh, chịu ảnh hưởng bởi nhiều yếu tố kinh tế và tâm lý, khiến các phương pháp dự báo giá truyền thống hoặc học máy thuần túy dễ gặp hiện tượng quá khớp và kém hiệu quả khi triển khai thực tế.
Trước những hạn chế đó, nhiều nghiên cứu đã chuyển hướng sang học tăng cường để xây dựng các chiến lược giao dịch thích nghi tốt hơn với môi trường. Dù vậy, học tăng cường nếu không được hỗ trợ bởi các thông tin định hướng như xu hướng giá hoặc chỉ báo kỹ thuật thì vẫn tiềm ẩn rủi ro trong quá trình ra quyết định. Xuất phát từ thực tế này, nghiên cứu đề xuất kết hợp học tăng cường với thông tin xu hướng dữ liệu nhằm nâng cao hiệu quả và tính ổn định của chiến lược giao dịch tiền điện tử.
2. PHƯƠNG PHÁP NGHIÊN CỨU
2.1. Quy trình quyết định Markov
Quy trình quyết định Markov cung cấp một khung toán học để mô hình hóa bài toán ra quyết định trong môi trường ngẫu nhiên theo thời gian rời rạc. Trong mô hình này, trạng thái hiện tại của hệ thống được giả định chỉ phụ thuộc vào trạng thái ngay trước đó và hành động vừa thực hiện. Điều này giúp giảm độ phức tạp trong việc lưu trữ và xử lý toàn bộ lịch sử trạng thái.
Một quy trình Markov bao gồm tập trạng thái, tập hành động, hàm chuyển trạng thái, hàm phần thưởng và hệ số chiết khấu. Mục tiêu của tác nhân là tìm ra chính sách tối ưu sao cho tổng phần thưởng kỳ vọng trong dài hạn đạt giá trị lớn nhất.
2.2. Thuật toán Q-learning
Q-learning là một thuật toán học tăng cường không dựa trên chính sách, cho phép tác nhân học giá trị của các cặp trạng thái – hành động thông qua quá trình thử và sai. Thuật toán sử dụng bảng Q để lưu trữ giá trị kỳ vọng của mỗi hành động tại từng trạng thái.
Trong quá trình huấn luyện, tác nhân lựa chọn hành động dựa trên chiến lược cân bằng giữa khám phá và khai thác. Giá trị Q được cập nhật lặp đi lặp lại theo phương trình Bellman cho đến khi hội tụ. Ưu điểm của Q-learning là khả năng học trực tiếp từ môi trường mà không cần mô hình hóa chính xác hàm chuyển trạng thái.
2.3. Giao dịch dựa trên xu hướng dữ liệu
Giao dịch theo xu hướng là chiến lược phổ biến trong phân tích kỹ thuật, trong đó quyết định mua hoặc bán được đưa ra dựa trên chiều hướng vận động của giá thị trường. Thay vì dự đoán chính xác giá trị tương lai, phương pháp này tập trung vào việc xác định thị trường đang trong xu hướng tăng, giảm hay đi ngang.
Trong nghiên cứu này, thông tin xu hướng được tích hợp vào mô hình học tăng cường nhằm hỗ trợ tác nhân trong quá trình lựa chọn hành động. Khi xu hướng tăng được xác định, mô hình ưu tiên hành động mua; ngược lại, khi xu hướng giảm, hành động bán được khuyến nghị. Việc kết hợp này giúp giảm các quyết định ngẫu nhiên kém hiệu quả và nâng cao tính ổn định của chiến lược giao dịch.
3. CHỈ SỐ ĐÁNH GIÁ HIỆU NĂNG
Hiệu quả của mô hình được đánh giá thông qua các chỉ số định lượng thường được sử dụng trong tài chính. Mức sụt giảm tối đa phản ánh rủi ro thua lỗ lớn nhất trong một giai đoạn đầu tư. Lợi nhuận hằng năm cho thấy khả năng sinh lời trung bình của chiến lược theo thời gian. Độ chính xác được dùng để đo mức độ tiệm cận của lợi nhuận đạt được so với lợi nhuận lý tưởng trong điều kiện thị trường thực tế.
4. THIẾT KẾ HỆ THỐNG HỌC TĂNG CƯỜNG KẾT HỢP XU HƯỚNG
Hệ thống được xây dựng với tác nhân học tăng cường tương tác với môi trường thị trường tài chính thông qua chuỗi dữ liệu giá theo thời gian. Trạng thái của môi trường được biểu diễn bằng các giá trị giá đóng cửa, trong khi tập hành động bao gồm mua, bán và giữ.
Trong mỗi bước thời gian, tác nhân quan sát trạng thái hiện tại, kết hợp với thông tin xu hướng để lựa chọn hành động phù hợp. Phần thưởng được xác định dựa trên lợi nhuận hoặc thua lỗ phát sinh sau khi thực hiện giao dịch. Quá trình này được lặp lại qua nhiều vòng huấn luyện nhằm tối ưu bảng Q và chính sách giao dịch.
5. KẾT QUẢ VÀ THẢO LUẬN
Thực nghiệm được tiến hành trên hai tập dữ liệu Bitcoin và Dogecoin thu thập từ Yahoo! Finance. Kết quả cho thấy mô hình học tăng cường kết hợp xu hướng hội tụ nhanh hơn và đạt lợi nhuận cao hơn so với mô hình không xét đến xu hướng.
Các chỉ số đánh giá cho thấy mô hình đề xuất không chỉ cải thiện lợi nhuận tích lũy mà còn duy trì mức sụt giảm tối đa ở ngưỡng chấp nhận được. Điều này chứng tỏ việc tích hợp thông tin xu hướng giúp tác nhân đưa ra quyết định hợp lý hơn trong bối cảnh thị trường biến động mạnh.
6. KẾT LUẬN
Bài viết đã đề xuất một mô hình học tăng cường cải tiến bằng cách kết hợp thông tin xu hướng dữ liệu để hỗ trợ giao dịch tiền điện tử. Kết quả thực nghiệm khẳng định rằng việc tích hợp xu hướng giúp nâng cao hiệu quả và tính ổn định của chiến lược giao dịch so với học tăng cường thuần túy.
Hướng nghiên cứu trong tương lai có thể mở rộng sang các thuật toán học tăng cường sâu hoặc tích hợp thêm nhiều chỉ báo kỹ thuật nhằm nâng cao khả năng thích ứng của mô hình trong môi trường tài chính phức tạp. |