Nghiên cứu [ Đăng ngày (03/05/2024) ]
Thuật toán học tăng cường cải tiến dựa trên xu hướng dữ liệu để ra quyết định mua bán trên thị trường tiền điện tử
Nghiên cứu được thực hiện bởi nhóm tác giả thuộc Trần Kim Toại, Võ Minh Huân, Lê Ngọc Thanh và Võ Thị Xuân Hạnh thuộc Trường Đại học Sư phạm Kỹ thuật Thành phố Hồ Chí Minh. và Đại học Kiến trúc Đà Nẵng.

Trong lĩnh vực trí tuệ nhân tạo (Artificial Intelligence - AI) nói chung và lĩnh vực học máy nóiriêng (Machine Learning - ML), học tăng cường (Reinforcement learning - RL) là nhiệm vụ học từ dữ liệu không được gắn nhãn và mục tiêu của nó là phân cụm (Li, 2017). RL là một kỹ thuật trong AI, trong đó các tác nhân (agent) tương tác với môi trường (environment) thông qua các hành động (action). Một trạng thái (state) được cung cấp cho môi trường và tác nhân chọn một hành động dựa trêntrạng thái đó để tối đa hóa phần thưởng. Tác nhân tìm hiểu thông qua các trạng thái và hành động để tối đa hóa phần thưởng của nó. RL tập trung vào việc làm thế nào để một tác nhân trong một môi trường có thể hành động sao cho lấy được phần thưởng nhiều nhất có thể. Học tăng cường không có cặp dữ liệu có gán nhãn trước làm đầu vào và cũng không có đánh giá các hành động là đúng hay sai (Fischer, 2018).

Công nghệ tài chính còn gọi là công nghệ Fintech đang phát triển nhanh. Mục tiêu của Fintech dựa trên điểm mạnh của công nghệ để cải tiến các hành động trong lĩnh vực tài chính (Mhlanga, 2020; Yuan & Jing, 2018). Thời gian gần đây, công nghệ Fintech được mong đợi sẽ làm thay đổi cách ra quyết định liên quan đến các lĩnh vực tài chính như hoạt động mua bán, hoạt động đầu tư, quản lý rủi ro, quản lý danh mục đầu tư, tư vấn tài chính (Chopra & Sharma, 2021). Vấn đề ra quyết định thì rất phức tạp để tìm ra hành động bởi vì tính chất ngẫu nhiên và thay đổi đột ngột của dữ liệu. Vì vậy, xây dựng thuật toán mua bán là quan trọng và cũng là thách thức trong nền công nghiệp Fintech. Mục tiêu chính của thuật toán mua bán là để trả lời câu hỏi cách nào thiết kế một thuật toán dựa dựa trên thuật toán AI để có thể chiến thắng trong lĩnh vực tài chính (Cao, 2020, 2021).

Thị trường tài chính bao gồm các loại giao dịch trên các loại tài sản như cổ phiếu, vàng, tiền điện tử, tài sản cố định… Mục đích của thị trường là thực hiện giao dịch mua và bán nhằm tìm kiếm lợi nhuận (Jay et al., 2020). Dự đoán giá tiền điện tử là một thách thức của lĩnh vực tài chính bởi vì sự thay đổi giá của nó phụ thuộc vào những sự ảnh hưởng của tình hình kinh tế, chính trị trong nước và ngoài nước. Điều này làm cho việc dự báo giá trở nên phức tạp. Dự báo giá vẫn còn là một thách thức lớn đối với những nhà đầu tư. Vì vậy, nó thu hút nghiên cứu từ nhiều lĩnh vực nghiên cứu như kỹ thuật tài chính, thống kê và cả mô hình học máy. Những năm gần đây, mô hình máy học được nghiên cứu và phát triển trên nhiều ứng dụng, với các mô hình thuật toán có thể giải quyết được mức độ phức tạp của dữ liệu ngày càng cao (Culkin, 2017). Bắt đầu từ các phương pháp máy học cổ điển như phương pháp hồi quy tuyến tính, hồi quy Ridge (Toai et al., 2022), cây quyết định, rừng cây ngẫu nhiên (Braham et al., 2022), ARIMA (Toai et al., 2022). Dần dần, các phương pháp học sâu đưa ra các kết quả hiệu quả và dự đoán có độ chính xác cao hơn so với các phương pháp máy học cổ điển (OECD, 2021). Những kỹ thuật dự báo tài chính thường được chia làm hai nhánh, phân tích kỹ thuật và phân tích cơ bản. Phương pháp phân tích cơ bản dựa trên các yếu tố của nền kinh tế như các báo cáo tài chính, lãi suất ngân hàng, mô hình kinh doanh của công ty, kinh tế vĩ mô ảnh hưởng tới xu hướng của thị trường tài chính. Phương pháp phân tích kỹ thuật dùng các chỉ số để tính toán đặc trưng dữ liệu ở quá khứ để dự báo xu hướng tương lai của thị trường (Shah et.al, 2019; Singh & Khushi, 2021). Phương pháp phân tích cơ bản ngày nay cũng thường sử dụng máy học để dự đoán hành vi của thị trường, giúp nhà đầu tư biết được thị trường đang tăng hay giảm để đưa ra chiến lược mua bán. Yuxuan et al. (2021) đã sử dụng mạng noron, random forest, mạng fuzzy để phân tích báo cáo tài chính hàng quý để xác định các yếu tố ảnh hưởng tích cực hoặc tiêu cực tới xu hướng. Nhiều nghiên cứu sử dụng các mô hình máy học khác nhau để dự đoán xu hướng thị trường dựa trên dữ liệu theo thời gian quá khứ để biết được hành vi thị trường trong tương lai để ra quyết định nhằm thu lợi nhuận cao nhất trong một khoảng thời gian xác định (Shahi et al., 2020; Tsung-Jung et al., 2021; AlSulaiman, 2022). Một ví dụ như chiến lược mua bán sử dụng mạng học sâu DNN kết hợp phương pháp biến đổi wavelet với mạng noron hồi quy (TsungJung et al., 2021), sử dụng mạng LSTM (Shahi et al., 2020) và nhiều nghiên cứu khác.

Tuy nhiên, những nghiên cứu dựa trên dự báo xu hướng dữ liệu ở trên gặp khó khăn. Các phương pháp máy học này chỉ xem xét dữ liệu quá khứ với hành vi dữ liệu phi tuyến tính, không hỗn độn của thị trường tài chính, vì vậy chịu đựng vấn đề quá khớp (overfitting) khi đưa vào dự báo giá trị thực tế (Al-Sulaiman, 2022). Nhiều nghiên cứu sử dụng các phương pháp kỹ thuật học sâu khác nhau để tối thiểu hóa các vấn đề dự đoán giá tài chính này (Olorunnimbe & Viktor, 2022). Hơn nữa, việc dự báo giá cũng khó để đưa chi phí giao dịch vào để đưa ra quyết định. Ngoài ra, phương pháp phân tích kỹ thuật cũng không sử dụng các quyết định được thực thi trước đó vào để dự báo cho các hành động kế tiếp (Kabbani & Ekrem 2022).

Kỹ thuật học tăng cường được dùng để vượt qua các khó khăn từ mô hình dự báo giá này. Ở học tăng cường, mục tiêu của tác nhân không dựa trên các mẫu dữ liệu qua việc gắn nhãn mà cố gắng thực hiện các hành động để đạt hàm phần thưởng lớn nhất qua các vòng lặp huấn luyện. Nhiều nhà nghiên cứu cũng đề xuất thuật toán dùng kỹ thuật học tăng cường để giải quyết vấn đề mua bán này. Deng et al. (2017) đã đưa ra kiến trúc mô hình mạng học mờ (fuzzy network) để lấy đặc trưng kỹ thuật dữ liệu nhằm giảm sự không chắc chắn của dữ liệu theo thời gian kết hợp với học tăng cường để dự báo giá tài chính. Học tăng cường với đa tác nhân cùng với phương pháp học tập hợp để chọn ra hành động tối ưu từ đa tác nhân này để ra quyết định đầu tư mà không cần sử dụng mô hình dự báo cũng đã được nghiên cứu (Carta et al., 2020; Yang et al., 2020). Hai nhà nghiên cứu này sử dụng thuật toán học tăng cường sâu (Deep RL) để dự báo thị trường tài chính (Carta et al., 2020; Yang et al., 2020). Cả Q-learning và deep Q learning là những thuật toán của học tăng cường được sử dụng để giải quyết vấn đề mà một tác nhân tương tác với môi trường để học một nhiệm vụ nào đó. Deep Q-learning bao gồm Q-learning cùng với mạng neuron học sâu để xấp xỉ hàm Q. Với các vấn đề lớn, bao gồm không gian trạng thái phức tạp và nhiều trạng thái, mô hình deep Q-learning có khả năng xử lý hiệu quả ứng dụng này. Q-learning dùng một bảng để chứa các giá trị Q cho mọi hành động-trạng thái tương ứng. Q-learning thường giải quyết tốt các vấn đề với không gian trạng thái nhỏ. Phương pháp mua bán dựa theo xu hướng với sự phân tích chỉ số kỹ thuật cùng kết hợp với Qlearning để ra quyết định mua bán (Jagdish & Manish, 2019).

Nghiên cứu này đề xuất một phương pháp học tăng cường cải tiến để dự đoán hành động trong giao dịch thị trường tiền ảo nhằm tăng lợi nhuận cho nhà đầu tư. Quy trình ra quyết định của Markov được áp dụng bằng cách kết hợp với mô hình dự đoán xu hướng để hỗ trợ mô hình học tăng cường nhằm ra quyết định hiệu quả hơn, giúp giao dịch thành công và đạt lợi nhuận cao hơn. Tại một thời điểm, hệ thống sẽ đưa ra quyết định chọn hành động để đạt được giá trị phần thưởng lớn nhất. Mô hình học tăng cường kết hợp với xu hướng giá trong dữ liệu chuỗi thời gian được đề xuất để đưa ra các hành động mua hoặc bán hoặc giữ để đạt được lợi nhuận cao nhất cho nhà đầu tư.

Từ đó, nghiên cứu này có một số kết luận từ quá trình phân tích, so sánh và đánh giá giữa các mô hình, những kết quả chỉ ra sự hiệu quả của học tăng cường kết hợp với xu hướng dữ liệu sẽ có nhiều ưu điểm trong việc dự báo giá thị trường tiền điện tử theo chuỗi dữ liệu thời gian. Mô hình đưa ra sự lựa chọn đúng cho người dùng để đạt được lợi nhuận không những tốt mà còn giảm nguy cơ thua lỗ bởi chỉ số MDD ổn định, đặc biệt quan trọng khi thị trường tiền điện tử có sự biến động lớn. Những thước đo đánh giá hiệu năng các mô hình trên các thước đo độ chính xác, lợi nhuận tích lũy, độ sụt giảm lớn nhất được sử dụng để so sánh đánh giá. Kết quả chỉ ra rằng, mô hình mua bán dựa trên học tăng cường với sự kết hợp của xu hướng dữ liệu mang lại nhiều ưu điểm hơn so với mô hình học tăng cường không xem xét xu hướng dữ liệu. Những kết quả được thực hiện trên cả hai tập dữ liệu Dogecoin và Bitcoin.

nhahuy
Theo Tạp chí Khoa học Trường Đại học Cần Thơ Tập 59, Số 3D (2023): 224-235.
In bài viết  
Bookmark
Ý kiến của bạn

Nghiên cứu mới  
   
Sáng kiến mới  
 
 

CASTI TiVi




© Copyright 2020 Trung tâm Thông tin Khoa học và Công nghệ - Sở Khoa học & Công nghệ TP. Cần Thơ
Địa chỉ: 118/3 Trần Phú - Phường Cái Khế - thành phố Cần Thơ
Giấy phép số: 05/ GP-TTĐT, do Sở Thông tin và Truyền Thông thành phố Cần Thơ cấp ngày 23/5/2017
Trưởng Ban biên tập: Ông Vũ Minh Hải - Giám Đốc Trung tâm Thông tin Khoa học và Công nghệ - Sở Khoa học & Công nghệ TP. Cần Thơ
Ghi rõ nguồn www.trithuckhoahoc.vn khi bạn sử dụng lại thông tin từ website này
-->