Tự nhiên [ Đăng ngày (09/03/2025) ]
Dự báo chuỗi thời gian với một số mô hình học máy và ứng dụng
Nghiên cứu do các tác giả Lê Trung Can, Trần Phước Lộc - Trường Đại học Cần Thơ thực hiện nhằm góp phần làm đa dạng hơn các mô hình dự báo chính xác và kịp thời, từ đó hỗ trợ thêm thông tin cho các cơ quan chức năng và cộng đồng trong việc chuẩn bị và ứng phó với những thách thức về thời tiết và biến đổi khí hậu, đồng thời bổ sung thêm tài liệu tham khảo cho các nhà nghiên cứu, giảng viên và sinh viên trong vấn đề dự báo dữ liệu chuỗi thời gian.

Biểu đồ các thành phần dữ liệu lưu lượng nước ở Tân Châu từ 1/1992 đến 12/2021

Dự báo là một trong những kênh thông tin quan trọng giúp chúng ta chuẩn bị tốt hơn cho tương lai và đưa ra quyết định dựa trên những gì được dự đoán sẽ xảy ra. Trong thời đại công nghệ thông tin hiện nay, việc sử dụng các mô hình toán học và học máy (ML) để dự báo dữ liệu đã trở nên phổ biến.

Dữ liệu chuỗi thời gian là một loại dữ liệu quan trọng trong nhiều lĩnh vực như kinh tế, y tế, sinh học, giáo dục và xã hội học. Dữ liệu này bao gồm các quan sát được thu thập tại các thời điểm cách đều nhau. Những ví dụ phổ biến của dữ liệu chuỗi thời gian bao gồm giá chứng khoán, nhiệt độ trung bình hàng ngày, lưu lượng nước hàng tháng, mức tiêu thụ năng lượng và sản lượng nông nghiệp. Việc phân tích và dự báo chuỗi thời gian giúp chúng ta hiểu rõ hơn về các quy luật trong quá khứ và đưa ra những dự đoán chính xác về tương lai, từ đó hỗ trợ quá trình ra quyết định trong nhiều lĩnh vực khác nhau. Đối với dữ liệu này, một số mô hình chuỗi thời gian như mô hình hồi quy, Holt-Winters, ARIMA,... được sử dụng phổ biến để phân tích và dự báo. Những năm gần đây, với sự phát triển nhanh chóng của máy tính có cấu hình mạnh và các thuật toán ML, học sâu và trí tuệ nhân tạo cho phép chúng ta thực hiện dễ dàng các phép tính phức tạp hơn trước đây để phân tích các bộ dữ liệu.

ML là một nhánh của trí tuệ nhân tạo, tập trung vào việc phát triển các thuật toán cho phép máy tính học từ dữ liệu và cải thiện hiệu suất theo thời gian mà không cần sự can thiệp nhiều của con người. ML gồm nhiều loại khác nhau, thường bao gồm học có giám sát (như hồi quy và phân loại), học không giám sát (như phân cụm và giảm số chiều dữ liệu), học bán giám sát, học tăng cường, học truyền dẫn, và học theo nhóm. Mục tiêu của học tập theo nhóm là cải thiện hiệu suất dự đoán hoặc phân loại bằng cách kết hợp các dự đoán từ nhiều mô hình ML khác nhau. Nó có thể được coi như một cách bù đắp cho các thuật toán đơn lẻ có hiệu suất không cao. Các thuật toán này thường được sử dụng để giảm độ chệch, phương sai, hoặc cải thiện dự báo.

Với dữ liệu chuỗi thời gian, ML đã chứng minh được khả năng vượt trội trong việc xử lý các tập dữ liệu lớn và phức tạp, cho phép chúng ta dự đoán chính xác hơn so với các phương pháp truyền thống. Nghiên cứu này giới thiệu và sử dụng một số mô hình ML theo nhóm để phân tích dữ liệu chuỗi thời gian. Rừng ngẫu nhiên (random forest –RF), một phương pháp ML dựa trên tập hợp các cây quyết định, được giới thiệu bởi Breiman (2001). Máy tăng cường độ dốc (gradient boosting machine - GBM), một phương pháp ML mạnh mẽ khác, phát triển dựa trên kỹ thuật tăng cường, khi nhiều mô hình yếu được kết hợp để tạo ra một mô hình mạnh hơn (Friedman, 2001). ML tự động (automated machine learning - AutoML), một kỹ thuật giúp tự động hóa quá trình xây dựng các mô hình ML dựa trên các kỹ thuật khác nhau. Trong bài viết này, hàm từ thư viện h2o trong ngôn ngữ (LeDer & Poirier, 2020) được sử dụng để huấn luyện mô hình.

Trong những năm gần đây, vấn đề biến đổi khí hậu như sự gia tăng nhiệt độ toàn cầu, hạn hán, lũ lụt, thiếu hụt nguồn nước ngọt, xâm nhập mặn,... đã gây ra những ảnh hưởng tiêu cực đến đời sống sinh hoạt và sản xuất của con người. Do đó, công tác dự báo và cảnh báo lũ, xâm nhập mặn đóng một vai trò hết sức quan trọng và thu hút sự quan tâm của nhiều cơ quan, trung tâm dự báo và nhà khoa học. Trung tâm Dự Báo Khí tượng Thủy văn Quốc gia đã ứng dụng mô hình hóa (MIKE 11) để tính toán dòng chảy lũ hạ lưu và dự báo mặn cho đồng bằng sông Cửu Long (ĐBSCL). Kết quả mô phỏng cho thấy mô hình này có khả năng dự báo tốt về xu thế và có độ chính xác cao (Hải và ctv., 2020). Khi sử dụng mô hình MIKE 11 để mô phỏng xâm nhập mặn tại ĐBSCL, kết quả kiểm định cho thấy sự tương quan tốt giữa mực nước và độ mặn tại các trạm thủy văn (Toàn và ctv., 2020). Tại tỉnh Bến Tre, ngoài phương pháp dự báo thống kê và kinh nghiệm, các chuyên gia đã áp dụng công nghệ mới và sử dụng mô hình MIKE 11 để hiệu chỉnh và kiểm định số liệu mực nước, đạt kết quả tốt cho công tác dự báo chi tiết mực nước và độ mặn (Lam và ctv., 2022). Ngoài ra, các thuật toán ML đã được ứng dụng để dự báo xâm nhập mặn ở ĐBSCL nhằm quản lý nguồn nước ngọt và giảm thiểu tác động của xâm nhập mặn. Phương pháp k-hàng xóm gần nhất (KNN) đã được sử dụng để dự báo độ mặn trên sông Hàm Luông, Bến Tre, cho kết quả khá chính xác (Hoài và ctv., 2022). Các thuật toán như LR, RF, và mạng nơ-ron nhân tạo (ANN) cũng được áp dụng để dự đoán xâm nhập mặn hàng tuần từ năm 2012 đến 2020, với mô hình ANN đạt hiệu suất cao (Pham et al., 2022). Các mô hình học sâu như LSTM, MLP, CNN, và Transformer đã được dùng để kiểm tra mực nước hàng giờ tại các cửa sông Mê Kông, trong đó LSTM có độ chính xác và tin cậy cao (Tran et al., 2022).

Mặc dù hiệu quả của việc sử dụng các mô hình ML trong việc phân tích và dự báo đã được chứng minh là khá hiệu quả, nhưng các áp dụng của nó trong lĩnh vực khí tượng thủy văn vẫn còn ít, đặc biệt là trong dự báo lưu lượng dòng chảy của nước. Do đó, động lực chính và đóng góp của nghiên cứu này là khái quát lý thuyết và ứng dụng các mô hình ML vào việc phân tích và dự báo dữ liệu thời gian, đặc biệt là dữ liệu về lưu lượng dòng chảy của nước ở trạm đo sông Tiền tại Tân Châu, An Giang. Việc áp dụng các mô hình trong nghiên cứu này sẽ góp phần làm đa dạng hơn các mô hình dự báo chính xác và kịp thời, từ đó hỗ trợ thêm thông tin cho các cơ quan chức năng và cộng đồng trong việc chuẩn bị và ứng phó với những thách thức về thời tiết và biến đổi khí hậu, đồng thời bổ sung thêm tài liệu tham khảo cho các nhà nghiên cứu, giảng viên và sinh viên trong vấn đề dự báo dữ liệu chuỗi thời gian.

Nghiên cứu này trình bày việc phân tích và dự báo dữ liệu chuỗi thời gian bằng cách sử dụng các mô hình học máy khác nhau. Các phương pháp được sử dụng bao gồm Holt-Winters, ARIMA, hồi quy tuyến tính (LR), rừng ngẫu nhiên (RF), máy tăng cường độ dốc (GBM) và học máy tự động (AutoML). Các phương pháp tìm kiếm lưới nâng cao cũng được áp dụng cho ARIMA, RF và GBM để tối ưu hóa mô hình. Dữ liệu lưu lượng nước hàng tháng tại trạm đo trên Sông Tiền ở Tân Châu từ năm 1992 đến 2021 được sử dụng để huấn luyện và kiểm tra các mô hình.

Qua thời gian thực hiện, kết quả nghiên cứu đã trình bày tóm tắt kiến thức liên quan đến một số phương pháp ML trong việc phân tích và dự báo chuỗi thời gian. Các phương pháp này đã được áp dụng vào bộ dữ liệu thực tế về lưu lượng nước ở Tân Châu và nhận được kết quả tốt nhất với thuật toán GBM_grid với kỹ thuật tìm kiếm nâng cao. Dựa vào những kết quả của nghiên cứu, có thể thấy rằng các phương pháp ML không chỉ cải thiện độ chính xác của dự báo mà còn có thể mở ra nhiều cơ hội ứng dụng trong các lĩnh vực khác nhau, đặc biệt là các vấn đề liên quan đến dự báo sự thay đổi của các yếu tố thời tiết và thiên tai. Ngoài ra, các phương pháp học sâu, một dạng phức tạp hơn của ML, rất tiềm năng trong dự báo dữ liệu chuỗi thời gian nên có thể được xem xét để áp dụng trong thời gian tới. Biểu đồ dự báo lưu lượng nước 12 tháng tiếp theo

Tạp chí Trường Đại học Cần Thơ, Tập 60, Số chuyên đề: Khoa học tự nhiên (Toán-Lý) 2024 (nthang)
In bài viết  
Bookmark
Ý kiến của bạn

Xã hội-Nhân văn  
 
Người cao tuổi trong công nghệ số
Trước thách thức dân số cao tuổi tại Việt Nam đang ngày càng gia tăng với tốc độ nhanh chóng, công nghệ đã và đang trở thành người bạn đồng hành giúp người cao tuổi vượt qua khoảng cách thế hệ, nâng cao sức khỏe và duy trì sự độc lập trong cuộc sống hiện đại.


 

Video




© Copyright 2020 Trung tâm Thông tin Khoa học và Công nghệ - Sở Khoa học & Công nghệ TP. Cần Thơ
Địa chỉ: 118/3 Trần Phú - Phường Cái Khế - Quận Ninh Kiều - thành phố Cần Thơ
Giấy phép số: 05/ GP-TTĐT, do Sở Thông tin và Truyền Thông thành phố Cần Thơ cấp ngày 23/5/2017
Trưởng Ban biên tập: Ông Vũ Minh Hải - Giám Đốc Trung tâm Thông tin Khoa học và Công nghệ - Sở Khoa học & Công nghệ TP. Cần Thơ
Ghi rõ nguồn www.trithuckhoahoc.vn khi bạn sử dụng lại thông tin từ website này
-->