Trong các nghiên cứu mô phỏng, việc chủ động kiểm soát xác suất xuất hiện hiện tượng tách biệt là cần thiết nhằm đánh giá tác động của dạng dữ liệu này đến các phương pháp suy luận thống kê. Bài báo này trình bày các thuật toán mô phỏng dữ liệu theo mô hình hồi quy logistic, cho phép kiểm soát xác suất xuất hiện sự tách biệt với cỡ mẫu và số chiều của biến độc lập bất kỳ. Tính hiệu quả của các thuật toán được kiểm chứng thông qua các kết quả mô phỏng số.
1. GIỚI THIỆU
Hồi quy logistic là một trong những mô hình thống kê được sử dụng phổ biến trong phân tích dữ liệu nhị phân. Tuy nhiên, việc ước lượng tham số trong mô hình này thường gặp nhiều khó khăn do tính phi tuyến của hàm hợp lý, đặc biệt khi dữ liệu có cấu trúc không thuận lợi. Cả hai cách tiếp cận thống kê cổ điển và thống kê Bayes đều chịu ảnh hưởng đáng kể khi dữ liệu xuất hiện hiện tượng tách biệt.
Trong khuôn khổ thống kê cổ điển, các tham số của mô hình hồi quy logistic được ước lượng thông qua phương pháp cực đại hóa hàm hợp lý. Khi các quan sát trong mẫu có thể được phân chia hoàn toàn bởi một siêu phẳng, các ước lượng cực đại sẽ không tồn tại và có xu hướng tiến ra vô cùng. Vấn đề này đã được nhiều nghiên cứu kinh điển chỉ ra và phân tích một cách chi tiết.
Đối với thống kê Bayes, mặc dù hàm phân phối hậu nghiệm vẫn có thể được xác định, song sự tồn tại của các đặc trưng hậu nghiệm như giá trị trung bình phụ thuộc mạnh vào phân phối tiên nghiệm và cấu trúc của dữ liệu. Trong trường hợp dữ liệu có sự tách biệt, nhiều dạng phân phối tiên nghiệm thông dụng không đảm bảo sự tồn tại của trung bình hậu nghiệm.
Trong thực hành mô phỏng, hiện tượng tách biệt thường dễ xuất hiện khi cỡ mẫu nhỏ hoặc số chiều của biến độc lập thấp. Tuy nhiên, khi cỡ mẫu lớn và số chiều cao, việc chủ động tạo ra hoặc loại bỏ sự tách biệt trong dữ liệu mô phỏng là không đơn giản. Do đó, mục tiêu của bài báo này là xây dựng các thuật toán mô phỏng dữ liệu hồi quy logistic cho phép kiểm soát xác suất xuất hiện hiện tượng tách biệt trong mọi trường hợp về cỡ mẫu và số chiều của biến độc lập.
2. KẾT QUẢ NGHIÊN CỨU LÝ THUYẾT
2.1. Mô hình hồi quy logistic và khái niệm tách biệt dữ liệu
Xét một tập dữ liệu gồm n quan sát, trong đó biến phụ thuộc là biến nhị phân tuân theo phân phối Bernoulli và các biến độc lập được biểu diễn dưới dạng vector p chiều. Mô hình hồi quy logistic liên hệ xác suất thành công của biến phụ thuộc với tổ hợp tuyến tính của các biến độc lập thông qua hàm logit.
Hiện tượng tách biệt xảy ra khi tồn tại một vector tham số sao cho các quan sát thuộc hai nhóm của biến phụ thuộc được phân chia hoàn toàn bởi một siêu phẳng trong không gian biến độc lập. Trong trường hợp các quan sát chỉ nằm sát biên phân chia mà không bị phân tách hoàn toàn, dữ liệu được gọi là gần tách biệt. Hai dạng dữ liệu này đều gây khó khăn nghiêm trọng cho việc ước lượng tham số.
2.2. Điều kiện xuất hiện tách biệt với biến độc lập hai chiều
Khi mô hình chỉ bao gồm một biến độc lập cùng với hệ số hằng, điều kiện cần và đủ để dữ liệu xuất hiện hiện tượng tách biệt có thể được đặc trưng thông qua khoảng cách giữa hai tập quan sát tương ứng với hai giá trị của biến phụ thuộc.
Nếu khoảng cách này dương, tồn tại một vector tham số sao cho các quan sát của hai nhóm được phân chia hoàn toàn, khi đó dữ liệu xuất hiện tách biệt. Nếu khoảng cách bằng không, dữ liệu gần tách biệt. Kết quả này cho phép xây dựng các tiêu chí định lượng nhằm kiểm soát sự xuất hiện của tách biệt trong dữ liệu mô phỏng.
2.3. Điều kiện xuất hiện tách biệt với biến độc lập nhiều chiều
Trong trường hợp tổng quát, khi số chiều của biến độc lập lớn hơn hai, hiện tượng tách biệt có thể được gây ra bởi một hoặc nhiều thành phần của vector biến độc lập. Nếu tồn tại ít nhất hai thành phần mà khoảng cách giữa các tập quan sát tương ứng là dương, thì dữ liệu sẽ xuất hiện sự tách biệt.
Kết quả lý thuyết này cho thấy hiện tượng tách biệt không phụ thuộc trực tiếp vào cỡ mẫu mà chịu ảnh hưởng mạnh bởi cấu trúc hình học của dữ liệu trong không gian nhiều chiều. Đây là cơ sở quan trọng để xây dựng các thuật toán mô phỏng có kiểm soát.
3. KẾT QUẢ MÔ PHỎNG
3.1. Thuật toán mô phỏng dữ liệu với biến độc lập hai chiều
Dựa trên các kết quả lý thuyết, một thuật toán mô phỏng dữ liệu hồi quy logistic với biến độc lập hai chiều được đề xuất. Thuật toán bao gồm các bước mô phỏng biến độc lập thành hai nhóm tách biệt, lựa chọn vector tham số phù hợp để điều chỉnh xác suất thành công của biến phụ thuộc, và sinh biến nhị phân theo phân phối Bernoulli.
Việc điều chỉnh khoảng cách giữa hai nhóm của biến độc lập và độ lớn của tham số điều khiển cho phép kiểm soát xác suất xuất hiện sự tách biệt trong dữ liệu mô phỏng. Kết quả mô phỏng cho thấy khi tham số điều khiển tăng, xác suất xuất hiện tách biệt tăng nhanh và có thể đạt gần 100%.
3.2. Thuật toán mô phỏng dữ liệu với biến độc lập nhiều chiều
Thuật toán mô phỏng được mở rộng cho trường hợp biến độc lập có nhiều chiều, trong đó một số thành phần được lựa chọn làm yếu tố chính gây ra sự tách biệt. Các tham số điều khiển tương ứng với từng thành phần cho phép điều chỉnh mức độ ảnh hưởng của mỗi biến đến xác suất tách biệt.
Kết quả mô phỏng xác nhận rằng xác suất xuất hiện tách biệt phụ thuộc đồng thời vào khoảng cách giữa các tập quan sát và giá trị của các tham số điều khiển. Thuật toán cho phép tạo ra dữ liệu có hoặc không có tách biệt một cách chủ động và linh hoạt.
4. KẾT LUẬN
Bài báo đã trình bày các kết quả lý thuyết và thuật toán mô phỏng dữ liệu theo mô hình hồi quy logistic với khả năng kiểm soát xác suất xuất hiện hiện tượng tách biệt. Các thuật toán đề xuất cho phép tạo ra dữ liệu mô phỏng với cỡ mẫu và số chiều biến độc lập bất kỳ mà không phụ thuộc vào đặc tính ngẫu nhiên của dữ liệu.
Kết quả nghiên cứu có ý nghĩa quan trọng đối với các nghiên cứu mô phỏng trong thống kê, đặc biệt trong việc đánh giá ảnh hưởng của dữ liệu tách biệt đến các phương pháp ước lượng trong hồi quy logistic theo cả hai cách tiếp cận cổ điển và Bayes. Trong tương lai, các kết quả này có thể được sử dụng để nghiên cứu sâu hơn về tốc độ hội tụ của phân phối hậu nghiệm và tác động của các dạng phân phối tiên nghiệm khác nhau trong mô hình hồi quy logistic. |