Các nhà nghiên cứu nhận thấy rằng các mô hình được đào tạo bằng cách sử dụng các kỹ thuật thu thập dữ liệu phổ biến sẽ đánh giá các hành vi vi phạm quy tắc nghiêm khắc hơn so với con người.
Theo các nhà nghiên cứu từ MIT và các tổ chức khác, các mô hình máy học thường đưa ra những đánh giá khắc nghiệt hơn so với con người do được đào tạo về loại dữ liệu sai, điều này có thể gây ra những tác động nghiêm trọng trong thế giới thực.
Trong nỗ lực cải thiện tính công bằng hoặc giảm lượng công việc tồn đọng, các mô hình máy học đôi khi được thiết kế để bắt chước quá trình ra quyết định của con người, chẳng hạn như quyết định xem các bài đăng trên mạng xã hội có vi phạm chính sách nội dung độc hại hay không.
Nhưng các nhà nghiên cứu từ MIT và các nơi khác đã phát hiện ra rằng những mô hình này thường không tái tạo các quyết định của con người về việc vi phạm quy tắc. Nếu các mô hình không được đào tạo với dữ liệu phù hợp, chúng có khả năng đưa ra những đánh giá khác, thường khắc nghiệt hơn so với con người.
Trong trường hợp này, dữ liệu “đúng” là dữ liệu đã được dán nhãn bởi con người, những người được hỏi rõ ràng liệu các mặt hàng có tuân theo một quy tắc nhất định hay không. Đào tạo liên quan đến việc hiển thị một mô hình máy học hàng triệu ví dụ về “dữ liệu quy chuẩn” này để nó có thể học một nhiệm vụ.
Nhưng dữ liệu được sử dụng để đào tạo các mô hình học máy thường được gắn nhãn mô tả — nghĩa là con người được yêu cầu xác định các đặc điểm thực tế, chẳng hạn như sự hiện diện của đồ chiên trong một bức ảnh. Nếu “dữ liệu mô tả” được sử dụng để đào tạo các mô hình đánh giá các hành vi vi phạm quy tắc, chẳng hạn như liệu một bữa ăn có vi phạm chính sách cấm đồ chiên của trường hay không, thì các mô hình này có xu hướng dự đoán quá mức các hành vi vi phạm quy tắc.
Sự sụt giảm độ chính xác này có thể có những tác động nghiêm trọng trong thế giới thực. Chẳng hạn, nếu một mô hình mô tả được sử dụng để đưa ra quyết định về việc liệu một cá nhân có khả năng tái phạm hay không, các phát hiện của các nhà nghiên cứu cho thấy nó có thể đưa ra những phán quyết nghiêm khắc hơn so với con người, điều này có thể dẫn đến số tiền bảo lãnh cao hơn hoặc án hình sự lâu hơn.
“Tôi nghĩ rằng hầu hết các nhà nghiên cứu trí tuệ nhân tạo/máy học đều cho rằng phán đoán của con người về dữ liệu và nhãn là sai lệch, nhưng kết quả này đang nói lên điều gì đó tồi tệ hơn. Các mô hình này thậm chí không tái tạo các phán đoán vốn đã thiên vị của con người vì dữ liệu mà chúng đang được đào tạo có một lỗ hổng: Con người sẽ gắn nhãn các đặc điểm của hình ảnh và văn bản theo cách khác nếu họ biết các đặc điểm đó sẽ được sử dụng để phán đoán. Marzyeh Ghassemi, trợ lý giáo sư và người đứng đầu Nhóm Healthy ML trong Phòng thí nghiệm Khoa học Máy tính và Trí tuệ Nhân tạo (CSAIL) cho biết: Điều này có sự phân nhánh rất lớn đối với các hệ thống máy học trong các quy trình của con người.
Ghassemi là tác giả cao cấp của một bài báo mới mô tả chi tiết những phát hiện này, được xuất bản vào ngày 10 tháng 5 trên tạp chí Science Advances . Tham gia cùng cô ấy trên bài báo là tác giả chính Aparna Balagopalan, một sinh viên tốt nghiệp ngành kỹ thuật điện và khoa học máy tính; David Madras, nghiên cứu sinh tại Đại học Toronto; David H. Yang, cựu sinh viên tốt nghiệp hiện là đồng sáng lập của ML Estimation; Dylan Hadfield-Menell, trợ lý giáo sư MIT; và Gillian K. Hadfield, Schwartz Reisman Chủ tịch về Công nghệ và Xã hội và giáo sư luật tại Đại học Toronto.
Sự khác biệt
Nghiên cứu này phát triển từ một dự án khác khám phá cách một mô hình học máy có thể biện minh cho dự đoán của nó. Khi họ thu thập dữ liệu cho nghiên cứu đó, các nhà nghiên cứu nhận thấy rằng con người đôi khi đưa ra những câu trả lời khác nhau nếu họ được yêu cầu cung cấp nhãn mô tả hoặc quy chuẩn về cùng một dữ liệu.
Để thu thập các nhãn mô tả, các nhà nghiên cứu yêu cầu người dán nhãn xác định các đặc điểm thực tế — văn bản này có chứa ngôn ngữ tục tĩu không? Để thu thập các nhãn quy chuẩn, các nhà nghiên cứu đưa ra quy tắc cho người gắn nhãn và hỏi xem dữ liệu có vi phạm quy tắc đó không — văn bản này có vi phạm chính sách ngôn ngữ tục tĩu của nền tảng không?
Ngạc nhiên trước phát hiện này, các nhà nghiên cứu đã khởi động một nghiên cứu người dùng để tìm hiểu sâu hơn. Họ đã thu thập bốn bộ dữ liệu để bắt chước các chính sách khác nhau, chẳng hạn như bộ dữ liệu về hình ảnh con chó có thể vi phạm quy tắc của căn hộ đối với các giống chó hung dữ. Sau đó, họ yêu cầu các nhóm người tham gia cung cấp các nhãn mô tả hoặc quy chuẩn.
Trong mỗi trường hợp, những người dán nhãn mô tả được yêu cầu cho biết liệu ba đặc điểm thực tế có trong hình ảnh hoặc văn bản hay không, chẳng hạn như liệu con chó có tỏ ra hung dữ hay không. Câu trả lời của họ sau đó được sử dụng để đưa ra các phán đoán. (Nếu người dùng cho biết một bức ảnh có một con chó hung dữ, thì chính sách đó đã bị vi phạm.) Những người dán nhãn không biết chính sách về thú cưng. Mặt khác, những người dán nhãn quy phạm được đưa ra chính sách cấm những con chó hung dữ, sau đó được hỏi liệu nó có bị vi phạm bởi từng hình ảnh hay không và tại sao.
Các nhà nghiên cứu phát hiện ra rằng con người có nhiều khả năng coi một đối tượng là vi phạm trong cài đặt mô tả. Sự khác biệt mà họ tính toán bằng cách sử dụng sự khác biệt tuyệt đối về nhãn trung bình dao động từ 8% trên bộ dữ liệu hình ảnh được sử dụng để đánh giá các hành vi vi phạm quy định về trang phục đến 20% đối với hình ảnh chó.
“Mặc dù chúng tôi không kiểm tra rõ ràng lý do tại sao điều này xảy ra, nhưng một giả thuyết là có thể cách mọi người nghĩ về vi phạm quy tắc khác với cách họ nghĩ về dữ liệu mô tả. Nói chung, các quyết định mang tính quy phạm thường nhẹ nhàng hơn,” Balagopalan nói.
Tuy nhiên, dữ liệu thường được thu thập với các nhãn mô tả để đào tạo một mô hình cho một nhiệm vụ học máy cụ thể. Những dữ liệu này thường được sử dụng lại sau này để đào tạo các mô hình khác nhau thực hiện các phán đoán quy phạm, chẳng hạn như vi phạm quy tắc.
Rắc rối đào tạo
Để nghiên cứu các tác động tiềm ẩn của việc sử dụng lại dữ liệu mô tả, các nhà nghiên cứu đã đào tạo hai mô hình để đánh giá các hành vi vi phạm quy tắc bằng cách sử dụng một trong bốn cài đặt dữ liệu của họ. Họ đã đào tạo một mô hình bằng cách sử dụng dữ liệu mô tả và mô hình kia sử dụng dữ liệu quy chuẩn, sau đó so sánh hiệu suất của chúng.
Họ phát hiện ra rằng nếu dữ liệu mô tả được sử dụng để đào tạo một mô hình, nó sẽ hoạt động kém hơn mô hình được đào tạo để thực hiện các phán đoán tương tự bằng cách sử dụng dữ liệu quy chuẩn. Cụ thể, mô hình mô tả có nhiều khả năng phân loại sai đầu vào bằng cách dự đoán sai một vi phạm quy tắc. Và độ chính xác của mô hình mô tả thậm chí còn thấp hơn khi phân loại các đối tượng mà người dán nhãn không đồng ý.
“Điều này cho thấy rằng dữ liệu thực sự quan trọng. Balagopalan nói: Điều quan trọng là phải khớp bối cảnh đào tạo với bối cảnh triển khai nếu bạn đang đào tạo các mô hình để phát hiện xem một quy tắc có bị vi phạm hay không.
Người dùng có thể rất khó xác định cách dữ liệu đã được thu thập; Ghassemi nói rằng thông tin này có thể được chôn giấu trong phần phụ lục của một bài báo nghiên cứu hoặc không được tiết lộ bởi một công ty tư nhân.
Cải thiện tính minh bạch của tập dữ liệu là một cách có thể giảm thiểu vấn đề này. Nếu các nhà nghiên cứu biết dữ liệu được thu thập như thế nào, thì họ sẽ biết những dữ liệu đó nên được sử dụng như thế nào. Một chiến lược khả thi khác là tinh chỉnh một mô hình được đào tạo mô tả trên một lượng nhỏ dữ liệu quy chuẩn. Ý tưởng này, được gọi là học tập chuyển giao, là điều mà các nhà nghiên cứu muốn khám phá trong công việc trong tương lai.
Họ cũng muốn tiến hành một nghiên cứu tương tự với những chuyên gia dán nhãn, chẳng hạn như bác sĩ hoặc luật sư, để xem liệu điều đó có dẫn đến sự chênh lệch về nhãn giống nhau hay không.
“Cách để khắc phục điều này là thừa nhận một cách minh bạch rằng nếu chúng tôi muốn tái tạo phán đoán của con người, chúng tôi chỉ được sử dụng dữ liệu được thu thập trong bối cảnh đó. Nếu không, chúng ta sẽ kết thúc với những hệ thống sẽ có sự kiểm duyệt cực kỳ khắc nghiệt, khắc nghiệt hơn nhiều so với những gì con người sẽ làm. Con người sẽ nhìn thấy sắc thái hoặc tạo ra sự khác biệt khác, trong khi những mô hình này thì không,” Ghassemi nói.
|