AI và đổi mới kiểm tra – đánh giá: Cơ hội công nghệ và phép thử chất lượng giáo dục
Trí tuệ nhân tạo đang tái định hình cách thức dạy học và đánh giá trong nhà trường. Nếu trước đây việc xây dựng đề kiểm tra đòi hỏi giáo viên đầu tư đáng kể thời gian và công sức, thì hiện nay nhiều công cụ AI có thể tạo ra hàng loạt câu hỏi trắc nghiệm chỉ trong vài giây. Sự tiện lợi này mở ra kỳ vọng rằng giáo viên sẽ được giải phóng khỏi những khâu kỹ thuật lặp lại để tập trung nhiều hơn cho giảng dạy và hỗ trợ người học.
Tuy nhiên, thực tiễn triển khai cho thấy bức tranh phức tạp hơn. Các nghiên cứu đánh giá công cụ AI tạo câu hỏi trắc nghiệm chỉ ra rằng chất lượng đầu ra còn nhiều hạn chế, với tỷ lệ sai sót cao. Nếu sử dụng một cách vội vàng, AI không những không nâng cao độ tin cậy của đánh giá mà còn có nguy cơ làm sai lệch kết quả học tập. Do đó, vấn đề cốt lõi không chỉ nằm ở năng lực kỹ thuật, mà còn liên quan đến tính hợp lệ của phép đo, mức độ minh bạch của công cụ và vai trò trung tâm của giáo viên trong toàn bộ quy trình.
Khung lý thuyết và nền tảng khoa học
Để thẩm định chất lượng công cụ AI trong đánh giá, giới học thuật dựa vào các chuẩn mực quốc tế về đo lường giáo dục, tiêu biểu là Standards for Educational and Psychological Testing. Bộ tiêu chuẩn này nhấn mạnh việc tích hợp nhiều nguồn bằng chứng – từ nội dung, quá trình phản hồi cho tới hệ quả của đánh giá – như điều kiện nền tảng để bảo đảm công bằng và độ tin cậy. Trong đó, bằng chứng về nội dung giữ vai trò trụ cột: nếu câu hỏi không phản ánh đúng mục tiêu kiến thức và kỹ năng, mọi phân tích tiếp theo đều trở nên thiếu ý nghĩa.
Song song đó, các lý thuyết kinh điển về xây dựng câu hỏi trắc nghiệm tiếp tục được sử dụng làm thước đo cho sản phẩm do AI tạo ra. Những nguyên tắc như chỉ có một đáp án đúng, phương án nhiễu hợp lý, ngôn ngữ rõ ràng, tránh mơ hồ và độ dài lựa chọn tương đồng vốn đã được kiểm chứng qua nhiều thập kỷ – nay trở thành tiêu chí để đánh giá hiệu quả của công nghệ trong bối cảnh giáo dục số.
Chất lượng câu hỏi do AI tạo ra: Những khoảng trống đáng lo ngại
Các kết quả kiểm chứng trên hàng trăm câu hỏi trắc nghiệm do AI sinh ra cho thấy nhiều bất cập đáng chú ý. Khoảng 80% vi phạm ít nhất một nguyên tắc xây dựng câu hỏi chuẩn, trong đó gần ba phần tư được xếp vào nhóm lỗi nghiêm trọng – đủ sức làm sai lệch kết quả nếu sử dụng nguyên trạng. Chỉ khoảng 20% đáp ứng đầy đủ tiêu chí để có thể đưa vào sử dụng ngay.
Những lỗi phổ biến gồm mất cân đối độ dài phương án, khiến thí sinh có xu hướng chọn đáp án dài hơn; câu hỏi không có đáp án đúng hoặc có nhiều hơn một phương án chính xác; phương án nhiễu phi logic hoặc trùng từ khóa với đề, vô tình “bật mí” lời giải; và cách diễn đạt phủ định, mơ hồ làm tăng gánh nặng nhận thức.
Những sai sót này vốn không hiếm trong đề thi do con người biên soạn. Nhưng khi được tái tạo ở quy mô lớn bởi AI, chúng trở thành rủi ro mang tính hệ thống. Thay vì nâng cao chất lượng đánh giá, công nghệ có thể làm suy giảm độ tin cậy của kết quả và giá trị phản ánh năng lực thực của người học.
Minh bạch, độ tin cậy và vai trò không thể thay thế của con người
Một vấn đề nổi cộm là phần lớn công cụ AI hiện nay không công bố rõ nền tảng công nghệ, cũng như chưa cảnh báo đầy đủ về nguy cơ sai sót. Chỉ một số ít khuyến nghị người dùng rà soát lại sản phẩm trước khi áp dụng, và gần như không có sự tham gia của chuyên gia đo lường hay giáo viên trong quá trình phát triển. Điều này đi ngược lại quan điểm được nhấn mạnh trong nhiều nghiên cứu: thiết kế công cụ đánh giá phải là kết quả của hợp tác liên ngành giữa nhà giáo dục, nhà tâm lý đo lường và kỹ sư AI.
Tính minh bạch là điều kiện tiên quyết để xây dựng niềm tin. Báo cáo của Văn phòng Công nghệ Giáo dục Hoa Kỳ yêu cầu các nhà phát triển công bố mô hình, thuật toán và cảnh báo rủi ro, đồng thời khẳng định giáo viên phải là nhân tố trung tâm trong thiết kế và triển khai. Nếu không, AI có nguy cơ trở thành “hộp đen”, buộc giáo viên phải sử dụng nhưng không thể kiểm chứng – dẫn tới lệ thuộc thụ động và sai lầm trong đánh giá.
Kinh nghiệm quốc tế
Nhiều hệ thống giáo dục trên thế giới đã ban hành hướng dẫn sử dụng AI trong dạy học và đánh giá, nhấn mạnh các nguyên tắc minh bạch, công bằng, trách nhiệm giải trình và bảo mật dữ liệu. Một số nghiên cứu gần đây còn đề xuất rằng AI trong đánh giá phải được xây dựng dựa trên lý thuyết học tập hiện đại, chú trọng tới đa dạng và tính bao trùm.
Tuy vậy, các công trình cũng thống nhất rằng AI hiện mới chỉ đóng vai trò “điểm khởi đầu” trong thiết kế đề, chứ chưa thể thay thế hoàn toàn quy trình chuyên nghiệp của con người. Việc triển khai cần gắn với đào tạo giáo viên, tăng cường giám sát và thiết lập chuẩn kiểm định rõ ràng – những bài học quan trọng cho các quốc gia đang chuyển đổi số giáo dục.
Ở cấp nhà trường và đào tạo giáo viên, các cơ sở sư phạm nên đưa nội dung thiết kế và thẩm định câu hỏi với sự hỗ trợ của AI vào chương trình đào tạo, coi đây là năng lực nghề nghiệp mới của giáo viên thời đại số.
Ở cấp nghiên cứu – phát triển, cần thúc đẩy các dự án AI dành riêng cho giáo dục Việt Nam với sự tham gia của nhà giáo dục, chuyên gia đo lường và kỹ sư công nghệ, bảo đảm bám sát chương trình học và chuẩn khoa học quốc tế.
Triển khai đồng bộ ba tầng này sẽ giúp Việt Nam tận dụng lợi ích của AI trong thiết kế đề, đồng thời giảm thiểu rủi ro sai lệch, để đánh giá thực sự trở thành công cụ hỗ trợ học tập.
AI mở ra nhiều cơ hội cho đổi mới kiểm tra – đánh giá, đặc biệt trong tự động hóa việc xây dựng câu hỏi trắc nghiệm. Tuy nhiên, thực tế cho thấy chất lượng sản phẩm hiện nay còn nhiều hạn chế, với nguy cơ sai lệch và thiếu minh bạch. Vấn đề không chỉ nằm ở công nghệ, mà ở cách con người thiết kế, giám sát và sử dụng nó.
Đối với Việt Nam, đây vừa là cơ hội vừa là phép thử. Nếu biết khai thác AI như một công cụ hỗ trợ, đồng thời đầu tư cho đào tạo giáo viên, cơ chế kiểm soát và phát triển công cụ phù hợp bối cảnh, AI có thể trở thành động lực nâng cao chất lượng giáo dục. Ngược lại, nếu triển khai thiếu chuẩn mực, nguy cơ lệ thuộc và sai lệch trong đánh giá sẽ trực tiếp ảnh hưởng đến mục tiêu phát triển năng lực người học mà chương trình giáo dục mới đang hướng tới. |