Phát triển ứng dụng trí tuệ nhân tạo (AI) trong giáo dục Đại học tại Việt Nam: cơ hội, thách thức và giải pháp
Sự phát triển nhanh chóng của trí tuệ nhân tạo (AI) đang làm thay đổi sâu sắc cách thức dạy học và đánh giá trong nhà trường. Nếu như trước đây việc xây dựng đề kiểm tra đòi hỏi giáo viên phải đầu tư nhiều thời gian và chuyên môn, thì hiện nay các công cụ AI có thể tạo ra ngân hàng câu hỏi trắc nghiệm chỉ trong vài giây. Điều này làm dấy lên kỳ vọng rằng giáo viên sẽ được giải phóng khỏi những công việc mang tính kỹ thuật, từ đó tập trung nhiều hơn vào giảng dạy, hỗ trợ cá nhân hóa việc học và phát triển năng lực người học.
Tuy nhiên, thực tiễn cho thấy bức tranh không đơn giản như vậy. Các nghiên cứu gần đây về chất lượng câu hỏi do AI sinh ra chỉ ra rằng phần lớn sản phẩm vẫn tồn tại sai sót đáng kể, từ lỗi nội dung đến vi phạm nguyên tắc đo lường giáo dục. Điều này làm nảy sinh lo ngại rằng nếu sử dụng thiếu thận trọng, AI không những không nâng cao chất lượng đánh giá mà còn có thể làm suy giảm độ tin cậy của kết quả học tập. Vấn đề vì thế không chỉ nằm ở năng lực kỹ thuật của công nghệ, mà còn ở tính hợp lệ, minh bạch của quy trình và vai trò trung tâm của giáo viên.

Trong nghiên cứu đo lường giáo dục, bộ tiêu chuẩn Standards for Educational and Psychological Testing được coi là nền tảng quốc tế để bảo đảm công bằng và độ tin cậy của đánh giá. Theo khung này, việc xác nhận chất lượng một công cụ kiểm tra phải dựa trên nhiều nguồn bằng chứng, bao gồm nội dung, quá trình phản hồi của người học và hệ quả của việc sử dụng kết quả đánh giá. Trong đó, bằng chứng về nội dung giữ vai trò then chốt: nếu câu hỏi không phản ánh đúng mục tiêu kiến thức và kỹ năng, toàn bộ quy trình đánh giá sẽ mất ý nghĩa.
Song song với đó, lý thuyết xây dựng câu hỏi trắc nghiệm của Brookhart & Nitko, McMillan hay Popham đã chỉ ra những nguyên tắc cơ bản như: mỗi câu hỏi chỉ có một đáp án đúng; phương án nhiễu phải hợp lý; cách diễn đạt rõ ràng, tránh phủ định phức tạp; độ dài các lựa chọn cần tương đương để không tạo lợi thế đoán mò. Những chuẩn mực này – vốn đã được kiểm chứng qua nhiều thập kỷ – hiện được sử dụng như thước đo để đánh giá năng lực của các công cụ AI trong môi trường giáo dục số.
Các thử nghiệm trên quy mô lớn cho thấy một tỷ lệ đáng kể câu hỏi trắc nghiệm do AI sinh ra vi phạm chuẩn thiết kế. Khoảng 80% câu hỏi mắc ít nhất một lỗi, trong đó gần ba phần tư được xếp vào nhóm sai sót nghiêm trọng – đủ khả năng làm sai lệch kết quả học tập nếu sử dụng trực tiếp. Chỉ khoảng 20% đạt chuẩn và có thể đưa vào sử dụng mà không cần chỉnh sửa.
Những lỗi phổ biến bao gồm sự chênh lệch rõ rệt về độ dài giữa các phương án, khiến thí sinh có xu hướng chọn đáp án dài hơn vì “có vẻ đúng”. Không ít câu hỏi xuất hiện nhiều hơn một đáp án đúng hoặc thậm chí không có đáp án chính xác. Một số phương án nhiễu trùng lặp từ khóa trong câu hỏi, vô tình gợi ý cho người làm bài. Cách diễn đạt mơ hồ hoặc sử dụng phủ định kép cũng xuất hiện với tần suất cao, làm tăng gánh nặng nhận thức và nguy cơ hiểu sai.
Những sai sót như vậy vốn không xa lạ trong đề thi do con người biên soạn, nhưng khi được nhân rộng ở quy mô lớn thông qua AI, chúng có thể tạo thành rủi ro hệ thống. Thay vì nâng cao hiệu quả đánh giá, công nghệ có nguy cơ làm suy giảm giá trị của các kỳ kiểm tra trong việc phản ánh năng lực thực chất của người học.
Một điểm đáng chú ý là phần lớn công cụ AI hiện nay không công bố rõ ràng về mô hình, thuật toán hay quy trình kiểm định chất lượng, đồng thời ít khi cảnh báo người dùng về rủi ro sai sót. Gần như không có nền tảng nào được phát triển với sự tham gia thường xuyên của chuyên gia đo lường giáo dục hay giáo viên – điều trái ngược với khuyến nghị của nhiều nghiên cứu quốc tế về hợp tác liên ngành giữa nhà giáo dục, nhà tâm lý học và kỹ sư AI.
Báo cáo của Văn phòng Công nghệ Giáo dục Hoa Kỳ (2023) nhấn mạnh rằng các hệ thống AI dùng trong đánh giá phải bảo đảm tính minh bạch, trách nhiệm giải trình và đặt giáo viên ở vị trí trung tâm trong thiết kế cũng như triển khai. Nếu không, AI rất dễ trở thành một “hộp đen” mà nhà trường buộc phải tin dùng nhưng không thể kiểm chứng, dẫn tới sự lệ thuộc thụ động và rủi ro sai lệch trong đánh giá học tập.
Nhiều quốc gia và đại học nghiên cứu trên thế giới đã ban hành hướng dẫn sử dụng AI trong dạy học và đánh giá, trong đó nhấn mạnh các nguyên tắc về công bằng, bảo mật dữ liệu, tính bao trùm và trách nhiệm đạo đức. Các nghiên cứu gần đây còn đề xuất rằng AI phải được thiết kế dựa trên lý thuyết học tập hiện đại, chú trọng tới sự đa dạng của người học và hạn chế thiên lệch thuật toán.
Tuy vậy, giới học thuật nhìn chung thống nhất rằng AI hiện mới chỉ đóng vai trò “khởi điểm” trong thiết kế đề thi, chứ chưa thể thay thế quy trình chuyên nghiệp do con người đảm nhiệm. Việc triển khai công nghệ cần đi kèm đào tạo giáo viên, cơ chế giám sát độc lập và hệ thống kiểm định rõ ràng – những bài học đặc biệt quan trọng đối với các quốc gia đang chuyển đổi số mạnh mẽ trong giáo dục.
Trong bối cảnh Chương trình Giáo dục phổ thông 2018 đặt trọng tâm vào đổi mới kiểm tra – đánh giá theo định hướng phát triển năng lực, cùng với Nghị quyết 57-NQ/TW về khoa học, công nghệ và chuyển đổi số, việc ứng dụng AI trong giáo dục vừa mở ra cơ hội lớn, vừa đặt ra yêu cầu quản lý chặt chẽ. Ở cấp vĩ mô, Bộ Giáo dục và Đào tạo cần xây dựng bộ hướng dẫn quốc gia về sử dụng AI trong đánh giá học tập, quy định rõ quy trình thẩm định, trách nhiệm của giáo viên và cơ chế kiểm định sản phẩm công nghệ.
Ở cấp nhà trường và đào tạo giáo viên, các trường sư phạm nên đưa nội dung thiết kế và thẩm định câu hỏi với sự hỗ trợ của AI vào chương trình đào tạo chính thức. Năng lực giám sát và hiệu chỉnh sản phẩm AI cần được coi là một kỹ năng nghề nghiệp mới của giáo viên trong kỷ nguyên số. Ở cấp nghiên cứu và phát triển, Việt Nam cần thúc đẩy các dự án liên ngành giữa nhà giáo dục, chuyên gia đo lường và kỹ sư công nghệ để xây dựng công cụ AI phù hợp với chương trình học trong nước, đồng thời đáp ứng chuẩn mực khoa học quốc tế.
AI đang mở ra nhiều khả năng mới cho đổi mới kiểm tra – đánh giá, đặc biệt trong việc tự động hóa quá trình thiết kế câu hỏi trắc nghiệm. Tuy nhiên, thực tiễn cho thấy chất lượng sản phẩm hiện tại còn nhiều hạn chế, với tỷ lệ sai sót cao và nguy cơ làm lệch kết quả học tập. Vấn đề cốt lõi không chỉ nằm ở thuật toán, mà ở cách con người thiết kế, giám sát và đặt công nghệ trong một khung chính sách phù hợp. Đối với Việt Nam, đây vừa là cơ hội để nâng cao chất lượng giáo dục, vừa là phép thử về năng lực quản trị đổi mới. Nếu biết khai thác AI như một công cụ hỗ trợ, đi kèm đào tạo giáo viên và cơ chế kiểm định nghiêm ngặt, công nghệ có thể trở thành động lực cải thiện đánh giá học tập. Ngược lại, việc sử dụng thiếu kiểm soát có thể làm suy yếu mục tiêu phát triển năng lực người học mà chương trình giáo dục mới đang hướng tới.