Ứng dụng các mô hình học máy vào dự đoán tình trạng bỏ học của sinh viên
Ngày nay, số sinh viên nghỉ học ở các trường đại học ngày càng tăng do nhiều yếu tố bởi nhiều yếu tố ảnh hưởng đến sinh viên. Từ kết quả dự đoán sinh viên bỏ học, các trường học đưa ra các giải pháp hỗ trợ để các sinh viên đó kịp thời. Trong bài báo này, tác giả Nông Thị Hoa - Trường Đại học Thủy Lợi nghiên cứu và sử dụng các mô hình học máy mới và hiệu quả nhất được áp dụng trên tập dữ liệu chuẩn để dự đoán các sinh viên bỏ học.

Hiện nay, số lượng sinh viên ở các trường đại học bỏ học ngày càng tăng. Để cải thiện tình trạng này, việc dự đoán sinh viên bỏ học giúp nhà trường đưa ra các giải pháp hỗ trợ phù hợp đến các sinh viên đó. Sinh viên bỏ học do nhiều yếu tố khác nhau như kết quả học tập thấp, lo lắng cho chi phí học tập và ăn ở, chuyên ngành đang theo học, và tác động của các yếu tố kinh tế xã hội của quốc gia. Vì vậy, một ứng dụng thông minh tích hợp tri thức về các yếu tố ảnh hưởng đến kết quả học tập của sinh viên là hết sức cần thiết và hữu ích cho các trường đại học.
Hiện nay, một số nghiên cứu đã được thực hiện trên các sinh viên ở Mỹ, Phần Lan, Tây Ban Nha. Matti Vaarma dùng cây quyết định (CatBoost), mạng nơ-ron và hồi quy để dự đoán các sinh viên bỏ học trên tập dữ liệu về sinh viên ở Phần Lan và các thử nghiệm cho thấy độ chính xác đạt 81%. Tương tự, Achmad Ridwana dùng cây quyết định (XGBoost) trên tập dữ liệu chuẩn của UCI Machine Learning Repository (UCI) và độ chính xác đạt 88%. Alice Villar [3] dùng cây quyết định (LightGBM, CatBoost) thử nghiệm trên tập dữ liệu chuẩn của UCI và có độ chính xác là 87%. Divvyam Arora dùng kỹ thuật Stacking Classifier trên tập dữ liệu chuẩn của UCI và đạt độ chính xác 89%. Tuti Purwoningsih dùng Random Forest trên tập dữ liệu của Đại học Terbuka, Indonesia. Trong nước, các nghiên cứu còn rất ít và tập trung vào dự đoán điểm học tập của sinh viên. Huỳnh Lê Uyên Minh dùng cây quyết định để dự đoán khả năng tốt nghiệp của sinh viên năm 4 với tập dữ liệu của Đại học Đồng Tháp. Lưu Hoài Sang dùng mạng nơ-ron đa tầng với kỹ thuật học sâu để dự đoán điểm một môn học của sinh viên dựa vào điểm thi đầu vào, điểm tích luỹ học tập, ngành, khóa học. Huỳnh Lý Thanh Nhàn dùng giải thuật Biased Matrix Factorization để dự đoán điểm các môn chưa học dựa vào điểm của các môn học trước. Các nghiên cứu trên chưa có dự đoán tình trạng bỏ học của sinh viên ở Việt Nam.
Trong bài báo này, ba kỹ thuật học máy tốt nhất cho bài toán phân loại (Neural network, Random Forest, Support Vector Machine) được dùng để dự đoán tình trạng bỏ học của sinh viên. Tập dữ liệu dùng cho thực nghiệm là tập dữ liệu chuẩn của UCI. Tập dữ liệu được tiền xử lý để tránh sự mất cân đối của số lượng mẫu giữa các lớp và chuẩn hóa dữ liệu để trở thành các dữ liệu vào phù hợp cho từng kỹ thuật học máy. Hơn nữa, tính quan trọng của từng đặc trưng của tập dữ liệu cũng được xem xét để cải thiện kết quả phân lớp.
Tập dữ liệu chuẩn của UCI được tạo ra từ một cơ sở giáo dục đại học liên quan đến sinh viên theo học các chuyên ngành khác nhau ở Tây Ban Nha. Đây là bộ dữ liệu chuẩn của quốc tế nên tập dữ liệu sẽ thể hiện đúng, đủ các trường hợp đang có của sinh viên và các thông tin trong các mẫu dữ liệu có tính chính xác. Hơn nữa việc dùng tập dữ liệu chuẩn sẽ đánh giá tốt nhất hiệu quả của từng kỹ thuật học máy.
Tập dữ liệu có 4424 mẫu dữ liệu, mỗi mẫu có dữ liệu 36 đặc trưng. Các đặc trưng quan trọng đã được phân tích để cải thiện hiệu quả phân lớp của các mô hình học máy. Tập dữ liệu được tiền xử lý để phù hợp với các dữ liệu vào của từng mô hình học máy. Neural network, Random Forest, Support Vector Machine là các mô hình học máy được ứng dụng trong nghiên cứu này. Từng mô hình học máy được điều chỉnh bộ tham số để thu được kết quả phân lớp có độ chính xác cao nhất. Kết quả thực nghiệm cho thấy Random Forest là mô hình học máy phù hợp nhất cho bài toán với độ chính xác là 91,33%.
Kết quả nghiên cứu góp phần khẳng định tiềm năng ứng dụng của học máy trong lĩnh vực giáo dục, đặc biệt là trong việc xây dựng các hệ thống hỗ trợ ra quyết định cho các cơ sở đào tạo. Thông qua việc dự đoán sớm nguy cơ bỏ học, các trường đại học có thể chủ động triển khai các biện pháp hỗ trợ phù hợp như tư vấn học tập, hỗ trợ tài chính, định hướng nghề nghiệp, từ đó góp phần nâng cao hiệu quả đào tạo và giảm tỷ lệ sinh viên bỏ học.
Tạp chí Khoa học và Công nghệ - Đại học Thái Nguyên