ViSP - Kỳ vọng mới trong xử lý tiếng Việt với công nghệ AI
Với hơn 1,2 triệu cặp câu gốc - diễn giải, ViSP hứa hẹn mở ra nhiều cơ hội cho các ứng dụng như trả lời câu hỏi, dịch máy, và chat bot.

Ngày 11/2/2025, nhóm nghiên cứu từ Trường Đại học Công nghệ Thông tin (TP.HCM) đã giới thiệu ViSP - tập dữ liệu quy mô lớn đầu tiên dành cho nhiệm vụ diễn giải câu tiếng Việt, đánh dấu cột mốc quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) đối với ngôn ngữ này.
ViSP: Tập dữ liệu chất lượng cao
ViSP do nhóm nghiên cứu của Nguyễn Quang Sang và Nguyên Văn Kiệt phát triển, bao gồm các cặp câu được thu thập từ các nguồn công khai. Quy trình được xây dựng kết hợp giữa việc tạo diễn giải tự động bằng mô hình AI và xác thực thủ công bởi đội ngũ chú thích viên, đảm bảo độ chính xác và đa dạng. Tập dữ liệu ViSP phủ rộng nhiều chủ đề, từ sức khỏe, xã hội đến văn hóa, khoa học, thể thao, …, với độ dài câu trung bình khoảng 22 từ.
“Chúng tôi hy vọng ViSP cùng với nghiên cứu thực nghiệm của chúng tôi có thể đóng vai trò là điểm khởi đầu cho các nghiên cứu và ứng dụng diễn giải tiếng Việt trong tương lai.” - nhóm tác giả chia sẻ.
Hiệu suất vượt trội
Nhóm nghiên cứu đã thử nghiệm ViSP với nhiều phương pháp, từ kỹ thuật truyền thống như dịch ngược, EDA, đến các mô hình tiên tiến như BARTpho, ViT5, và các mô hình ngôn ngữ lớn (LLM) như GPT-4o, Meta-Llama-3.1. Kết quả cho thấy mô hình BARTpho-word large dẫn đầu với điểm BLEU-4: 72,06 và ROUGE-2: 76,06, thể hiện khả năng tạo diễn giải gần với tham chiếu. Các LLM như Meta-Llama-3.1-70B cũng ấn tượng với BERTScore: 84,27, nhưng vẫn chưa đạt mức con người (BLEU-4: 94,97).
Đặc biệt, kỹ thuật “Few-shot” giúp AI tạo ra các diễn giải đa dạng, với tỷ lệ lỗi chỉ 4,49%. Các chủ đề như văn hóa, thể thao, và lối sống được xác định là thách thức lớn, trong khi câu dài (41–50 từ) mang lại hiệu suất tốt nhất.
Tiềm năng phát triển hệ cơ sở dữ liệu học máy cho ngôn ngữ dân tộc
ViSP không chỉ là công cụ nghiên cứu mà còn có tiềm năng ứng dụng thực tiễn. Các hệ thống trả lời câu hỏi có thể cung cấp phản hồi sắc thái hơn, công cụ tìm kiếm sẽ hiệu quả hơn với các truy vấn biến thể, và bot trò chuyện sẽ giao tiếp tự nhiên hơn. Trong tương lai, nhóm nghiên cứu dự kiến mở rộng ViSP cho dịch máy, trả lời câu hỏi, và phát triển mô hình chuyên biệt cho các hiện tượng ngôn ngữ phức tạp như ẩn dụ, hoán dụ.
Tuy nhiên, nghiên cứu cũng đối mặt hạn chế. Việc thiếu dữ liệu ở các lĩnh vực như toán học, lập trình, và việc đào tạo với tài nguyên hạn chế có thể ảnh hưởng đến hiệu suất tối ưu. Các kỹ thuật như Chain-of-Thought hay Tree-of-Thought sẽ được khám phá để nâng cao chất lượng diễn giải.
ViSP hiện đã được công khai tại https://github.com/ngwgsang/ViSP, cho phép các nhà nghiên cứu toàn cầu sử dụng miễn phí. Đây là cơ hội để cộng đồng NLP tiếng Việt phát triển các mô hình mạnh mẽ hơn, thu hẹp khoảng cách với các ngôn ngữ giàu tài nguyên như tiếng Anh.
Với ViSP, tiếng Việt đang tiến thêm một bước trong cuộc đua công nghệ, góp phần mở ra cánh cửa cho những đổi mới ngôn ngữ trong tương lai.
htquyen
https://arxiv.org/html/2502.07188v1#S1