Trí tuệ nhân tạo xử lý Ngôn ngữ Tự nhiên phải phụ thuộc vào Ngôn ngữ học
“Ngôn ngữ học không chỉ là nền tảng để xử lý Ngôn ngữ Tự nhiên mà còn là chìa khóa mở ra những khả năng mới,” đồng tác giả Juri Opitz.

Ngày 20/04/2025, một nghiên cứu được công bố trên Tạp chí Computational Linguistics đã khẳng định vai trò không thể thay thế của Ngôn ngữ học trong việc hình thành tương lai của Ngôn ngữ Tự nhiên, mặc dù các mô hình Ngôn ngữ Lớn đang phát triển mạnh mẽ.
Nghiên cứu được thực hiện bởi các nhà khoa học Juri Opitz (Đại học Zurich), Shira Wein (Cao đẳng Amherst) và Nathan Schneider (Đại học Georgetown), nhấn mạnh rằng các nguyên lý Ngôn ngữ học chính là nền tảng vững chắc cho sự tiến bộ của công nghệ xử lý Ngôn ngữ Tự nhiên, từ việc xây dựng tài nguyên dữ liệu đến việc phát triển và đánh giá công nghệ.
Khung “RELIES” - 06 khía cạnh cốt lõi của Xử lý Ngôn ngữ Tự nhiên
Nghiên cứu đã đưa ra một mô hình mang tên “RELIES” với 06 yếu tố cốt lõi nhằm chứng minh sự phụ thuộc của các công nghệ xử lý Ngôn ngữ Tự nhiên vào các khía cạnh của Ngôn ngữ học:
(1) Tài nguyên: Các kho ngữ liệu và chú thích ngôn ngữ học, như Universal Dependencies và Abstract Meaning Representation là nền tảng quan trọng để huấn luyện và kiểm thử các hệ thống Xử lý Ngôn ngữ Tự nhiên. Kiến thức ngôn ngữ học bảo đảm rằng dữ liệu phản ánh được sự đa dạng ngôn ngữ và giúp giảm thiểu thiên kiến.
(2) Đánh giá: Nhờ kiến thức ngôn ngữ học, việc thiết kế các phương pháp đánh giá chuẩn mực và phân tích lỗi hệ thống – từ việc so sánh tham chiếu đến các yếu tố xã hội – có thể được thực hiện chính xác, từ đó nâng cao độ tin cậy của các công cụ xử lý Ngôn ngữ Tự nhiên.
(3) Thiết lập tài nguyên thấp: Ngôn ngữ học đóng vai trò quan trọng trong việc phát triển công nghệ cho các ngôn ngữ ít dữ liệu hoặc đang đối diện với nguy cơ biến mất, như: Swahili hay Arapaho, thông qua việc lựa chọn và ghi chép dữ liệu ngôn ngữ.
(4) Khả năng diễn giải: Ngôn ngữ học cung cấp công cụ giải thích về cách thức hoạt động của các mô hình Ngôn ngữ lớn trong việc xử lý ngôn ngữ tự nhiên, giúp người dùng hiểu rõ hơn về hành vi của các mô hình này.
(5) Giải thích: Các khái niệm ngôn ngữ học giúp kết nối các yếu tố trong các mô hình Ngôn ngữ học máy với các khái niệm có ý nghĩa trong thực tế, từ cú pháp đến các mạng lưới khái niệm, mang đến một cái nhìn sâu sắc hơn về cách thức hoạt động của các mô hình.
Vì sao Ngôn ngữ học vẫn vô cùng quan trọng?
Mặc dù các Mô hình Ngôn ngữ Lớn có thể tạo ra văn bản mượt mà mà không cần dựa vào các mô-đun ngữ pháp rõ ràng, nhưng nghiên cứu vẫn cho thấy: ngôn ngữ học đóng vai trò quan trọng trong việc đảm bảo tính chính xác, công bằng và khả năng mở rộng trong xử lý Ngôn ngữ Tự nhiên. Ví dụ: chuyên môn ngôn ngữ học giúp nhận diện thiên kiến trong các tập dữ liệu, (như thiên kiến giới tính trong đồng tham chiếu), và hỗ trợ phát triển các công cụ bảo vệ các ngôn ngữ đang dần biến mất, từ đó góp phần bảo tồn di sản văn hóa toàn cầu.
Hướng đến Tương lai
Nghiên cứu kêu gọi cộng đồng xử lý Ngôn ngữ Tự nhiên tiếp tục hợp tác chặt chẽ với các nhà Ngôn ngữ học để giải quyết những thách thức như phát triển công nghệ nhạy cảm với các đặc điểm văn hóa và cải thiện khả năng giải thích của các mô hình trí tuệ nhân tạo. “Ngôn ngữ học không chỉ là nền tảng của xử lý Ngôn ngữ Tự nhiên mà còn là chìa khóa mở ra những khả năng mới,” đồng tác giả Juri Opitz chia sẻ.
htquyen
Theo Opitz, J., Wein, S., & Schneider, N. (2025). Natural Language Processing RELIES on Linguistics. Computational Linguistics. Advance online publication. https://doi.org/10.1162/coli_a_00560