Liệu trí tuệ nhân tạo có thể hiểu được văn học? Các nhà nghiên cứu đã tiến hành thử nghiệm
Ngay cả với tất cả những tiến bộ gần đây trong khả năng của các mô hình ngôn ngữ quy mô lớn (như ChatGPT) giúp chúng ta suy nghĩ, nghiên cứu, tóm tắt và học các văn bản phức tạp và chuyên ngành, liệu chúng có hiệu quả trong việc hiểu nghệ thuật kể chuyện và văn học? Những câu hỏi xoay quanh sắc thái diễn giải vẫn còn đó.
Các nhà nghiên cứu kỹ thuật của Đại học Columbia đang giải quyết những vấn đề này thông qua một khuôn khổ đánh giá mới, dựa trên nền tảng đạo đức . Công trình của họ , được công bố trên máy chủ bản thảo arXiv , đã được vinh danh với Giải thưởng Bài báo xuất sắc nhất năm 2025 tại Hội nghị Giao dịch của Hiệp hội Ngôn ngữ học Tính toán (TACL), nhấn mạnh tính chặt chẽ về phương pháp luận và đóng góp của nó cho lĩnh vực này.

Nguồn ảnh: Pixabay/CC0 Public Domain
“Trước khi chúng ta có thể thực sự tin tưởng vào khả năng phân tích của các mô hình LLM, chúng ta cần có bằng chứng cẩn thận về những gì chúng có thể và không thể làm được,” Kathleen McKeown, Giáo sư Khoa học Máy tính Henry và Gertrude Rothschild tại Trường Kỹ thuật Columbia, cho biết. Bà và Phó Giáo sư Lydia Chilton đã dẫn dắt nhóm thực hiện dự án nghiên cứu này.
"Nếu các chương trình học luật (LLM) được sử dụng như công cụ cho việc nghiên cứu của con người, trước hết chúng ta phải hiểu được chiều sâu và giới hạn khả năng phân tích của chúng, bao gồm cả trong các lĩnh vực như tự sự và văn học."
Một khung đánh giá mới
Nghiên cứu này đánh giá hiệu suất của các mô hình ngôn ngữ tiên tiến nhất-GPT-4, Claude-2.1 và LLaMA-2-70B - trong nhiệm vụ tóm tắt truyện ngắn. Không giống như nhiều đánh giá trước đây dựa trên các văn bản công khai có thể được đưa vào dữ liệu huấn luyện mô hình, dự án này đã giới thiệu một tập dữ liệu gốc, được kiểm soát.
Các nhà nghiên cứu đã hợp tác trực tiếp với các tác giả đã xuất bản sách, những người đã đóng góp các truyện ngắn chưa từng được công bố trước đây của họ. Sau đó, các tác giả này đã đánh giá chất lượng của các bản tóm tắt do mô hình tạo ra.
Sử dụng cả phương pháp định lượng và định tính dựa trên lý thuyết tự sự, phân tích cho thấy cả ba mô hình đều mắc lỗi về tính trung thực trong hơn 50% trường hợp và liên tục gặp khó khăn trong việc xác định tính cụ thể và diễn giải ý nghĩa ngầm phức tạp hoặc cấu trúc tự sự phi tuyến tính.
"Các mô hình có vẻ như hiểu được câu chuyện, nhưng kết quả đầu ra của chúng cuối cùng lại không thể dự đoán được vì chúng dựa trên xác suất," Melanie Subbiah, tác giả chính của bài báo và là nghiên cứu sinh tiến sĩ năm thứ sáu tại Đại học Columbia trong phòng thí nghiệm McKeown, cho biết.
"Một nhà phân tích văn học được đào tạo bài bản sẽ đưa ra những nhận định sâu sắc và nhất quán, nhưng ngay cả mô hình tốt nhất cũng chỉ có độ chính xác khoảng 50/50 - về cơ bản là giống như tung đồng xu-trong việc đưa ra phân tích đáng tin cậy cho bất kỳ câu chuyện nào."
Những phát hiện này nhấn mạnh những hạn chế của các chương trình Thạc sĩ Luật hiện nay trong các bối cảnh trí tuệ và sáng tạo đòi hỏi khả năng đọc hiểu sâu sắc và sự nhạy bén trong diễn giải.
Mặc dù các hệ thống như vậy có thể là những công cụ hữu ích, các nhà nghiên cứu cảnh báo không nên dựa vào chúng để phân tích văn học một cách tinh tế hoặc thực hiện các nhiệm vụ khác đòi hỏi sự hiểu biết sâu sắc về bối cảnh. Subbiah tin rằng công trình của họ "củng cố giá trị của việc đánh giá lấy con người làm trung tâm và dựa trên ý kiến chuyên gia."
Ngoài những phát hiện thực nghiệm
Các vấn đề đạo đức là yếu tố không thể thiếu trong nghiên cứu. Các tác giả tham gia được cung cấp đầy đủ thông tin minh bạch về việc sử dụng tác phẩm của họ và phản hồi, được bồi thường cho những đóng góp của họ, và quyền sở hữu trí tuệ của họ được bảo vệ cẩn thận. Dự án tập trung vào việc hiểu và phân tích câu chuyện hơn là tạo ra văn bản, phản ánh "cam kết thực hiện các hoạt động nghiên cứu có trách nhiệm và tôn trọng".
Dự án này trình bày một phương pháp luận mới để đánh giá các mô hình ngôn ngữ trên nội dung được đảm bảo là không có trong dữ liệu huấn luyện của chúng.
Bằng cách làm việc trực tiếp với các chuyên gia trong lĩnh vực này, trong trường hợp này là các tác giả chuyên nghiệp, nghiên cứu này chứng minh một phương pháp cho phép đánh giá đáng tin cậy hơn về khả năng diễn giải và phân tích của một mô hình. Khung nghiên cứu này cung cấp một mô hình có thể nhân rộng cho các nghiên cứu trong tương lai về hiểu biết tường thuật và các hình thức đánh giá do chuyên gia thực hiện khác.
"Chúng tôi hy vọng rằng sự hiểu biết chuyên môn của con người sẽ định hướng cách chúng ta đánh giá các hệ thống quản lý vòng đời doanh nghiệp (LLM), giữ con người ở vị trí trung tâm trong quá trình phát triển công nghệ," Subbiah nói.
https://techxplore.com/news/2026-03-ai-literature.html (ctngoc)