Liệu con người có chiến thắng Trí tuệ nhân tạo trong cuộc đua tam đoạn luận?
Mặc dù Trí tuệ nhân tạo/AI (hay các mô hình Ngôn ngữ Lớn) có nhiều thế mạnh trong việc tổng hợp, tìm kiếm thông tin, xử lý ngôn ngữ, xử lý thông tin, … Nhưng, khi so sánh với con người trong khả năng suy luận, AI liệu có chiến thắng?

Ảnh minh họa
Sơ lược về lý thuyết Tam đoạn luận (Syllogisms)
Tam đoạn luận (TĐL) là một dạng lập luận logic cổ điển gồm hai mệnh đề (gọi là tiền đề) và một kết luận rút ra từ chúng. Cả hai tiền đề đều liên hệ ba khái niệm (gọi là biến). Tạm gọi A, B và C, theo các định lượng như “tất cả”, “một số”, hoặc “không có”.
Mỗi tiền đề chỉ kết nối hai trong ba khái niệm, chẳng hạn: “Tất cả giáo viên đều là người đọc sách” và “Tất cả người đọc sách đều là người yêu sách”. Dù không có mệnh đề nào nói trực tiếp về mối quan hệ giữa “giáo viên” và “người yêu sách”, người ta vẫn có thể suy luận rằng “Tất cả giáo viên đều là người yêu sách”. Tuy nhiên, không phải mọi TĐL đều cho phép rút ra kết luận. Trong số 64 cách kết hợp khác nhau của các tiền đề, chỉ 27 trường hợp cho phép rút ra mối quan hệ rõ ràng giữa hai khái niệm đầu và cuối; còn lại là các trường hợp không thể suy luận gì thêm. Khi đó, câu trả lời hợp lý là “không thể kết luận được điều gì”.
TĐL có thể đóng vai trò vừa là một công cụ kiểm tra suy luận logic, vừa là cơ sở để so sánh cách máy và người xử lý thông tin.
Con người với Tam đoạn luận
Từ đầu thế kỷ 20, các nhà tâm lý học đã phát hiện: kết luận mà con người rút ra từ tam đoạn luận thường lệch khỏi các chuẩn mực logic (Khemlani và Johnson-Laird, 2012). Những sai lệch này không phải ngẫu nhiên, mà mang tính hệ thống: Một số TĐL khó hơn rõ rệt so với các TĐL khác, và những cá nhân tham gia, thường có xu hướng nhất quán trong những suy luận sai lệch.
Ví dụ, với hai tiền đề:
(1) Không có nghệ sĩ nào là thợ làm bánh. (No artists are bakers)
(2) Tất cả thợ làm bánh đều là nhà hóa học. (All bakers are chemists)
Phần lớn người tham gia đều kết luận sai rằng: Không có nghệ sĩ nào là nhà hóa học (No artists are chemists), trong khi điều này không logic từ hai tiền đề đã cho.
Ngoài những trường hợp cụ thể như vậy, nghiên cứu còn phát hiện ra nhiều thiên lệch suy luận phổ biến hơn. Ví dụ: Khi được đưa ra một TĐL có trật tự biến là A-B và B-C, người tham gia có xu hướng thiên về việc đưa ra kết luận A-C, mặc dù việc đổi thứ tự biến trong tiền đề không làm thay đổi tính hợp lệ của kết luận (Johnson-Laird và Steedman, 1978).
Người ta cũng có xu hướng dễ rút ra kết luận hơn nếu kết luận đó đúng trong thực tế đời sống, dù cho nó không hợp logic từ hai tiền đề đã cho – hiện tượng này được gọi là "hiệu ứng nội dung" (content effects, Evans và cộng sự, 1983).
Mô hình Ngôn ngữ Lớn/học máy có cần suy luận giống con người?
Theo kết quả thí nghiệm của nhóm tác giả (xem cụ thể tại bài viết toàn văn): Độ chính xác của con người trung bình trên tất cả các TĐL chỉ rơi vào khoảng 50. Do đó, để kết luận độ chính xác của mô hình Ngôn ngữ trên bộ dữ liệu này, không nhất thiết phải chỉ ra sự giống nhau giữa chúng với con người.
Khi so sánh theo phân loại TĐL, các TĐL mà mô hình PaLM 2 gặp khó khăn khi suy luận, cũng là những TĐL gây khó khăn cho con người. Song, ngược lại, có một số TĐL gây khó khăn cho con người, nhưng không thể làm khó Trí tuệ nhân tạo. Chúng có thể giải quyết rất chính xác một số TĐL mà con người không đưa ra kết luận chính xác.
Ví dụ, đối với tam đoạn luận IE4 (một số B là A, không có B nào là C), độ chính xác của con người chỉ vừa mới vượt qua mức ngẫu nhiên, nhưng độ chính xác của PaLM 2 Small và PaLM 2 Large lại bỏ xa con số đó.
Trong bài viết toàn văn, nhóm tác giả đã chứng minh những sai sót trong quá trình suy luận TĐL của con người. Điều này giúp đưa ra một kết luận: AI cần suy luận chính xác, thay vì suy luận giống con người. Tuy nhiên, vẫn có một ngoại lệ mang tên mô hình nhận thức (cognitive modeling), với mục tiêu là hiểu rõ hơn về lý luận của con người bằng cách phát triển các mô hình lý luận giống như con người. Các mô hình này được kỳ vọng sẽ mở ra hướng nghiên cứu mới trong tương lai.
Kẻ chiến thắng trong ‘cuộc đua’ TĐL?
Xét riêng ở khía cạnh suy luận TĐL, các tác giả nhận định: “The largest LMs make significantly fewer mistakes than humans but still display systematic errors and that while their mistakes are only partly aligned with human errors, LMs are susceptible to several qualitative reasoning biases shown by humans” (Các Mô hình Ngôn ngữ Lớn thường ít mắc sai lầm hơn con người, nhưng vẫn mắc phải một số lỗi hệ thống và mặc dù sai lầm của chúng chỉ một phần phù hợp với sai lầm của con người, các mô hình ngôn ngữ vẫn dễ bị ảnh hưởng bởi một số thiên kiến suy luận định tính giống con người).
Điều này, cho thấy: mặc dù Trí tuệ nhân tạo có thể đạt độ chính xác cao hơn con người trong nhiều trường hợp, nhưng chúng vẫn cần phải cải thiện để vượt qua những thiên kiến và các lỗi logic mà con người thường gặp phải trong suy luận.
htquyen
Theo https://arxiv.org/abs/2311.00445