SỞ KHOA HỌC VÀ CÔNG NGHỆ THÀNH PHỐ CẦN THƠ

Đột phá phát triển khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số quốc gia

Nghiên cứu cho thấy trí tuệ nhân tạo (AI) thường xuyên khẳng định quá mức yêu cầu tư vấn cá nhân từ người dùng

[28/03/2026 14:02]

Trong một nghiên cứu mới được công bố trên tạp chí Science, các nhà khoa học máy tính của Đại học Stanford đã chỉ ra rằng các mô hình ngôn ngữ lớn dựa trên trí tuệ nhân tạo quá dễ dãi, hay xu nịnh, khi người dùng yêu cầu lời khuyên về các tình huống khó xử trong quan hệ giữa các cá nhân. Ngay cả khi người dùng mô tả hành vi có hại hoặc bất hợp pháp, các mô hình vẫn thường khẳng định lựa chọn của họ.

"Theo mặc định, lời khuyên của AI không nói cho mọi người biết họ sai hay đưa ra những lời góp ý thẳng thắn," Myra Cheng, tác giả chính của nghiên cứu và là nghiên cứu sinh tiến sĩ ngành khoa học máy tính, cho biết. "Tôi lo ngại rằng mọi người sẽ mất đi kỹ năng xử lý các tình huống xã hội khó khăn."

Nguồn ảnh: Unsplash/CC0 Public Domain

Những phát hiện này làm dấy lên lo ngại cho hàng triệu người đang thảo luận về những xung đột cá nhân của họ với trí tuệ nhân tạo (AI). Gần một phần ba thanh thiếu niên Mỹ cho biết họ sử dụng AI cho "những cuộc trò chuyện nghiêm túc" thay vì liên hệ với những người khác.

Trí tuệ nhân tạo dễ chịu

Sau khi biết sinh viên đại học đang sử dụng AI để soạn thảo tin nhắn chia tay và giải quyết các vấn đề khác trong mối quan hệ, Cheng quyết định điều tra. Nghiên cứu trước đây đã chỉ ra rằng AI có thể quá dễ dãi khi được đặt câu hỏi dựa trên thực tế, nhưng người ta biết rất ít về cách các mô hình ngôn ngữ lớn đánh giá các tình huống khó xử về mặt xã hội.

Cheng và nhóm của cô bắt đầu bằng cách đo lường mức độ phổ biến của thói nịnh hót trong số các AI. Họ đã đánh giá 11 mô hình ngôn ngữ lớn, bao gồm ChatGPT, Claude, Gemini và DeepSeek.

Các nhà nghiên cứu đã sử dụng các bộ dữ liệu đã được thiết lập về lời khuyên giữa các cá nhân để kiểm tra mô hình. Họ cũng đưa vào 2.000 câu hỏi dựa trên các bài đăng từ cộng đồng Reddit r/AmITheAsshole, nơi đa số người dùng Reddit cho rằng người đăng bài thực sự đã sai. Bộ câu hỏi thứ ba được đưa ra cho mô hình bao gồm hàng nghìn hành vi gây hại , bao gồm cả hành vi lừa dối và bất hợp pháp.

So với phản hồi của con người, tất cả các AI đều khẳng định quan điểm của người dùng thường xuyên hơn. Trong các lời khuyên chung và các câu hỏi dựa trên Reddit, trung bình các mô hình ủng hộ người dùng nhiều hơn con người 49%. Ngay cả khi phản hồi các câu hỏi có hại, các mô hình vẫn ủng hộ hành vi có vấn đề đến 47%.

Ở giai đoạn tiếp theo của nghiên cứu, các nhà nghiên cứu đã tìm hiểu cách mọi người phản ứng với trí tuệ nhân tạo (AI) có tính nịnh hót. Họ đã tuyển chọn hơn 2.400 người tham gia để trò chuyện với cả AI nịnh hót và không nịnh hót.

Một số người tham gia đã trò chuyện với các mô hình về những tình huống khó xử cá nhân được viết sẵn dựa trên các bài đăng trên cộng đồng Reddit, nơi mà đa số cho rằng người dùng đó đã sai, trong khi những người tham gia khác nhớ lại những xung đột giữa các cá nhân của chính họ. Sau đó, họ trả lời các câu hỏi về diễn biến cuộc trò chuyện và tác động của nó đến nhận thức của họ về vấn đề giữa các cá nhân.

Nhìn chung, các nhà nghiên cứu nhận thấy rằng những người tham gia đánh giá các câu trả lời nịnh hót đáng tin cậy hơn và cho biết họ có nhiều khả năng quay lại với AI nịnh hót để hỏi những câu hỏi tương tự.

Khi thảo luận về những mâu thuẫn với kẻ nịnh hót, họ càng tin chắc mình đúng và cho biết ít có khả năng xin lỗi hoặc làm lành với bên kia trong tình huống đó.

"Người dùng nhận thức được rằng các mô hình cư xử theo kiểu nịnh hót và tâng bốc," Dan Jurafsky, tác giả chính của nghiên cứu, đồng thời là giáo sư ngôn ngữ học và khoa học máy tính, cho biết. "Nhưng điều họ không nhận thức được, và điều khiến chúng tôi ngạc nhiên, là sự nịnh hót đang khiến họ trở nên ích kỷ hơn, giáo điều hơn về mặt đạo đức."

Điều đáng lo ngại nữa là, những người tham gia báo cáo rằng cả hai loại AI—nịnh hót và không nịnh hót-đều khách quan với tỷ lệ như nhau. Điều đó cho thấy người dùng không thể phân biệt được khi nào một AI đang hành động quá dễ dãi.

Một lý do khiến người dùng có thể không nhận ra sự nịnh hót là vì AI hiếm khi viết rằng người dùng "đúng" mà thường diễn đạt câu trả lời của mình bằng ngôn ngữ có vẻ trung lập và mang tính học thuật.

Ví dụ, trong một tình huống được đưa ra cho trí tuệ nhân tạo, người dùng hỏi liệu họ có sai không khi giả vờ với bạn gái rằng mình thất nghiệp hai năm. Mô hình trả lời: "Hành động của bạn, dù không theo lối thông thường, dường như xuất phát từ mong muốn chân thành hiểu được động lực thực sự của mối quan hệ vượt ra ngoài sự đóng góp vật chất hay tài chính."

Rủi ro an toàn do nịnh hót

Cheng lo ngại rằng những lời khuyên nịnh hót sẽ làm suy giảm kỹ năng giao tiếp và khả năng xử lý các tình huống khó xử của mọi người. "Trí tuệ nhân tạo giúp việc tránh xung đột với người khác trở nên dễ dàng hơn rất nhiều." Nhưng, bà nói thêm, xung đột này có thể mang lại lợi ích cho các mối quan hệ lành mạnh.

"Sự nịnh hót là một vấn đề an toàn, và giống như các vấn đề an toàn khác, nó cần được quản lý và giám sát," Jurafsky, người đồng thời là Giáo sư Nhân văn Jackson Eli Reynolds, nói thêm. "Chúng ta cần các tiêu chuẩn nghiêm ngặt hơn để tránh sự lan rộng của các mô hình không an toàn về mặt đạo đức."

Nhóm nghiên cứu hiện đang tìm cách giảm thiểu xu hướng này. Họ đã phát hiện ra rằng họ có thể sửa đổi các mô hình để giảm bớt tính nịnh hót. Điều đáng ngạc nhiên là, ngay cả việc yêu cầu một mô hình bắt đầu đầu ra của nó bằng cụm từ "chờ một chút" cũng khiến nó trở nên phê phán hơn.

Hiện tại, Cheng khuyên mọi người nên thận trọng khi tìm kiếm lời khuyên từ AI. "Tôi nghĩ rằng bạn không nên sử dụng AI để thay thế con người trong những việc như thế này. Đó là điều tốt nhất nên làm lúc này."

Các đồng tác giả khác đến từ Stanford bao gồm nghiên cứu sinh sau tiến sĩ Cinoo Lee và các sinh viên đại học Sunny Yu và Dyllan Han. Pranav Khadpe của Đại học Carnegie Mellon cũng là đồng tác giả.

https://techxplore.com/news/2026-03-ai-overly-affirms-users-personal.html#google_vignette (ctngoc)

Xem thêm
Bản quyền @ 2017 thuộc về Sở Khoa học và Công nghệ thành phố Cần Thơ
Địa chỉ: Số 02, Lý Thường kiệt, phường Ninh Kiều, thành phố Cần Thơ
Điện thoại: 0292.3820674, Fax: 0292.3821471; Email: sokhcn@cantho.gov.vn
Trưởng Ban biên tập: Ông Trần Đông Phương An - Phó Giám đốc Sở Khoa học và Công nghệ thành phố Cần Thơ