Sở Khoa học và Công nghệ thành phố Cần Thơ

Jailbreaking the Matrix: Các nhà nghiên cứu tìm cách vượt qua “hàng rào an toàn” của AI để làm chúng an toàn hơn

[23/02/2026 20:10]

Một nghiên cứu mới từ Giáo sư Sumit Kumar Jha, Ph.D., Khoa Khoa học Máy tính & Kỹ thuật (CISE), Đại học Florida, đang gây chú ý khi sử dụng những thuật ngữ nghe như bước ra từ phim khoa học viễn tưởng: Nullspace steering, red teaming, jailbreaking the matrix.

Nhưng thực chất, công trình này tập trung vào một vấn đề rất thực tế: củng cố các biện pháp bảo mật tích hợp trong công cụ AI để đảm bảo chúng an toàn cho mọi người dùng.

“Bằng cách chỉ ra chính xác cách những lớp phòng thủ bị phá vỡ, chúng tôi cung cấp cho các nhà phát triển AI thông tin cần thiết để xây dựng hệ thống phòng thủ thực sự vững chắc,” Jha chia sẻ. “Việc phát hành công khai các mô hình AI mạnh mẽ chỉ bền vững nếu các biện pháp an toàn chịu được sự kiểm chứng nghiêm ngặt, và hiện tại, nghiên cứu của chúng tôi cho thấy vẫn còn khoảng trống cần lấp đầy.”

Bài báo có tiêu đề “Jailbreaking the Matrix: Nullspace Steering for Controlled Model Subversion” đã được chấp nhận tại Hội nghị Quốc tế về Biểu diễn Học (ICLR 2026), diễn ra tại Rio de Janeiro từ ngày 23–27/4.

Khám phá AI từ bên trong

Thay vì chỉ dựa vào các thủ thuật gợi ý từ người dùng, nhóm nghiên cứu đã phát triển phương pháp Head-Masked Nullspace Steering (HMNS) để “mở nắp động cơ” của mô hình ngôn ngữ lớn (LLM) và kiểm tra các “đường dẫn quyết định” bên trong.

Các thành phần (“heads”) hoạt động mạnh nhất sẽ bị vô hiệu hóa bằng cách đưa về giá trị 0.
Những thành phần khác được “điều hướng” để quan sát sự thay đổi trong đầu ra của mô hình.

Cách tiếp cận này giúp đo lường chính xác hơn các điểm thất bại, từ đó thúc đẩy việc phát triển các lớp phòng thủ mạnh mẽ hơn. Nhóm nghiên cứu sử dụng siêu máy tính HiPerGator của UF để thực hiện các phép tính khổng lồ cần thiết cho quá trình này.

Vì sao cần phòng thủ mạnh hơn?

Trong bối cảnh các công ty như Meta, Alibaba và nhiều tập đoàn khác tung ra mô hình AI mạnh mẽ cho công chúng, việc đảm bảo an toàn trở thành thách thức lớn. Nhóm UF phát hiện rằng các lớp bảo mật hiện tại có thể bị vượt qua một cách có hệ thống, đặt ra nguy cơ tiềm ẩn khi AI được triển khai trong bệnh viện, ngân hàng và nhiều ứng dụng hạ tầng quan trọng.

HMNS vượt trội trên các thước đo

Kết quả thử nghiệm cho thấy HMNS phá vỡ các mô hình nhanh hơn, hiệu quả hơn và tiêu tốn ít tài nguyên tính toán hơn so với các phương pháp tiên tiến hiện nay.

Để đảm bảo công bằng khi so sánh, nhóm nghiên cứu còn đưa ra khái niệm “compute-aware reporting”, tức là đánh giá hiệu quả dựa trên lượng tài nguyên tính toán sử dụng.

“Mục tiêu của chúng tôi là củng cố tính an toàn của LLM bằng cách phân tích các chế độ thất bại dưới những lớp phòng thủ phổ biến; chúng tôi không tìm cách tạo điều kiện cho việc lạm dụng,” nhóm tác giả nhấn mạnh.

Kết luận

Nghiên cứu này không chỉ chỉ ra điểm yếu mà còn mở ra cơ hội để xây dựng hệ thống phòng thủ AI bền vững hơn. Trong bối cảnh AI ngày càng trở thành hạ tầng thiết yếu, việc “jailbreaking” có kiểm soát như HMNS có thể là bước đi quan trọng để đảm bảo rằng công nghệ phục vụ con người một cách an toàn và đáng tin cậy.

https://techxplore.com

Tin cùng chuyên mục

OpenAI được cho là đang phát triển smartphone tích hợp dịch vụ AI toàn diện [28/04/2026 14:56]

Trí tuệ nhân tạo chuyên biệt đang tái định nghĩa năng suất và quản trị doanh nghiệp [28/04/2026 14:51]

Bảo mật trong kỷ nguyên AI: Bài toán an ninh mạng toàn cầu [25/04/2026 23:19]

Ứng dụng AI để 'quét' mâu thuẫn, chồng chéo trong văn bản pháp luật [25/04/2026 23:04]

FPT đưa trợ lý AI phân tích kiến nghị cử tri cho HĐND TP. Hà Nội [25/04/2026 22:52]

Công cụ thiết kế protein dựa trên trí tuệ nhân tạo [18/04/2026 22:32]

Đưa AI vào trường học: Cơ hội công nghệ và bài toán quản trị giáo dục [02/04/2026 14:21]

Vonfram Việt Nam và cơ hội tham gia chuỗi cung ứng vật liệu cho kỷ nguyên AI [01/04/2026 16:04]

AI vào cuộc: Tăng cơ hội phát hiện sớm ung thư phổi [01/04/2026 15:59]

Đòn bẩy từ ứng dụng trí tuệ nhân tạo [01/04/2026 15:44]

Xem thêm

Xem nhiều

Hành lang pháp lý - điều kiện cần để phát triển blockchain

Ứng dụng công nghệ blockchain trong xuất nhập khẩu nông sản Hội nghị quốc tế về thành phố thông minh 2017 Tăng cường kết nối là ưu tiên hàng đầu trong phát triển hệ sinh thái khởi nghiệp