Jailbreaking the Matrix: Các nhà nghiên cứu tìm cách vượt qua “hàng rào an toàn” của AI để làm chúng an toàn hơn
Một nghiên cứu mới từ Giáo sư Sumit Kumar Jha, Ph.D., Khoa Khoa học Máy tính & Kỹ thuật (CISE), Đại học Florida, đang gây chú ý khi sử dụng những thuật ngữ nghe như bước ra từ phim khoa học viễn tưởng: Nullspace steering, red teaming, jailbreaking the matrix.
Nhưng thực chất, công trình này tập trung vào một vấn đề rất thực tế: củng cố các biện pháp bảo mật tích hợp trong công cụ AI để đảm bảo chúng an toàn cho mọi người dùng.
“Bằng cách chỉ ra chính xác cách những lớp phòng thủ bị phá vỡ, chúng tôi cung cấp cho các nhà phát triển AI thông tin cần thiết để xây dựng hệ thống phòng thủ thực sự vững chắc,” Jha chia sẻ. “Việc phát hành công khai các mô hình AI mạnh mẽ chỉ bền vững nếu các biện pháp an toàn chịu được sự kiểm chứng nghiêm ngặt, và hiện tại, nghiên cứu của chúng tôi cho thấy vẫn còn khoảng trống cần lấp đầy.”

Bài báo có tiêu đề “Jailbreaking the Matrix: Nullspace Steering for Controlled Model Subversion” đã được chấp nhận tại Hội nghị Quốc tế về Biểu diễn Học (ICLR 2026), diễn ra tại Rio de Janeiro từ ngày 23–27/4.
Khám phá AI từ bên trong
Thay vì chỉ dựa vào các thủ thuật gợi ý từ người dùng, nhóm nghiên cứu đã phát triển phương pháp Head-Masked Nullspace Steering (HMNS) để “mở nắp động cơ” của mô hình ngôn ngữ lớn (LLM) và kiểm tra các “đường dẫn quyết định” bên trong.
- Các thành phần (“heads”) hoạt động mạnh nhất sẽ bị vô hiệu hóa bằng cách đưa về giá trị 0.
- Những thành phần khác được “điều hướng” để quan sát sự thay đổi trong đầu ra của mô hình.
Cách tiếp cận này giúp đo lường chính xác hơn các điểm thất bại, từ đó thúc đẩy việc phát triển các lớp phòng thủ mạnh mẽ hơn. Nhóm nghiên cứu sử dụng siêu máy tính HiPerGator của UF để thực hiện các phép tính khổng lồ cần thiết cho quá trình này.
Vì sao cần phòng thủ mạnh hơn?
Trong bối cảnh các công ty như Meta, Alibaba và nhiều tập đoàn khác tung ra mô hình AI mạnh mẽ cho công chúng, việc đảm bảo an toàn trở thành thách thức lớn. Nhóm UF phát hiện rằng các lớp bảo mật hiện tại có thể bị vượt qua một cách có hệ thống, đặt ra nguy cơ tiềm ẩn khi AI được triển khai trong bệnh viện, ngân hàng và nhiều ứng dụng hạ tầng quan trọng.
HMNS vượt trội trên các thước đo
Kết quả thử nghiệm cho thấy HMNS phá vỡ các mô hình nhanh hơn, hiệu quả hơn và tiêu tốn ít tài nguyên tính toán hơn so với các phương pháp tiên tiến hiện nay.
Để đảm bảo công bằng khi so sánh, nhóm nghiên cứu còn đưa ra khái niệm “compute-aware reporting”, tức là đánh giá hiệu quả dựa trên lượng tài nguyên tính toán sử dụng.
“Mục tiêu của chúng tôi là củng cố tính an toàn của LLM bằng cách phân tích các chế độ thất bại dưới những lớp phòng thủ phổ biến; chúng tôi không tìm cách tạo điều kiện cho việc lạm dụng,” nhóm tác giả nhấn mạnh.
Kết luận
Nghiên cứu này không chỉ chỉ ra điểm yếu mà còn mở ra cơ hội để xây dựng hệ thống phòng thủ AI bền vững hơn. Trong bối cảnh AI ngày càng trở thành hạ tầng thiết yếu, việc “jailbreaking” có kiểm soát như HMNS có thể là bước đi quan trọng để đảm bảo rằng công nghệ phục vụ con người một cách an toàn và đáng tin cậy.