SỞ KHOA HỌC VÀ CÔNG NGHỆ THÀNH PHỐ CẦN THƠ

Đột phá phát triển khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số quốc gia

NeoBabel – Công cụ tạo ảnh AI đa ngôn ngữ mở rộng cơ hội cho người dùng toàn cầu

[23/02/2026 08:40]

Trong khi công nghệ tạo ảnh từ văn bản (text-to-image) đang phát triển nhanh chóng, hầu hết các mô hình AI hiện nay vẫn tập trung vào tiếng Anh.

Điều này vô tình tạo ra sự bất bình đẳng số đối với những người không sử dụng tiếng Anh. Nhằm khắc phục hạn chế này, nhóm nghiên cứu tại Khoa Khoa học, Đại học Amsterdam (UvA) đã phát triển NeoBabel – một công cụ tạo ảnh AI tiên phong có khả năng hiểu sáu ngôn ngữ khác nhau. Đặc biệt, toàn bộ nghiên cứu được công bố dưới dạng mã nguồn mở, cho phép cộng đồng cùng tham gia cải tiến và mở rộng.

Vì sao NeoBabel khác biệt?

  • Các mô hình hiện tại thường dịch prompt sang tiếng Anh trước khi tạo ảnh, dẫn đến mất đi sắc thái ngôn ngữ và văn hóa.
  • NeoBabel tạo ảnh trực tiếp từ nhiều ngôn ngữ, giúp kết quả chính xác và tự nhiên hơn.
  • Công cụ hỗ trợ sáu ngôn ngữ: Anh, Pháp, Hà Lan, Trung, Hindi và Ba Tư.

Giáo sư Cees Snoek, thành viên nhóm nghiên cứu, nhấn mạnh: “Dịch thuật khiến nhiều chi tiết văn hóa bị mất đi, vì không phải từ nào cũng có tương đương trong tiếng Anh.”

Mã nguồn mở – minh bạch và học thuật

Khác với các mô hình từ những công ty lớn thường giữ kín dữ liệu và thuật toán, NeoBabel công khai toàn bộ mã nguồn và dữ liệu huấn luyện. Điều này giúp giới nghiên cứu dễ dàng kiểm chứng, phát hiện thiên lệch và cải tiến hệ thống.

Dữ liệu khổng lồ và mô hình gọn nhẹ

  • Bộ dữ liệu ảnh–nhãn được mở rộng từ 40 triệu lên 124 triệu cặp.
  • Nhãn ảnh được dịch và mô tả chi tiết hơn bằng các mô hình ngôn ngữ đa ngữ.
  • Nhờ cải tiến dữ liệu, mô hình có ít tham số hơn nhưng vẫn đạt hiệu quả cao.

Ứng dụng sáng tạo và hướng tới video

NeoBabel mở ra khả năng cộng tác đa ngôn ngữ trên cùng một bức ảnh. Ví dụ, một người dùng mô tả bằng tiếng Hà Lan, người khác chỉnh sửa bằng tiếng Ba Tư – tất cả đều được hệ thống hiểu và xử lý trực tiếp.

Trong tương lai, nhóm nghiên cứu muốn mở rộng NeoBabel sang tạo video đa ngôn ngữ và đa văn hóa. Snoek chia sẻ: “Ước mơ của tôi là NeoBabel có thể tạo ra video, chẳng hạn tái hiện kho lưu trữ truyền hình tại Hilversum theo cách sáng tạo và gần gũi văn hóa.”

https://www.technology.org (ntbtra)
Bản quyền @ 2017 thuộc về Sở Khoa học và Công nghệ thành phố Cần Thơ
Địa chỉ: Số 02, Lý Thường kiệt, phường Ninh Kiều, thành phố Cần Thơ
Điện thoại: 0292.3820674, Fax: 0292.3821471; Email: sokhcn@cantho.gov.vn
Trưởng Ban biên tập: Ông Trần Đông Phương An - Phó Giám đốc Sở Khoa học và Công nghệ thành phố Cần Thơ