Sở Khoa học và Công nghệ thành phố Cần Thơ

SỞ KHOA HỌC VÀ CÔNG NGHỆ THÀNH PHỐ CẦN THƠ

Đột phá phát triển khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số quốc gia

Trí tuệ nhân tạo dựa trên video mang lại cho robot khả năng tưởng tượng trực quan

[28/03/2026 14:10]

Trong một bước tiến lớn hướng tới những cỗ máy linh hoạt và trực quan hơn, nhà nghiên cứu Yilun Du thuộc Viện Kempner và các cộng sự đã công bố một hệ thống trí tuệ nhân tạo kiểu mới cho phép robot "hình dung" hành động của chúng trước khi thực hiện. Hệ thống này, sử dụng video để giúp robot tưởng tượng những gì có thể xảy ra tiếp theo, có thể làm thay đổi cách robot điều hướng và tương tác với thế giới vật lý.

Bước đột phá này, được mô tả trong một bài báo đăng tải trên máy chủ arXiv và một bài đăng trên blog , đánh dấu một sự thay đổi trong cách các nhà nghiên cứu suy nghĩ về việc học máy của robot.

Các hình ảnh tĩnh từ video cho thấy một bộ phận kẹp của robot đang khái quát hóa kiến thức của nó để thực hiện các hành động cụ thể theo yêu cầu, chẳng hạn như nhặt một chiếc tua vít và đặt nó lên hộp đựng, hoặc nhặt một chai nước rửa tay. Nguồn: Trường Kỹ thuật và Khoa học Ứng dụng Harvard John A. Paulson

Từ ngôn ngữ đến thị giác: Một bước chuyển mình trong trí tuệ robot

Trong những năm gần đây, các nhà nghiên cứu đã phát triển các hệ thống thị giác-ngôn ngữ-hành động (VLA) - một loại mô hình nền tảng robot kết hợp thị giác, khả năng hiểu và chuyển động để cung cấp cho robot các kỹ năng đa năng, giảm thiểu nhu cầu huấn luyện lại robot mỗi khi nó gặp phải một nhiệm vụ hoặc môi trường mới.

Tuy nhiên, ngay cả những hệ thống tiên tiến nhất, phần lớn dựa nhiều vào các mô hình ngôn ngữ lớn (LLM) để chuyển đổi từ ngữ thành chuyển động, cũng gặp khó khăn trong việc dạy robot khái quát hóa kiến thức trong các tình huống mới một cách hiệu quả. Vì vậy, thay vào đó, nhóm của Du đã huấn luyện hệ thống của mình bằng video.

"Ngôn ngữ chứa rất ít thông tin trực tiếp về cách thế giới vật lý vận hành," Du nói. "Ý tưởng của chúng tôi là huấn luyện một mô hình dựa trên một lượng lớn dữ liệu video trên internet, chứa đựng nhiều thông tin vật lý và ngữ nghĩa phong phú về các nhiệm vụ."

Dạy robot cách tưởng tượng về tương lai

Sử dụng cụm máy tính siêu tốc Kempner AI Cluster, một trong những nguồn tài nguyên siêu máy tính học thuật mạnh mẽ nhất hiện có, Du và nhóm của ông đã mã hóa thông tin từ kho video khổng lồ trên internet thành một "mô hình thế giới", đó là sự biểu diễn nội bộ của robot về thế giới vật lý.

Điều quan trọng là, điều này cho phép robot tạo ra các đoạn video ngắn, tưởng tượng về các kịch bản tương lai.

"Khả năng tạo video được học từ dữ liệu internet giúp chuyển giao kiến thức cho mô hình nền tảng của robot," Du nói. "Ý tưởng là tổng hợp các video thể hiện cách robot nên hành động trong một nhiệm vụ mới."

Nói cách khác, robot có thể mô phỏng các tương lai có thể xảy ra, hình dung những gì có thể diễn ra trước khi nó di chuyển. Các nhà nghiên cứu đã chứng minh rằng "khả năng tưởng tượng trực quan" này cho phép robot thực hiện nhiều nhiệm vụ khác nhau trong môi trường không quen thuộc.

"Vì vậy, chúng tôi có một mô hình có thể dự đoán một cách khái quát các hành động có thể xảy ra trong tương lai trong một môi trường nhất định," Du nói.

Thách thức của trí thông minh thể chất

Những phát hiện của Du nhấn mạnh một nhận định quan trọng về chính trí thông minh. Trong khi con người thường liên tưởng trí thông minh với việc giải quyết vấn đề trừu tượng - loại vấn đề được sử dụng trong toán học hoặc cờ vua—thì trí thông minh thể chất thực sự liên quan đến việc điều hướng một thế giới phức tạp, luôn thay đổi.

"Trí thông minh thể chất là một thách thức vì sự đa dạng vô cùng lớn của môi trường," Du nói. "Trong suốt cuộc đời - từ nhà bạn ra ngoài trời, đến bảo tàng, dưới nước hay trên bầu trời - bạn vẫn có thể nhận thức, thích nghi và định hướng hiệu quả, bất kể môi trường xung quanh khác biệt đến mức nào."

Một thách thức khác là trí thông minh thể chất thường phát triển theo thời gian. "Bạn không chỉ thực hiện một động tác: bạn phải phối hợp nhiều hành động theo đúng trình tự để hoàn thành nhiệm vụ thành công," Du nói. "Với những trò chơi như cờ vua, bạn có thể nhìn thấy toàn bộ bàn cờ và quyết định một nước đi duy nhất. Trong trí thông minh thể chất, sự phụ thuộc vào thời gian mạnh mẽ hơn nhiều."

Du và các cộng sự đang mở đường cho việc chế tạo robot sử dụng video để dự đoán không chỉ bước đi tiếp theo, mà còn cả một chuỗi hậu quả. "Trong công nghệ tạo video, mô hình dự đoán thế giới sẽ phát triển như thế nào một cách trực quan, điều này phù hợp với vật lý hơn là ngôn ngữ", Du nói.

Hướng tới những robot có khả năng hiểu như sinh vật sống.

Bằng cách phát triển mô hình nền tảng robot dựa trên các mô hình cảm giác thay vì ngôn ngữ, nhóm của Du đang thúc đẩy ngành robot hướng tới một hình thức hiểu biết sinh học hơn. "Chúng ta không tiến hóa để chơi cờ vua," Du chỉ ra. "Nhưng chúng ta đã trải qua hàng trăm triệu năm tiến hóa để phát triển khả năng điều khiển vận động thông minh." Cái nhìn sâu sắc về quá trình tiến hóa đó có ý nghĩa sâu xa đối với trí tuệ nhân tạo.

"Có vẻ như cách đúng đắn để phát triển robot thông minh không phải là huấn luyện các mô hình chủ yếu dựa trên thông tin ngôn ngữ," Du nói. "Ngôn ngữ không dạy chúng ta cách tương tác trong thế giới vật lý."

Nhìn về phía trước, các nhà nghiên cứu hướng đến việc liên kết khả năng tưởng tượng trực quan này với việc lập kế hoạch dài hạn và trí nhớ. "Ví dụ, nếu bạn giao cho một robot những mục tiêu dài hạn, như điều hướng trong một ngôi nhà, làm thế nào nó ghi nhớ được những kinh nghiệm trong quá khứ?" Du đặt câu hỏi. Ông tin rằng mô hình nền tảng robot mới có thể giúp trả lời câu hỏi đó.

Nhóm nghiên cứu cũng có kế hoạch thử nghiệm mô hình trong các tình huống thực tế năng động hơn.

"Hiện tại, nhiều nhiệm vụ của chúng tôi diễn ra trong môi trường tương đối tĩnh, nơi robot có thể nhặt đồ vật và tương tác mà không cần nhiều thay đổi," Du nói. "Nhưng trong các môi trường năng động hơn, robot cần phải tính đến các yếu tố như trọng lượng vật thể hoặc điều kiện thay đổi. Việc tìm hiểu cách xử lý các động lực vật lý đó là một thách thức thú vị khác."

https://techxplore.com/news/2026-03-video-based-ai-robots-visual.html (ctngoc)

Tin cùng chuyên mục

Hệ thống AI mới của Baidu có thể mô phỏng 2500 giọng nói khác nhau trên thế giới [26/10/2017 10:17]

Nông trại rau nằm sâu 33 m dưới lòng London [24/10/2017 23:28]

Hỗ trợ doanh nghiệp ứng dụng công nghệ, bứt phá trong kỷ nguyên số [16/06/2026 08:17]

Rocket Doctor AI (CSE: AIDR) và khoảng trống chẩn đoán bằng AI: Góc nhìn đầu tư công nghệ y tế của Yazan al Homsi [30/04/2026 15:07]

Điều chỉnh tối ưu bộ điều khiển PID phân số bằng phương pháp Nelder-Mead: Nghiên cứu điển hình trên động cơ DC chổi than [19/04/2026 17:36]

Biến áp phẳng tích hợp cuộn cảm tách rời cho bộ chuyển đổi LLC [19/04/2026 17:09]

Phân tích so sánh các phương án điều khiển công suất đường lên trong hệ thống MIMO khổng lồ không cần ô mạng, tập trung vào người dùng [19/04/2026 16:56]

Cảm biến sinh học toàn tế bào kết hợp quang học-trở kháng cho các ứng dụng môi trường [19/04/2026 16:44]

Giám sát tải điện không xâm nhập bằng mạng CNN: Tiếp cận dữ liệu chuỗi thời gian [19/04/2026 16:29]

Điều khiển ổn định con lắc kép ngược bằng chiến lược trượt lùi tách rời [19/04/2026 16:07]

Xem thêm

Xem nhiều

Hành lang pháp lý - điều kiện cần để phát triển blockchain

Ứng dụng công nghệ blockchain trong xuất nhập khẩu nông sản Hội nghị quốc tế về thành phố thông minh 2017 Tăng cường kết nối là ưu tiên hàng đầu trong phát triển hệ sinh thái khởi nghiệp