Sở Khoa học và Công nghệ thành phố Cần Thơ

AI chuyển văn bản thành video

[17/10/2022 15:41]

“Một con gấu bối rối trong lớp học đại số” là một trong những đoạn văn bản đầu tiên được thử nghiệm. Sản phẩm do AI Make-a-video tạo ra là một video dài 5 giây tương đối sát nội dung mô tả, với độ phân giải thấp.

Hình ảnh cắt từ video do AI tạo ra dựa trên mô tả "Một con gấu bối rối trong lớp học đại số".

Chỉ trong 2 tháng gần đây đã có 2 hệ thống AI chuyển văn bản thành hình ảnh được ra mắt - DALL-E của phòng thí nghiệm OpenAI và Stable Diffusion của công ty khởi nghiệp Stability.AI. Nhưng AI chuyển văn bản thành video là vấn đề khó hơn. Chỉ một video ngắn cũng cần đến hàng trăm hình ảnh ghép lại với nhau, đòi hỏi sức mạnh tính toán gấp nhiều lần để vận hành AI. Và trong khi có sẵn các tập dữ liệu văn bản và hình ảnh tương ứng với văn bản, không có sẵn các tập dữ liệu văn bản và video tương ứng để đào tạo AI.

Để giải quyết vấn đề này, các nhà phát triển Make-a-video tại Meta, công ty thuộc sở hữu của Facebook và Instagram, đã kết hợp dữ liệu từ ba bộ dữ liệu khác nhau. Tập dữ liệu văn bản và hình ảnh tương ứng giúp Make-a-video biết các đối tượng được gọi là gì và chúng trông như thế nào. Một tập dữ liệu video giúp nó hiểu cách các vật thể di chuyển trong thế giới thực.

Các video được Meta công bố cho thấy Make-a-video có thể tạo ra các vật thể 3D nhìn từ các góc quay khác nhau, thay đổi liên tục. Video cũng thể hiện chiều sâu và bố cục ánh sáng. Một số chi tiết và chuyển động tinh vi và thuyết phục, theo Tanmay Gupta, nhà nghiên cứu thị giác máy tính tại Viện trí tuệ nhân tạo Allen.

Video do AI tạo ra từ mô tả "Một chú chó mặc áo choàng siêu anh hùng bay qua bầu trời".

Hình ảnh từ các video do Make-a-video tạo ra dựa trên các mô tả "Một chú chó mặc áo choàng siêu anh hùng bay qua bầu trời", "Một tàu vũ trụ hạ cánh trên sao Hỏa", "Cận cảnh bút cọ của họa sĩ trên canvas", "Một con ngựa uống nước".

Video của AI Make-a-video trở nên “giả” nhất khi có hai vật thể tương tác với nhau. Với mô tả “cận cảnh bức tranh vẽ của một nghệ sĩ trên canvas”, AI thể hiện bút lông như trượt đi trên trang giấy mà không có ma sát hay tạo ra nét vẽ tương ứng.

Meta hứa hẹn công nghệ này “mở ra cơ hội mới cho những người sáng tạo và các nghệ sĩ”. Nhưng có lo ngại rằng Make-a-video có thể trở thành công cụ sản xuất thông tin sai hoặc tạo ra các video phản cảm.

Các nhà nghiên cứu xây dựng Make-A-Video cho biết đã loại trừ hình ảnh và từ ngữ phản cảm, nhưng với nhiều tập dữ liệu mở, với hàng triệu triệu từ và hình ảnh, không thể loại bỏ hoàn toàn nội dung có hại.

Meta chưa cho biết mô tả AI đã được công bố trong một bài báo nghiên cứu để nhận phản hồi từ cộng đồng và tìm cách giảm thiểu rủi ro tiềm ẩn.

Hoàng Nam tổng hợp

https://khoahocphattrien.vn/( nhnhanh)

Tin cùng chuyên mục

Thúc đẩy quá trình chuyển đổi số quốc gia, hướng đến hình thành quốc gia số [10/03/2026 11:02]

Nền tảng số góp phần lan tỏa thông tin về “Ngày hội non sông” [07/03/2026 20:22]

Phát triển nền kinh tế tri thức trong kỷ nguyên mới [03/03/2026 14:01]

Lực đẩy cho mục tiêu tăng trưởng 2 con số [02/03/2026 08:50]

Từ sân chơi robot quốc tế đến chuyển đổi số giáo dục [08/11/2025 18:36]

Đại học Cần Thơ đẩy mạnh chuyển đổi số, phát triển khoa học - công nghệ [08/11/2025 18:33]

Đổi mới căn bản tư duy tiếp cận công cuộc chuyển đổi số, lấy hiệu quả và thực chất làm thước đo. [21/10/2025 15:23]

Cần Thơ - Đại học Kyonggi (Hàn Quốc) hợp tác chuyển đổi số và đô thị thông minh [21/10/2025 09:58]

Thư viện Quốc gia Việt Nam từng bước khẳng định hiệu quả của chuyển đổi số [20/10/2025 09:32]

Chuyển đổi số nhanh hơn, hiệu quả hơn, gần dân hơn [10/10/2025 09:56]

Xem thêm

Xem nhiều

Hành lang pháp lý - điều kiện cần để phát triển blockchain

Ứng dụng công nghệ blockchain trong xuất nhập khẩu nông sản Hội nghị quốc tế về thành phố thông minh 2017 Tăng cường kết nối là ưu tiên hàng đầu trong phát triển hệ sinh thái khởi nghiệp