Mô hình ngôn ngữ lớn mới nhất của OpenAI
Ngày 14/5, OpenAI đã công bố mô hình ngôn ngữ lớn mới nhất của mình mà theo họ sẽ làm cho ChatGPT thông minh hơn và dễ sử dụng hơn.
GPT-4o, tên của mô hình mới, là bản cập nhật từ mẫu GPT-4 trước đó của công ty, ra mắt cách đây hơn một năm. Mô hình mới có sẵn cho khách hàng không trả phí, có nghĩa là bất kỳ ai dùng ChatGPT phiên bản miễn phí của cũng có quyền truy cập vào công nghệ tiên tiến này.
Chữ “o” trong GPT-4o là viết tắt cho từ “omni” (tất cả), ngụ ý mô hình này có khả năng xử lý nhiều dạng đầu vào khác nhau.
Theo video trình diễn từ văn phòng công ty ở San Francisco, GPT-4o sẽ biến ChatGPT thành một trợ lý cá nhân có thể tham gia vào các cuộc trò chuyện bằng giọng nói trong thời gian thực. Các phiên bản trước không có tính năng giọng nói này.
Nó cũng có thể tương tác bằng văn bản và “thị giác”, nghĩa là nó có thể xem ảnh chụp màn hình, ảnh, tài liệu hoặc biểu đồ do người dùng tải lên và trò chuyện về chúng. Chẳng hạn, với một bức ảnh, ChatGPT có thể nhanh chóng trả lời các câu hỏi liên quan như “Có gì đang diễn ra trong bức tranh này?” hoặc “Nhãn hiệu áo sơ mi người kia mặc là gì?”.
ChatGPT chạy GPT-4o thậm chí còn có thể phân tích video về không gian xung quanh người đối diện, trả lời người đó đang mặc áo hoodie và được bao quanh bởi thiết bị ghi âm và đưa ra dự đoán người này đang chuẩn bị cho việc quay phim.
Các tính năng phân tích của ChatGPT sẽ tiếp tục phát triển trong tương lai, OpenAI cho biết. Ví dụ như trong tương lai, ChatGPT có thể “xem” một trận đấu thể thao trực tiếp và giải thích luật chơi cho người dùng.
Phiên bản cập nhật của ChatGPT giờ đây cũng sẽ có khả năng ghi nhớ, có nghĩa là nó có thể học hỏi từ các cuộc trò chuyện trước đó và có thể dịch qua lại 50 ngôn ngữ theo thời gian thực.
Giám đốc công nghệ Mira Murati của OpenAI nói rằng: “Đây là lần đầu tiên chúng tôi thực sự đạt được một bước tiến lớn về tính dễ sử dụng của trí tuệ nhân tạo. Điều này rất quan trọng trong việc định hướng tương tác giữa con người và máy móc trong tương lai. Tôi nghĩ GPT-4o đang thực sự chuyển mô hình trí tuệ nhân tạo sang hình thức cộng tác với con người, nơi sự tương tác trở nên tự nhiên và dễ dàng hơn nhiều.”
Bản phát hành mới được đưa ra trong bối cảnh cuộc chạy đua AI ngày càng nóng.
OpenAI phát hành GPT-4o một ngày trước sự kiện Google I/O thường niên, nơi nhiều khả năng Google sẽ công bố các sản phẩm AI mới của mình hoặc giới thiệu bản cập nhật mới cho mô hình ngôn ngữ lớn Gemini. Giống như GPT-4o, Gemini của Google cũng là mô hình đa phương thức, nghĩa là nó có thể diễn giải và tạo văn bản, hình ảnh, âm thanh.
OpenAI cũng đi trước khi Apple dự kiến tổ chức Hội nghị các nhà phát triển toàn cầu vào tháng Sáu tới. Hội nghị này có thể bao gồm các cách mới để tích hợp AI vào các phiên bản iPhone hoặc iOS tiếp theo.