Sở Khoa học và Công nghệ thành phố Cần Thơ

Hệ thống AI mới của Baidu có thể mô phỏng 2500 giọng nói khác nhau trên thế giới

[26/10/2017 10:17]

Baidu đã chính thức trình làng DeepVoice 3 - hệ thống AI mô phỏng giọng nói mới nhất của hãng, mở ra rất nhiều tiềm năng cho các lĩnh vực công nghệ trong tương lai. Đầu năm nay, Baidu - “gã khổng lồ” trong công nghệ tìm kiếm đến từ Trung Quốc, đã cho ra mắt một hệ thống AI mới với tên gọi DeepVoice. Hệ thống này sử dụng kĩ thuật trí thông minh nhân tạo phổ biến nhưng rất cao cấp để có thể chuyển đổi văn bản thành giọng nói.

Phiên bản đầu tiên của DeepVoice có khả năng tạo ra những câu nói ngắn gọn và rất khó để phân biệt với giọng nói thật của con người. Hệ thống này phải tốn hàng giờ đồng hồ để bắt chước được giọng nói của một người, và chỉ có thể học được một giọng tại một khoảng thời gian nhất định.

Vào tháng 5 vừa qua, Baidu tiếp tục trình làng DeepVoice 2 với những cải tiến vượt bậc so với người tiền nhiệm. Cụ thể, hệ thống này có thể giả giọng bất cứ ai chỉ sau nửa giờ đồng hồ “luyện tập” và đặc biệt hơn là khả năng “học” đến hàng trăm giọng nói khác nhau trên thế giới.

Hệ thống AI DeepVoice của Baidu ngày càng được hoàn thiện hơn.

Mới đây nhất, vào ngày 24/10, phiên bản thứ ba và cũng là phiên bản cuối cùng của DeepVoice cũng đã ra mắt. Baidu tuyên bố hệ thống AI của họ có thể mô phỏng 2500 giọng nói khác nhau và cũng chỉ mất nửa tiếng để học mỗi chất giọng mà thôi.

Baidu cho biết: “Sở hữu một hệ thống với khả năng tạo ra nhiều tiếng nói khác nhau sẽ mở toang cánh cửa đến những lĩnh vực khác chưa từng ai khám phá được. Ví dụ, mỗi nhân vật trong một cuốn tiểu thuyết dạng audio hay trong một trò chơi điện tử nào đó sẽ có giọng nói cho riêng mình. Nhờ vậy, trải nghiệm của người dùng cũng được nâng cao lên rất nhiều”.

Tuy nhiên, nhiều người cho rằng những giọng nói mà DeepVoice 3 tổng hợp lại nghe rất không tự nhiên, không hề giống giọng con người như hai người tiền nhiệm. Baidu lập tức lên tiếng thanh minh: “Nếu chỉ muốn tạo ra một hay hai loại chất giọng như các phiên bản trước đây thì DeepVoice 3 đã làm rất tốt rồi. Chất lượng sản phẩm của DeepVoice 3 hoàn toàn tự nhiên, giống con người và sẵn sàng để tích hợp cho các trợ lý ảo trong thời gian tới”.

Baidu khẳng định DeepVoice 3 đã sẵn sàng đi vào hoạt động.

Mục đích cuối cùng của Baidu chính là tạo ra một hệ thống làm chủ được sắc thái đa dạng của rất nhiều ký tự cũng như giọng nói khác nhau trên thế giới. Hiện tại, 2500 là con số giới hạn mà DeepVoice có thể đạt được. Nhưng Baidu cho biết, các hệ thống trong tương lai sẽ sử dụng lượng dữ liệu lớn hơn nữa để có thể mô phỏng thành công 10.000 chất giọng khác nhau, thậm chí còn nhiều hơn thế nữa.

Đại diện của Baidu chia sẻ: “Đây là thành tựu ban đầu cho thấy khả năng phát triển tiềm tàng của công nghệ AI. Hệ thống của chúng tôi đã thành công trong việc mở rộng quy mô lớn đến mức chưa từng có trong lĩnh vực chuyển đổi văn bản thành giọng nói. Chúng tôi tin là trong tương lai gần, chất lượng của công nghệ này sẽ còn được cải thiện thêm nữa nhờ kết hợp lượng dữ liệu lớn hơn, tốt hơn với những kỹ thuật machine learning truyền thống”.

Baidu không phải là “ông lớn” duy nhất trong công nghệ tổng hợp giọng nói máy tính. DeepMind (thuộc Google) cũng đã triển khai một dự án tương tự với tên gọi WaveNet. Phiên bản mới nhất của hệ thống này có thể mô phỏng giọng nói với chất lượng khá cao, thậm chí còn tự tạo ra “tiếng cười” để giọng nói đó được tự nhiên, chân thực hơn. Hiện tại, WaveNet đang được sử dụng cho giọng tiếng Anh và tiếng Nhật của Google Assistant.

genk.vn

Tin cùng chuyên mục

Hệ thống AI mới của Baidu có thể mô phỏng 2500 giọng nói khác nhau trên thế giới [26/10/2017 10:17]

Nông trại rau nằm sâu 33 m dưới lòng London [24/10/2017 23:28]

Sản xuất thông minh trong Cách mạng Công nghiệp 4.0 [17/04/2024 15:01]

Tìm kiếm các doanh nghiệp đi đầu trong cách mạng công nghiệp 4.0 [28/06/2023 08:21]

Diễn đàn cấp cao về Công nghiệp 4.0 năm 2023 [19/06/2023 16:17]

Thiết kế BMW thế hệ mới, sạc pin bằng năng lượng mặt trời [08/12/2022 10:10]

Hyundai trang bị cảm biến chống quên trẻ ở hàng ghế sau [08/12/2022 10:29]

Loại cảm biến xe tự hành giúp tiết kiệm 70% năng lượng [08/12/2022 10:55]

Bộ trưởng TT&TT: Nền tảng số giúp Việt Nam nhanh chóng trở thành quốc gia số [13/12/2021 09:07]

Với công nghệ này, mỗi ngày có 1.000 tấm chắn chống virus corona được sản xuất [31/03/2020 10:56]

Xem thêm

Xem nhiều

Hành lang pháp lý - điều kiện cần để phát triển blockchain

Ứng dụng công nghệ blockchain trong xuất nhập khẩu nông sản Tăng cường kết nối là ưu tiên hàng đầu trong phát triển hệ sinh thái khởi nghiệp 85 triệu đồng khích lệ những bạn trẻ khởi nghiệp nông nghiệp