Chip nhận dạng tiếng Việt trên nền công nghệ FPGA
TS. Hoàng Trang cùng nhóm nghiên cứu của mình ở ĐH Bách Khoa, ĐH Quốc gia TP.HCM mới đây đã thiết kế thành công chip nhận dạng tiếng nói tiếng Việt trên nền công nghệ FPGA, phục vụ cho người khuyết tật và các ứng dụng khác dựa trên nhận dạng, tổng hợp tiếng nói tiếng Việt.
Mục tiêu của
nghiên cứu là thiết kế được chip nhận dạng tiếng nói tiếng Việt với tập tiếng
nhận dạng là 20 tiếng đơn trên nền công nghệ FPGA (Field programmable Gate
Array - một thiết bị bán dẫn có thể được lập trình sau khi sản xuất) dựa trên
việc trích đặc trưng MFCC (Mel-Frequency Ceptrum Coefficients - phương pháp
trích chọn tham số tiếng nói) và bộ nhận dạng dùng mô hình Markov ẩn (HMM) với
nhiều cải tiến mới; kết quả nhận dạng hiển thị trên LCD; độ chính xác nhận dạng
(trong môi trường ít nhiễu, cùng điều kiện nhiễu với khi xây dựng thiết kế và
huấn luyện) tối thiểu là 80%.
Đề tài, bắt đầu
được triển khai từ đầu năm 2012, đã chọn được các thông số tối ưu trong giải
thuật nhận dạng tiếng nói tiếng Việt để đảm bảo cả ba yếu tố quan trọng bao gồm:
độ chính xác nhận dạng, tài nguyên phần cứng, và tốc độ tính toán. Đặc biệt, đề
tài đã đề xuất các kiến trúc vi mạch mới, giải thuật mới không chỉ tăng tốc độ
nhận dạng trên phần cứng nhanh hơn nhiều lần so với các giải thuật thông thường,
mà còn giảm tài nguyên phần cứng trong khi chỉ giảm độ chính xác nhận dạng từ
1%-3%.
Tuy các thí nghiệm
cho thấy vấn đề khác nhau về giọng nói giữa các vùng miền tại việt Nam là một
thách thức lớn nhưng kết quả nghiên cứu vẫn là cơ sở để hướng tới triển khai ứng
dụng các thiết bị điều khiển bằng giọng nói, các thiết bị hỗ trợ cho người khuyết
tật và ứng dụng trong chế tạo sản xuất ti vi nội địa giúp nâng cao vị thế cạnh
tranh của hàng Việt Nam.
Trên thế giới hiện
nay đã có nhiều thành công trong việc nghiên cứu xây dựng phần mềm nhận dạng tiếng
nói chạy trên nền tảng vi xử lý và tài nguyên của máy tính. Tuy nhiên, để có thể
chuyển các thuật toán được sử dụng trong các phần mềm nói trên sang hoạt động
trên nền cấu trúc vi mạch vẫn còn là thách thức với các nhà nghiên cứu công nghệ
trong lĩnh vực này.
Ở Việt Nam, vấn
đề nghiên cứu thiết kế cấu trúc vi mạch nhận dạng tiếng Việt vẫn còn bỏ ngỏ mặc
dù đây một hướng công nghệ cao được ưu tiên phát triển (Công nghệ nhận dạng tiếng
Việt đứng thứ ba trong danh sách 46 công nghệ cao được ưu tiên đầu tư phát triển
quyết định 49/2010/QĐ-TTg ngày 19/7/2010 của Thủ tướng Chính phủ).