SỞ KHOA HỌC VÀ CÔNG NGHỆ THÀNH PHỐ CẦN THƠ

Khoa học, công nghệ và Đổi mới sáng tạo - Khơi dậy khát vọng kiến tạo tương lai

Đề xuất hệ thống trong nhận dạng cử chỉ, hành động sử dụng trí tuệ nhân tạo cho các ứng dụng nhà thông minh

[26/09/2021 17:04]

Ngày nay, nhờ có sự tiến bộ của khoa học kỹ thuật, máy tính dần trở thành công cụ được sử dụng rộng rãi trong công việc cũng như đời sống con người. Theo đó sự tương tác giữa con người và máy tính cũng càng đa dạng.

Hiện nay, con người chủ yếu tương tác với máy tính qua bàn phím và chuột nhưng với sự phát triển nhanh chóng của khoa học kỹ máy tính các tương tác mới được tìm ra như sử dụng giọng nói, cử chỉ mang lại sự trực quan dễ dàng hơn cho người sử dụng. Theo đó các hệ thống tương tác giữa con người và máy tính được tập trung nghiên cứu. Việc sử dụng cử chỉ, hành động người được xem là một ý tưởng hiệu quả để con người giao tiếp với nhau trong thế giới thực. Hành động của một sự kết hợp của nhiều bộ phận khác nhau trên cơ thể mang hàm ý tuyền đạt thông tin. Do đó trong bài báo này chúng tôi sẽ nghiên cứu phát triển hệ thống nhận dạng cử chỉ, hành động trong nhà thông minh. Đây là bước tiếp theo phát triển của bài báo [1] đã công bố trong hội thảo NICS. Mục tiêu của bài báo là thực hiện tìm hiểu cách tương tác giữa con người và máy tính giúp điều khiển các thiết bị điện tử. Trong bài báo này chúng tôi sử dụng các hành động như đứng lên, ngồi xuống, ngửa người về phía sau, đi giầy, và phẩy tay để thực hiện việc tương tác giữa con người và máy tính. hệ thống chuyển sang định dạng tensorflow lite để có thể dễ dàng chạy trên một thiết bị thông minh như là điện thoại di động giúp giảm băng thông phía máy chủ, giảm độ trễ và cải thiện tốc độ phản hồi của trí tuệ nhân tạo (AI). Qua đó giảm chi phí lưu lượng truy cập di động cho người dùng vì không cần phải tải một lượng lớn dữ liệu thô trên máy tính. Phần còn lại của bài báo được trình bày như sau. Trong phần II chúng tôi sẽ khảo sát qua về các hệ thống hiện có. Trong phần III và phần IV, chúng tôi lần lượt trình bày mô hình và đánh giá kết quả của mô hình để ra. Cuối cùng, chúng tôi kết luận bài báo trong phần V.

Nghiên cứu do nhóm tác giả Nguyễn Hữu Phát (Bộ môn Mạch và Xử lý tín hiệu, Viện Điện tử viễn thông, Đại học Bách Khoa Hà Nội) , Nguyễn Thị Thu Hương (Viện Điện tử viễn thông, Đại học Bách Khoa Hà Nội)

Nhận dạng hành động là một trong số ứng dụng trong việc kiểm soát các thiết bị kỹ thuật số trong tương lai. Đây là một công nghệ tiên tiến trong ứng dụng nhà thông minh. Hiện nay nhiều công ty và các phòng nghiên cứu đang tích cực nghiên cứu mô hình công nghệ cao cho phép điều khiển màn hình mà không cần chạm vào thiết bị bằng công nghệ AI và được quan tâm hơn cả là nhận dạng hành động. Có nhiều nghiên cứu để nhận dạng hành động [2]÷[9]. Trong [2] tác giả thực hiện nhận dạng theo bộ xương 3D trên bộ dữ liệu NTU-RGB + D, Kinetic. Tác giả trong [3] nhận dạng dựa trên mạng noron và bản đồ quỹ đạo (JTM). Giải pháp thực hiện theo [4] đề xuất sự kết hợp tuần tự của Inception-ResNetv2 và mạng bộ nhớ ngắn hạn (LSTM) để tận dụng phương sai thời gian để cải thiện hiệu suất nhận dạng. Độ chính xác nhận dạng đạt được là 95,9 và 73,5 phần trăm trên UCF101 và HMDB51. Các thuật toán học máy như biểu đồ định hướng cục bộ, máy vectơ hỗ trợ (SVM) [9]. Nhờ khả năng học tập, mạng lưới thần kinh không cần thiết lập tính thủ công trong quá trình mô phỏng quá trình học tập của con người và có thể thực hiện đào tạo các mẫu cử chỉ, hành động để tạo thành bản đồ nhận dạng phân loại mạng. Các mô hình học tập sâu được lấy cảm hứng từ các mô hình xử lý thông tin và giao tiếp được phát triển từ các hệ thống thần kinh sinh học, bao gồm các mạng lưới thần kinh với nhiều hơn một lớp ẩn. Họ có thể có được các đặc điểm của đối tượng học tập một cách dễ dàng và chính xác dưới đối tượng phức tạp và thể hiện hiệu suất vượt trội trong thị giác máy tính và xử lý ngôn ngữ tự nhiên (NLP) [7], [8]. Các hệ thống phát hiện đối tượng hiện đại là các biến thể của Faster R-CNN [7]. Trong một bài báo theo [5] các tác giả đã khám phá ý tưởng sử dụng các LSTM trên các bản đồ tính năng được đào tạo riêng biệt để xem liệu nó có thể nắm bắt thông tin tạm thời từ các clip hay không. Họ kết luận rằng việc gộp các tính năng phức tạp theo thời gian tỏ ra hiệu quả hơn LSTM xếp chồng lên nhau sau các bản đồ tính năng được đào tạo. Trong bài báo hiện tại, các tác giả xây dựng trên cùng một ý tưởng sử dụng các khối LSTM (bộ giải mã) sau các khối tích chập (bộ mã hóa) nhưng sử dụng đào tạo từ đầu đến cuối của toàn bộ kiến trúc. Họ cũng so sánh RGB và dòng quang là lựa chọn đầu vào và thấy rằng việc chấm điểm dự đoán có trọng số dựa trên cả hai đầu vào là tốt nhất. Mạng lưới phân đoạn tạm thời: Hướng tới thực tiễn tốt để nhận biết hành động sâu sắc [6]. Mạng tích chập sâu đã đạt được thành công lớn cho nhận dạng hình ảnh trong ảnh tĩnh. Tuy nhiên, để nhận dạng hành động trong video, lợi thế so với các phương pháp truyền thống không quá rõ ràng.

Tuy nhiên, có một số thách thức đối với nhận dạng hành động như sau:

Phát triển mẫu đào tạo: Nhận dạng bằng cách sử dụng máy học đòi hỏi bộ dữ liệu mẫu phù hợp do chúng ta phải mất nhiều thời gian để thu thập dữ liệu để tạo ra các mẫu tiêu chuẩn.

Thời gian xử lý: Chúng ta cần xử lý một lượng lớn dữ liệu. Do đó, với một mạng phải xử lý quá nhiều tham số với máy tích có cấu hình yếu sẽ xử lý chậm ảnh hưởng đến kết quả trong thời gian thực

Độ chính xác của phương pháp: Đối với máy ảnh thông thường (webcam), độ chính xác bị ảnh hưởng bởi các điều kiện khác như ánh sáng, hình nền, tốc độ chuyển động của tay vì chúng tôi phải đưa ra một số giả định cho các ứng dụng. Dựa trên kết quả phân tích ở trên, chúng tôi đề xuất một hệ thống nhận dạng hành động trên sự kết hợp giữa mạng mobilenetV2 kết hợp với mạng SSD để dễ dàng sử dụng trên các thiết bị nhúng có cấu hình yếu hơn.

Bài báo tập trung vào nghiên cứu việc sử dụng các mạng nơ-ron trong việc nhận diện hành động của con người. Trong bài báo này chúng tôi đã nhận diện được các hành động với độ chính xác trên 90 phần trăm. Tuy nhiên hệ thống vẫn còn nhược điểm như kết quả nhận diện các hành động chưa cao và tốc độ khung hình trên giây còn thấp. Do đó hướng tiếp theo chúng tôi sẽ thực hiện các bước như tăng tốc độ khung hình trên giây, cải thiện độ chinh xác bằng cách tăng độ phân giải của ảnh đầu vào hoặc sử dụng phương pháp tiền xử lý đã thực hiện trong bài báo trước [22], [23], cũng như kết hợp mạng nơ-ron với các mạng khác để tăng hiệu quả tính toán và thực hiện với đối tượng bất kỳ.

ntdien

Tạp chí Khoa học công nghệ thông tin và truyền thông số 02 (CS.01) 2020
Bản quyền @ 2017 thuộc về Sở Khoa học và Công nghệ thành phố Cần Thơ
Địa chỉ: Số 02, Lý Thường kiệt, phường Tân An, quận Ninh Kiều, thành phố Cần Thơ
Điện thoại: 0292.3820674, Fax: 0292.3821471; Email: sokhcn@cantho.gov.vn
Trưởng Ban biên tập: Ông Trần Đông Phương An - Phó Giám đốc Sở Khoa học và Công nghệ thành phố Cần Thơ