SỞ KHOA HỌC VÀ CÔNG NGHỆ THÀNH PHỐ CẦN THƠ

Khoa học, công nghệ và Đổi mới sáng tạo - Khơi dậy khát vọng kiến tạo tương lai

BKAI-NAVER Challenge 2022: Ba tác vụ AI giải các bài toán trích xuất và nhận diện

[25/05/2022 08:42]

Tại cuộc thi hackathon lần này, các đội thi đua tài ở 3 tác vụ hướng tới giải các bài toán phát hiện ý định người dùng và nhận diện các thông tin quan trọng trong câu nói, nhận dạng cử chỉ tay hỗ trợ việc phát triển các hệ thống giao tiếp người – máy, và xác định chữ viết phục vụ việc số hóa các văn bản lưu trữ...

Thuyết trình tại vòng chung kết Hackathon BKAI-NAVER Challenge 2022 ngày 22/5. Ảnh BKAI

Dữ liệu cung cấp cho cuộc thi là một phần kết quả trong các dự án hợp tác năm 2021 giữa Trường Công nghệ Thông tin và Truyền thông (SOICT), ĐH Bách khoa Hà Nội và Tập đoàn Naver, Hàn Quốc. Đây cũng là hai đơn vị tổ chức thường niên cuộc thi này.

Cuộc thi gồm ba tác vụ: Trích xuất ý định và slot trong câu văn tiếng Việt (Vietnamese Intent Detection and Slot Tagging); Khoanh vùng cơ thể và Nhận diện cử chỉ động (Body Segmentation and Gesture Recognition); Phát hiện và nhận diện văn bản tiếng Việt trong ảnh khung cảnh (Vietnamese Scene Text Detection and Recognition).

Trong 80 đội tham dự đến từ các trường đại học trên cả nước, 20 đội đạt kết quả tốt nhất được chọn vào vòng chung kết diễn ra vào ngày 21 và 22/5. Tại đây, các đội đã có 24 giờ thử thách, nộp báo cáo kỹ thuật, source code và thuyết trình để Ban tổ chức đánh giá tính đúng đắn của giải pháp và công bố kết quả cuối cùng.

Kết quả, Ban giám khảo đã chọn ra được 3 đội Nhất – Nhì – Ba và Khuyến khích cho mỗi tác vụ. Hầu hết giải đều thuộc về các nhóm đến từ ĐH Bách khoa Hà Nội và ĐH Công nghệ Thông tin (ĐH Quốc gia TPHCM).

3 đội đoạt giải nhất của 3 tác vụ. Ảnh: BKAI

TS Nguyễn Phi Lê - đại diện Ban giám khảo - cho biết, các đội đã mang đến cuộc thi rất nhiều giải pháp sáng tạo, sử dụng các kỹ thuật hiện đại như Transformer, Graph Neural Network, Semi-supervised learning, Self-learning. Đây là năm thứ 3 trường tổ chức cuộc thi, nhưng là lần đầu tiên có nhiều đội “thực chiến” giỏi đến vậy.

Giải thích về ý nghĩa của các tác vụ và điểm nổi trội của ba đội giành giải nhất ở mỗi tác vụ, đại diện Ban tổ chức cho biết:

Tác vụ hiểu ngôn ngữ tự nhiên tiếng Việt là một thành phần quan trọng trong các hệ thống hội thoại giữa người và máy (như trợ lý ảo, loa thông minh...). Tác vụ này gồm 2 bài toán chính là phát hiện ý định người dùng và nhận diện các thông tin quan trọng trong câu nói để hệ thống có thể phản hồi lại một cách đúng đắn. Giải pháp giành giải nhất trong Challenge lần này đã dùng SBERT để có thể biểu diễn ngữ nghĩa của câu nói tốt hơn thay vì các mô hình biểu diễn từ thông thường. Nhóm đã sử dụng phương pháp học tương phản dựa trên ý nghĩa của các ý định để cải thiện độ chính xác trong việc dự đoán ý định trong câu nói của người dùng.

Việc nhận dạng cử chỉ tay có ý nghĩa hỗ trợ phát triển các hệ thống giao tiếp người - máy, đặc biệt là với các thiết bị nhỏ gọn không thể điều khiển bằng cách sử dụng bàn phím và chuột như thông thường. Tác vụ này đưa ra bộ dữ liệu để giải quyết hai bài toán là khoanh vùng cơ thể và nhận dạng cử chỉ tay. Tác vụ này yêu cầu kết quả đầu ra của bài toán phân vùng cơ thể phải được sử dụng làm đầu vào cho bài toán nhận diện cử chỉ tay. Đội đạt giải nhất đã sử dụng phương pháp học bán giám sát với bài toán khoanh vùng cơ thể. Đối với việc phát hiện cử chỉ tay, giải pháp của nhóm giải nhất đã kết hợp giữa đầu ra của bài toán khoanh vùng cơ thể và keypoint nhằm giúp mô hình nhận dạng đạt hiệu quả tốt hơn.

Bài toán định vị và xác định chữ viết được áp dụng rộng rãi trong nhiều ứng dụng thực tế như số hóa các văn bản lưu trữ hoặc tự động trích xuất và phân tích thông tin từ hình ảnh. Điểm đặc biệt của nhóm đoạt giải nhất trong tác vụ này là các em không chỉ dừng lại ở việc sử dụng các mô hình có sẵn mà đã đi sâu phân tích điểm mạnh, điểm yếu của các mô hình khi áp dụng vào bài toán nhận diện tiếng Việt. Từ đó, nhóm đã đề xuất phương pháp sử dụng kết hợp hai mô hình định vị chữ viết, giúp giải quyết vấn đề về sự nhạy cảm của mô hình đối với kích thước của ảnh đầu vào. Đồng thời, nhóm cũng đưa ra một hàm mất mát mới, nhằm tăng độ chính xác của mô hình định vị chữ viết. Đối với tác vụ nhận diện chữ viết, nhóm D2C đã sử dụng nhiều phương pháp sinh dữ liệu nhân tạo khác nhau, tạo ra một bộ dữ liệu nhân tạo rất lớn, với độ đa dạng cao, giúp các mô hình có khả năng học tổng quát.

Các đội đoạt giải tại Hackathon BKAI-NAVER Challenge 2022

Các đội đoạt giải tại Hackathon BKAI-NAVER Challenge 2022. Ảnh: BKAI

* Tác vụ Trích xuất ý định và slot trong câu lệnh người dùng trong tiếng Việt:

Giải Nhất: Đệ thầy LinhNV (ĐH Bách khoa Hà Nội)

Giải Nhì: ThangLD (ĐH Bách khoa Hà Nội)

Giải Ba: Greater Will (ĐH Bách khoa Hà Nội và Học viện Công nghệ Bưu chính Viễn thông)

Giải Khuyến khích: ml-wss (ĐH Bách khoa Hà Nội)

* Tác vụ Khoanh vùng cơ thể và Nhận dạng cử chỉ động:

Giải Nhất: Overfit (ĐH Bách khoa Hà Nội và ĐH Công nghiệp Hà Nội)

Giải Nhì: Team_name (ĐH Bách khoa Hà Nội)

Giải Ba: Young Talent (ĐH Bách khoa Hà Nội)

Giải Khuyến khích: Still Life (ĐH Khoa học tự nhiên và ĐH Công nghệ Thông tin – đều thuộc ĐH Quốc gia TPHCM)

* Tác vụ Phát hiện và nhận diện văn bản tiếng Việt trong ảnh khung cảnh:

Giải Nhất: D2C (ĐH Bách khoa Hà Nội)

Giải Nhì: UIT.TurtleDog (ĐH Công nghệ Thông tin thuộc ĐH Quốc gia TPHCM)

Giải Ba: UIT AIClub SRTeam (ĐH Công nghệ Thông tin thuộc ĐH Quốc gia TPHCM)

Giải Khuyến khích: UIT AIClub CS.AI20 (ĐH Công nghệ Thông tin thuộc ĐH Quốc gia TPHCM).

Thái Thanh

www.khoahocphattrien.vn (ctngoc)
Bản quyền @ 2017 thuộc về Sở Khoa học và Công nghệ thành phố Cần Thơ
Địa chỉ: Số 02, Lý Thường kiệt, phường Tân An, quận Ninh Kiều, thành phố Cần Thơ
Điện thoại: 0292.3820674, Fax: 0292.3821471; Email: sokhcn@cantho.gov.vn
Trưởng Ban biên tập: Ông Trần Đông Phương An - Phó Giám đốc Sở Khoa học và Công nghệ thành phố Cần Thơ