Sở Khoa học và Công nghệ thành phố Cần Thơ

Phân loại ảnh dựa vào đặc trưng khoảng trích xuất từ ma trận đồng hiện mức xám

[28/11/2022 15:36]

Phương pháp phân loại ảnh dựa vào đặc trưng khoảng được trích xuất từ ma trận đồng hiện mức xám với một số cải tiến được thực hiện trong nghiên cứu này. Đầu tiên, mỗi ảnh được đại diện bởi một khoảng hai chiều mà các giá trị của nó được thiết lập từ đặc trưng kết cấu của ảnh.

Sau đó xác suất tiên nghiệm cho ảnh được tìm dựa vào bài toán phân tích chùm mờ cho dữ liệu khoảng. Tiếp theo ảnh cần phân loại được đo mức độ gần nhau với các nhóm dựa vào khoảng cách chồng lấp của các khoảng đại diện. Cuối cùng, dựa vào các cải tiến trên, một phương pháp phân loại mới được đề xuất. Phương pháp này được trình bày chi tiết các bước thực hiện và được minh hoạ bởi một tập ảnh cụ thể. Nó cũng được áp dụng trong nhận diện khuôn mặt, một vấn đề có nhiều ứng dụng và thách thức hiện nay. Kết quả nghiên cứu cho thấy phương pháp này đã phân loại đúng hoàn toàn cho tập huấn luyện trong khi các phương pháp phổ biến khác có tỷ lệ sai từ 20% đến 40%.

Phân loại là việc xếp một phần tử vào một nhóm thích hợp trong các nhóm đã được biết dựa trên các biến quan sát của chúng. Đây là một hướng phát triển quan trọng của thống kê và khoa học dữ liệu. Bài toán phân loại đã được quan tâm từ lâu bởi có rất nhiều ứng dụng (Chen et al., 2016; Huang et al., 2018; Ha et al., 2020). Trong thời đại thông tin, việc phân loại dữ liệu ngày càng đóng vai trò quan trọng hơn vì nó là nền tảng cho cách mạng số và nghiên cứu về trí tuệ nhân tạo (Pham-Gia et al., 2008; Tai et al., 2021).

Hiện nay, có rất nhiều phương pháp phân loại được đề xuất và áp dụng. Theo các phương pháp thống kê truyền thống, có phương pháp Fisher, Logistic, Navive Bayes (dựa vào biến rời rạc) và Bayes cải tiến (dựa vào biến liên tục). Fisher được xem là phương pháp được đề xuất đầu tiên. Về lý thuyết, phương pháp này đòi hỏi ma trận hiệp phương sai của các tổng thể phải bằng nhau. Vì dữ liệu hầu như không thoả điều kiện này nên phương pháp Fisher có nhiều hạn chế trong thực tế (Fisher, 1938; Tai, 2017). Phương pháp Logistic thường chỉ hiệu quả trong phân loại hai nhóm và dữ liệu có tính chất tuyến tính giữa biến độc lập và biến phân loại (Kung, 2010; Tai, 2019). Phương Naive Bayes được đề xuất rất sớm và vẫn được sử dụng đến nay (Nhu, 2020). Vì hiệu quả thực tế của phương pháp này không cao nên ngày nay nó cũng ít được áp dụng. Phương pháp Bayes dựa vào hàm mật độ xác suất được đề xuất bởi Pham-Gia et al. (2008) và được cải tiến bởi nhiều tác giả sau đó (Thao & Tai, 2017; Tai et al., 2021). Về lý thuyết, phương pháp này có nhiều ưu điểm, tính được sai số lý thuyết. Tuy nhiên, trong thực tế việc áp dụng nó còn hạn chế. Có hai lý do chính cho vấn đề này. Dữ liệu trong thực tế là rời rạc, do đó để áp dụng phương pháp Bayes trước tiên ta phải ước lượng các hàm mật độ xác suất. Mặc dù có rất nhiều nghiên cứu về vấn đề này bao gồm cả phương pháp tham số và phi tham số, nhưng đây vẫn là bài toán chưa có lời giải cuối cùng (Miller et al., 2001; Nhu, 2020). Một vấn đề khác đặt ra là việc xác định xác suất tiên nghiệm cho phương pháp này. Trong các ứng dụng hiện tại, nếu ta không có thông tin thì tiên nghiệm đều được sử dụng; nếu ta dựa vào tập huấn luyện thì tỉ lệ theo đóng góp của các nhóm hoặc phương pháp Laplace được sử dụng (Tai, 2017). Dựa vào bài toán phân tích chùm mờ cho các phần tử rời rạc, Thao and Tai (2018) đã đề xuất thuật toán tìm xác suất tiên nghiệm. Tai et al. (2019) đã sử dụng kết quả này để đề xuất thuật toán phân loại Bayes cải tiến cho hai tổng thể. Mặc dù thuật toán của Tai et al. (2019) đã chứng minh được sự hiệu quả cho nhiều tập dữ liệu nhưng nó chỉ là những tập dữ liệu cụ thể, không phải là tất cả. Với kỹ thuật học máy và học sâu, chúng ta có nhiều phương pháp phân loại khác như Support Vector Machine (SVM), k-Nearest Neighbor (KNN), Artificial Neural Network (ANN). Các phương pháp này cho kết quả phân loại thực tế khá tốt, nhưng đòi hỏi tập dữ liệu lớn và thời gian đòi hỏi cho huấn luyện nhiều.

Trong những nghiên cứu trên, các thuật toán phân loại chỉ thực hiện cho đối tượng là những phần tử rời rạc. Với đối tượng là các hình ảnh, các phương pháp đề cập chưa được quan tâm nhiều. Ngày nay, với sự phát triển của các thiết bị chụp ảnh, ghi hình, nhu cầu phân loại ảnh được đòi hỏi ngày càng nhiều. Phân loại ảnh là sự cấp thiết trong nghiên cứu liên quan đến an ninh, trí tuệ nhân tạo và y học (Tan, 2011; Pham, 2016). So với dữ liệu rời rạc, phân loại cho dữ liệu ảnh có nhiều khó khăn hơn. Với dữ liệu ảnh, chúng ta đầu tiên phải trích xuất được những đặc trưng cho nó dựa vào màu sắc, hình dạng hoặc kết cấu (Zhang & Yan, 2018). Phần lớn các nghiên cứu trích xuất ảnh thành ma trận để nhận dạng và các phương pháp phân loại đã sử dụng các trích xuất này để làm dữ liệu đầu vào. Khi dữ liệu lớn, trích xuất ảnh thành hàm mật độ xác suất cũng được quan tâm (Zhu et al., 2000). Trong những năm gần đây, trích xuất các đặc trưng của ảnh thành các khoảng một chiều hoặc nhiều chiều được quan tâm bởi các nhà thống kê (Dinh & Tai, 2021a, 2021b), có nghĩa rằng, ma trận số hoặc hàm mật độ xác suất sẽ được thay thế bằng các khoảng trong nhận dạng ảnh. Tuy nhiên, việc sử dụng các khoảng đặc trưng trích xuất này chỉ được áp dụng cho bài toán phân tích chùm mà chưa được áp dụng cho bài toán phân loại.

Trong bài viết này, phương pháp mới được đề xuất để phân loại ảnh cho hai nhóm dựa trên khoảng đặc trưng hai chiều được trích xuất để từ đó áp dụng cho tập ảnh. Thuật toán đề nghị tương tự như phương pháp Bayes, trong đó xác suất tiên nghiệm được tìm bởi thuật toán phân tích chùm mờ dành cho đối tượng khoảng. Sau khi tìm được xác suất tiên nghiệm, thuật toán sử dụng khoảng cách chồng lấp giữa phần tử cần phân loại đến phần tử đại diện của nhóm để đo mức độ gần nhau của chúng. Phần tử được xếp vào một nhóm nào đó nếu nó có xác suất tiên nghiệm lớn nhất và có khoảng cách đến nhóm đó nhỏ nhất. Thuật toán đề nghị được trình bày chi tiết từng bước và được minh hoạ bởi ví dụ số. Nó cũng được áp dụng trong nhận dạng mặt người. Ứng dụng cho thấy ưu điểm của phương pháp đề nghị và tiềm năng trong áp dụng thực tế của nghiên cứu này. Chương trình trên phần mềm MATLAB được thiết lập cho thuật toán này. Thuật toán này có thể áp dụng cho nhiều vấn đề khác trong thực tế.

nqhuy

Tạp chí Khoa học Trường Đại học Cần Thơ, Tập 58, Số 5A (2022): 31-38

Tin cùng chuyên mục

Cải thiện năng suất, chất lượng giống nấm Linh chi (Ganoderma spp.) bằng phương pháp gây đột biến sử dụng tia gamma (Cobalt 60) [20/04/2024 15:07]

Hiệu quả kỹ thuật của các hộ nông dân trồng cam trên địa bàn huyện Hàm Yên, tỉnh Tuyên Quang [20/04/2024 15:06]

Chọn giống và thực nghiệm trồng Hymenopellis radicata (nấm Mối đen) trên nguồn cơ chất thông dụng địa phương tại thành phố Đà Nẵng [20/04/2024 15:04]

Đặc điểm lâm sàng khô mắt ở bệnh nhân viêm khớp dạng thấp [20/04/2024 15:03]

Đặc điểm tổn thương thần kinh trên lâm sàng và điện cơ ở bệnh nhân rắn cạp nia cắn [20/04/2024 15:01]

Ảnh hưởng của mức độ phân bón và loại phân hữu cơ đến sự thay đổi một số đặc tính dinh dưỡng trong đất, sinh trưởng, năng suất và chất lượng cải Kale rong biển và cải Kale xoăn (Brassica Oleracea var L.) [20/04/2024 14:21]

Nghiên cứu động học suy giảm hàm lượng Polyphenol và hoạt tính sinh học của bột sấy phun cao chiết trâm vỏ đỏ (Syzygium Zeylanicum (L.) DC.) trong điều kiện cưỡng bức [20/04/2024 14:01]

Nghiên cứu bổ sung bột vỏ sầu riêng giống RI6 (Durio zibethinus Murr.) trong chế biến sản phẩm bánh quy [20/04/2024 13:18]

Khảo sát giá trị của tổn thương xương thành xoang trên cắt lớp vi tính trong chẩn đoán viêm xoang do nấm [19/04/2024 16:45]

Đánh giá chất lượng cuộc sống của bệnh nhân sau phẫu thuật cắt dạ dày do ung thư [19/04/2024 14:59]

Xem thêm

Xem nhiều

Hành lang pháp lý - điều kiện cần để phát triển blockchain

Ứng dụng công nghệ blockchain trong xuất nhập khẩu nông sản Tăng cường kết nối là ưu tiên hàng đầu trong phát triển hệ sinh thái khởi nghiệp 85 triệu đồng khích lệ những bạn trẻ khởi nghiệp nông nghiệp