Xây dựng chùm cho dữ liệu ảnh từ khoảng hai chiều được trích xuất
Nhận dạng ảnh có vai trò rất quan trọng trong cuộc cách mạng số hiện nay vì nó là nền tảng của nhiều ứng dụng thực tế. Nghiên cứu này đề nghị việc nhận dạng ảnh bởi khoảng hai chiều được trích xuất từ đặc trưng kết cấu.
Dựa vào khoảng cách chồng lấp và đặc trưng khoảng được trích xuất, một thuật toán phân tích chùm mờ cho ảnh được đề nghị. Thuật toán này có thể xác định số chùm thích hợp phải chia cho một tập ảnh, những ảnh cụ thể trong mỗi chùm và xác suất thuộc vào các chùm của mỗi ảnh. Thuật toán đề nghị được trình bày chi tiết từng bước về mặt lý thuyết và được minh hoạ bởi ví dụ số. Thực hiện trên một tập ảnh cụ thể, thuật toán đề nghị đã cho kết quả tốt nhất trong so sánh với các thuật toán gần đây. Nghiên cứu này có thể triển khai cho nhiều vấn đề thực tế liên quan đến nhận dạng ảnh.
Phân tích chùm là một bước phát triển quan trọng của nhận dạng thống kê và khoa học dữ liệu. Nó phân chia dữ liệu thành các nhóm sao cho những phần tử trong cùng một nhóm có sự tương tự nhiều hơn so với những phần tử của nhóm khác. Vì phân tích chùm được xem là bước đầu tiên trong xử lí dữ liệu lớn nên nhận được rất nhiều sự quan tâm của các nhà thống kê và công nghệ thông tin (Cabanes et al, 2013; Tai & Thao, 2018a). Đối tượng của phân tích chùm có thể là các phần tử rời rạc, các hàm mật độ xác suất và các khoảng. Phân tích chùm cho các phần tử rời rạc (CDE) được nghiên cứu đầu tiên với nhiều kết quả cả về mặt lý thuyết và ứng dụng (Tai & Thao, 2018b; Tai et al, 2019). Đối với dữ liệu lớn và phức tạp như hình ảnh, mỗi đối tượng cần được xem là một phân phối, phân tích chùm cho hàm mật độ xác suất (CDF) được đề xuất. CDF đã cho thấy những lợi thế trong một số trường hợp ứng dụng thực tế so với CDE. Những kết quả quan trọng trong những năm gần đây đối với CDF được nghiên cứu trong Montanari and Calo (2013) và Tai et al. (2017).
Bên cạnh hai loại dữ liệu trên, trong sự phát triển kinh tế xã hội, chúng ta cũng lưu trữ nhiều dữ liệu khoảng như nhiệt độ, lượng mưa, đỉnh lũ, …. Những dữ liệu này đòi hỏi phải có thuật toán phân tích chùm cho dữ liệu khoảng (CID). So với CDE và CDF thì CID đã được đề xuất muộn hơn nhiều. Tuy nhiên, nó cũng nhận được sự quan tâm lớn của các nhà thống kê trong những năm gần đây (De Carvalho et al., 2007; Ren et al., 2009; Hung et al., 2016). Tất cả các phương pháp trên đã sử dụng khoảng cách Euclide, Hausdorff, City-block để xây dựng thuật toán, nhưng khoảng cách chồng lấp chưa được quan tâm. Bên cạnh đó, hầu hết các nhà nghiên cứu vẫn chưa đề xuất được phương pháp xác định số lượng chùm, ngoại trừ nghiên cứu của Hung et al. (2016). Các thuật toán trên cũng có hạn chế khi các khoảng có sự chồng lấp nhiều. Vì vậy với đối tượng phức tạp như hình ảnh, chúng thường cho kết quả sai lầm cao.
Với sự phát triển mạnh mẽ của các thiết bị ghi hình, dữ liệu ảnh ngày càng trở nên rất phổ biến. Trong xử lý dữ liệu, hình ảnh được đặc biệt coi trọng vì nó là nền tảng của nhiều ứng dụng thực tế trong các lĩnh vực. Nhận dạng ảnh là cơ sở quan trọng để áp dụng trong nông nghiệp, y học, an ninh và môi trường (Arivazhagan et al., 2010). Có rất nhiều phương pháp để phân loại một tập hợp ảnh thành các nhóm khác nhau. Hầu hết các phương pháp này dựa trên trích xuất các đặc trưng của ảnh như màu sắc, kết cấu và hình dạng. Khi các đặc trưng được trích xuất, chúng thường được biểu diễn dưới dạng ma trận số (Setia et al., 2006; Eleyan & Demirel, 2011;). Việc nhận dạng ảnh từ ma trận số có hạn chế về chi phí tính toán và mức độ chính xác. Khi ảnh di động hoặc bị xoay, nhận dạng ảnh từ ma trận số gặp rất nhiều khó khăn (Engin & Cavusoglu, 2019; Fadl et al., 2020). Một hướng biểu diễn khác là trích xuất ảnh thành hàm mật độ xác xuất (Tai et al., 2017, 2018a). Hướng nghiên cứu này có thể khắc phục được việc trích xuất ảnh thành ma trận, tuy nhiên nó lại phát sinh thêm khó khăn mới. Đó là vấn đề ước lượng hàm mật độ xác suất. Mặc dù có rất nhiều nghiên cứu về vấn đề này, tuy nhiên cho đến nay vẫn còn nhiều hạn chế. Trong bài viết này, từ một ảnh đã cho, kết cấu của nó được tríc xuất thành một khoảng hai chiều. Khoảng này được sử dụng để đại diện cho ảnh sẽ làm giảm bộ nhớ được sử dụng trong quá trình xử lý. Các khoảng được trích xuất cho tập ảnh sẽ được sử dụng làm đầu vào cho thuật toán phân tích chùm mờ.
Để xây dựng chùm khoảng, điều quan trọng nhất là tìm ra một độ đo thích hợp đánh giá mức độ giống nhau của các phần tử. Nghiên cứu này đề xuất sử dụng khoảng cách chồng lấp trong trường hợp một chiều và nhiều chiều như một tiêu chuẩn để xây dựng chùm. Trong nhiều trường hợp, khoảng cách này rất phù hợp với nhiều tập dữ liệu khoảng và có lợi thế hơn so với các khoảng cách khác. Dựa trên tiêu chuẩn này, thuật toán phân tích chùm mờ cho ảnh được đề xuất. Thuật toán có thể xác định số lượng chùm thích hợp cho mỗi tập ảnh, các ảnh cụ thể trong mỗi chùm và xác suất thuộc vào các chùm của mỗi ảnh. Thuật toán đề xuất được thực hiện trên chương trình Matlab đã được thiết lập, được trình bày chi tiết từng bước và được minh hoạ bởi ví dụ số. Ví dụ số cũng cho thấy ưu điểm của thuật toán đề nghị khi so sánh với các thuật toán phổ biến khác.
nqhuy
Tạp chí Khoa học Trường Đại học Cần Thơ, Tập 58, Số 5A (2022): 22-30