Bao nhiêu ảnh y tế là đủ cho AI học tập?
Theo các nhà phát triển hệ thống AI xử lý ảnh y tế, tới một ngưỡng nào đó, khi tăng số lượng ảnh huấn luyện, hiệu năng của mô hình AI sẽ không tăng đáng kể.
Dữ liệu đóng vai trò quyết định khi huấn huyện AI | Ảnh minh họa : istock
Trong số nhiều ứng dụng về chăm sóc sức khỏe của trí tuệ nhân tạo (AI) và học máy, chẩn đoán hình ảnh y tế có lẽ là lĩnh vực đang có nhiều hứa hẹn nhất.
Khi những công cụ phân tích nâng cao này được sử dụng để giải mã bản chất phức tạp của các bức ảnh X-quang, cộng hưởng từ (MRI), chụp CT và nhiều kết quả xét nghiệm khác, chúng đã chứng minh được khả năng trích xuất những thông tin có ý nghĩa để đưa ra quyết định chẩn đoán hoặc hỗ trợ chẩn đoán. Đôi khi, những kết quả này có độ chính xác cao hơn so với con người.
Tuy nhiên, đào tạo được một hệ thống AI hình ảnh chính xác và hiệu quả không phải là điều dễ dàng. Nó đòi hỏi phải có các tập dữ liệu lớn, được dán nhãn đầy đủ nhưng tương đối khó tiếp cận vì liên quan đến dữ liệu cá nhân. Có thể nói, dữ liệu ảnh y tế là một trong những thách thức mà các nhóm nghiên cứu và công ty công nghệ trong lĩnh vực này cần phải vượt qua.
Về cơ bản, tập dữ liệu đào tạo càng lớn thì độ chính xác của hệ thống AI trong việc phân loại bệnh càng cao. Câu hỏi đặt ra là, cần tối thiểu hoặc tối đa bao nhiêu ảnh y tế để một hệ thống AI có thể học tập hiệu quả?
Một nghiên cứu của TS. Synho Do và các cộng sự tại khoa X-quang, Bệnh viện Đa khoa Massachusetts và Trường Y khoa Harvard công bố năm 2015 đã xem xét vấn đề này. Họ sử dụng các bộ dữ liệu hình ảnh chụp CT về não, cổ, vai, ngực, bụng, và xương chậu chất lượng cao, tăng dần về số lượng (mỗi bộ tăng 1.000 ảnh) để đào tạo các mạng neuron tích chập và xây dựng đường cong học tập của các mạng AI đó.
Các tác giả nhận xét trong báo cáo rằng độ chính xác của AI khi phân loại ảnh tăng nhanh chóng từ kích thước huấn luyện nhỏ ban đầu đến một kích thước nhất định, nhưng không tăng đáng kể khi có kích thước dữ liệu lớn hơn. Sau đó, đường cong học tập đạt đến trạng thái ổn định và không thay đổi nhiều về độ chính xác, bất kể quy mô của dữ liệu đào tạo.
Dựa trên đường cong học tập mà kết quả nghiên cứu vạch ra, họ kết luận rằng cần bắt đầu bằng một tập dữ liệu đào tạo khoảng 5.000 ảnh cho mỗi lớp để có độ chính xác mong muốn (99,5%).
Hầu hết các cơ sở dữ liệu được sử dụng trong các nghiên cứu cho đến nay bị giới hạn ở 10.000 hình ảnh hoặc ít hơn. Các bộ dữ liệu về y tế được chia sẻ miễn phí trên Internet thường khá hạn chế, chỉ tầm 1.000 - 2.000 ảnh và các nhãn ở đó thiên về bệnh lý (có bệnh hay không có bệnh) hơn là các nhãn chỉ ra tổn thương.
Đầu năm 2021, VinBigdata lần đầu tiên mở bộ dữ liệu gần 18.000 ảnh X-quang được thu thập và gán nhãn bởi các bác sĩ chẩn đoán hình ảnh uy tín của Việt Nam cho cộng đồng.
Theo kỹ sư Nguyễn Bá Dũng, Trưởng nhóm Phân tích ảnh y tế tại Trung tâm Xử lý ảnh y tế, VinBigdata, tùy vào module AI y tế, các bộ dữ liệu tầm vài chục ngàn và có độ chính xác 90 - 95% đã có thể gọi là tối ưu cho mô hình AI.
Đồng tình với nhận định này, TS. Phạm Huy Hiệu, chuyên gia nghiên cứu thị giác máy tính tại VinBigdata, dẫn lại kết quả một bài báo liên quan đến xử lý ảnh X-quang phổi của một nhóm nghiên cứu tại Mỹ, trong đó các tác giả đưa ra con số khoảng 25.000 hình ảnh dán nhãn là đủ. Khi tăng lượng hình ảnh dán nhãn lên 30.000, 50.000 và 70.000, các tác giả nhận thấy hiệu năng của thuật toán không thay đổi đáng kể.
Về mặt lý thuyết, càng nhiều dữ liệu và nhãn gắn càng chất lượng thì càng có cơ hội xây dựng những mô hình AI mạnh mẽ. Tuy nhiên, trên thực tế, các nhóm nghiên cứu phải cân nhắc khả năng tài chính để xác định xem có thể thu được bao nhiêu dữ liệu và thuê được bao nhiêu bác sĩ dán nhãn.
Do vậy, theo TS. Phạm Huy Hiệu, nếu một mô hình chỉ sử dụng 25.000 hình ảnh đã đảm bảo đủ hiệu năng và triển khai được trong thực tế thì các nhà phát triển hoàn toàn có thể chấp nhận tập dữ liệu đó mà không nhất thiết phải tăng thêm hình ảnh.
Thông thường, để tăng số lượng và sự đa dạng của dữ liệu đào tạo đầu vào, các nhóm nghiên cứu có thể tạo thêm ảnh mới dựa trên ảnh chất lượng đã có bằng cách sử dụng những phép biến đổi ảnh như cắt ngẫu nhiên, xoay lật, dịch chuyển, thay đổi độ sáng hoặc làm sai mờ ảnh gốc.
Ngô Hà