SỞ KHOA HỌC VÀ CÔNG NGHỆ THÀNH PHỐ CẦN THƠ

Khoa học, công nghệ và Đổi mới sáng tạo - Khơi dậy khát vọng kiến tạo tương lai

Tăng cường niềm tin vào các mô hình học máy

[03/04/2023 08:36]

Phó giáo sư Tamara Broderick và các đồng nghiệp đã xây dựng một “phân loại niềm tin” để xác định nơi niềm tin vào kết quả phân tích dữ liệu có thể bị phá vỡ.

Trí tuệ nhân tạo – khái niệm nghệ thuật. 

Các phương pháp học máy xác suất đang ngày càng trở thành công cụ mạnh mẽ trong phân tích dữ liệu, đưa ra các quyết định quan trọng khác nhau trong các lĩnh vực và ứng dụng, từ dự đoán kết quả bầu cử đến dự đoán tác động của các khoản vay nhỏ đối với việc giải quyết nghèo đói.

Loại phương pháp này sử dụng các khái niệm phức tạp từ lý thuyết xác suất để xử lý sự không chắc chắn trong quá trình ra quyết định. Nhưng toán học chỉ là một phần của câu đố trong việc xác định độ chính xác và hiệu quả của chúng.

Trong một phân tích dữ liệu điển hình, các nhà nghiên cứu đưa ra nhiều lựa chọn chủ quan hoặc có khả năng đưa ra lỗi của con người, cũng phải được đánh giá để tạo niềm tin của người dùng vào chất lượng của các quyết định dựa trên các phương pháp này.

Để giải quyết vấn đề này, nhà khoa học máy tính Tamara Broderick của MIT, phó giáo sư tại Khoa Kỹ thuật Điện và Khoa học Máy tính (EECS) và là thành viên của Phòng thí nghiệm Hệ thống Quyết định và Thông tin (LIDS), cùng một nhóm các nhà nghiên cứu đã phát triển một hệ thống phân loại. — một “phân loại niềm tin” — xác định nơi niềm tin có thể bị phá vỡ trong quá trình phân tích dữ liệu và xác định các chiến lược để củng cố niềm tin ở mỗi bước.

Các nhà nghiên cứu khác trong dự án hy vọng của nhóm là làm nổi bật những mối quan tâm đã được nghiên cứu kỹ lưỡng và những mối quan tâm cần được chú ý nhiều hơn.

Trong  bài báo của họ, được xuất bản vào tháng 2 trên  tạp chí Science Advances, các nhà nghiên cứu bắt đầu bằng cách trình bày chi tiết các bước trong quy trình phân tích dữ liệu, nơi mà niềm tin có thể bị phá vỡ: -vấn đề hoặc câu hỏi trong cuộc sống mà họ đang nhắm đến để trả lời. Họ chọn các thuật toán để phù hợp với mô hình và sử dụng mã để chạy các thuật toán đó.

Mỗi bước này đặt ra những thách thức riêng xung quanh việc xây dựng lòng tin. Một số thành phần có thể được kiểm tra độ chính xác theo những cách có thể đo lường được. Ví dụ: “Mã của tôi có lỗi không?” là một câu hỏi có thể được kiểm tra dựa trên các tiêu chí khách quan. Những lần khác, các vấn đề mang tính chủ quan hơn, không có câu trả lời rõ ràng; các nhà phân tích phải đối mặt với nhiều chiến lược để thu thập dữ liệu và quyết định xem một mô hình có phản ánh thế giới thực hay không.

Chụp cuộc sống thực trong một mô hình

Công việc của các nhà nghiên cứu trong việc phân loại nơi niềm tin bị phá vỡ, mặc dù có vẻ trừu tượng, bắt nguồn từ ứng dụng trong thế giới thực.

Meager, đồng tác giả của bài báo, đã phân tích liệu tài chính vi mô có thể có tác động tích cực trong cộng đồng hay không. Dự án đã trở thành một nghiên cứu điển hình về nơi niềm tin có thể bị phá vỡ và các cách để giảm thiểu rủi ro này.

Thoạt nhìn, đo lường tác động của tài chính vi mô có vẻ như là một nỗ lực đơn giản. Nhưng giống như bất kỳ phân tích nào, các nhà nghiên cứu gặp phải những thách thức ở mỗi bước trong quy trình có thể ảnh hưởng đến niềm tin vào kết quả. Tài chính vi mô — trong đó các cá nhân hoặc doanh nghiệp nhỏ nhận các khoản vay nhỏ và các dịch vụ tài chính khác thay cho dịch vụ ngân hàng thông thường — có thể cung cấp các dịch vụ khác nhau, tùy thuộc vào chương trình.

Để phân tích, Meager đã thu thập các bộ dữ liệu từ các chương trình tài chính vi mô ở các quốc gia trên toàn cầu, bao gồm Mexico, Mông Cổ, Bosnia và Philippines.

Các nhà nghiên cứu phải đánh giá liệu các nghiên cứu trường hợp cụ thể có thể phản ánh các xu hướng rộng lớn hơn hay không khi kết hợp các bộ dữ liệu rõ ràng khác biệt, trong trường hợp này là từ nhiều quốc gia và trên các nền văn hóa và khu vực địa lý khác nhau. Nó cũng quan trọng để bối cảnh hóa dữ liệu có sẵn. Ví dụ, ở vùng nông thôn Mexico, sở hữu dê có thể được coi là một khoản đầu tư.

Với dữ liệu có sẵn, các nhà phân tích phải xác định các câu hỏi trong thế giới thực mà họ tìm cách trả lời. Trong trường hợp đánh giá lợi ích của tài chính vi mô, các nhà phân tích phải xác định những gì họ coi là một kết quả tích cực. Ví dụ, tiêu chuẩn trong kinh tế học là đo lường lợi ích tài chính trung bình trên mỗi doanh nghiệp trong các cộng đồng nơi chương trình tài chính vi mô được triển khai.

Nhưng báo cáo mức trung bình có thể cho thấy tác động tích cực ròng ngay cả khi chỉ một số ít (hoặc thậm chí một) người được hưởng lợi, thay vì toàn bộ cộng đồng.

Các nhà phân tích có thể ủng hộ một cách có ý thức hoặc vô thức các mô hình mà họ quen thuộc, đặc biệt là sau khi đã đầu tư rất nhiều thời gian để tìm hiểu thông tin chi tiết về chúng.

Bước cuối cùng, kiểm tra mã

Broderick nói: Mặc dù việc chắt lọc một vấn đề thực tế thành một mô hình có thể là một vấn đề lớn, vô định hình, nhưng việc kiểm tra mã chạy một thuật toán có thể cảm thấy “tầm thường”. Nhưng đó là một lĩnh vực khác có khả năng bị bỏ qua mà niềm tin có thể được củng cố.

Trong một số trường hợp, việc kiểm tra một quy trình mã hóa thực thi một thuật toán có thể được coi là nằm ngoài phạm vi công việc của nhà phân tích, đặc biệt là khi có tùy chọn sử dụng các gói phần mềm tiêu chuẩn.

Một cách để bắt lỗi là kiểm tra xem mã có thể tái tạo được hay không. Tuy nhiên, tùy thuộc vào lĩnh vực, việc chia sẻ mã cùng với tác phẩm đã xuất bản không phải lúc nào cũng là một yêu cầu hoặc tiêu chuẩn. Khi các mô hình tăng độ phức tạp theo thời gian, việc tạo lại mã từ đầu sẽ trở nên khó khăn hơn. Tái tạo một mô hình trở nên khó khăn hoặc thậm chí là không thể.

Đồng tác giả của bài báo, Gelman, đã thực hiện một phân tích dự báo cuộc bầu cử tổng thống Hoa Kỳ năm 2020 bằng cách sử dụng các cuộc thăm dò cấp bang và quốc gia trong thời gian thực.

Nhóm đã xuất bản các bản cập nhật hàng ngày trên  tạp chí The Economist, đồng thời xuất bản mã của họ trực tuyến để bất kỳ ai cũng có thể tải xuống và tự chạy. Trong suốt mùa giải, những người ngoài cuộc đã chỉ ra cả lỗi và các vấn đề về khái niệm trong mô hình, cuối cùng góp phần tạo nên một phân tích mạnh mẽ hơn.

Các nhà nghiên cứu thừa nhận rằng mặc dù không có giải pháp duy nhất nào để tạo ra một mô hình hoàn hảo, nhưng các nhà phân tích và nhà khoa học có thể củng cố niềm tin ở hầu hết mọi khía cạnh.

https://www.technology.org/ (vny)
Bản quyền @ 2017 thuộc về Sở Khoa học và Công nghệ thành phố Cần Thơ
Địa chỉ: Số 02, Lý Thường kiệt, phường Tân An, quận Ninh Kiều, thành phố Cần Thơ
Điện thoại: 0292.3820674, Fax: 0292.3821471; Email: sokhcn@cantho.gov.vn
Trưởng Ban biên tập: Ông Trần Đông Phương An - Phó Giám đốc Sở Khoa học và Công nghệ thành phố Cần Thơ