SỞ KHOA HỌC VÀ CÔNG NGHỆ THÀNH PHỐ CẦN THƠ

Khoa học, công nghệ và Đổi mới sáng tạo - Khơi dậy khát vọng kiến tạo tương lai

AI nào cho Việt Nam?

[07/09/2018 10:30]

Trong khuôn khổ tuần lễ Khoa học dữ liệu do Viện nghiên cứu cao cấp về Toán và trường ĐH Bách khoa HN tổ chức ngày 29/8, GS Hồ Tú Bảo (Viện John von Neumann, ĐHQGTPHCM) đã có buổi nói chuyện tại ĐH Bách khoa HN về AI trong bối cảnh Việt Nam thời kỳ chuyển đổi số.

Giáo sư Hồ Tú Bảo phát biểu tại Diễn đàn ICT Summit 2018. Nguồn: Vietnamnet

Tại buổi nói chuyện đó ông đã nêu một số ý kiến về việc nên chú trọng đầu tư vào những lĩnh vực nào của AI để phù hợp với mục tiêu phát triển đất nước và tình hình phát triển AI ở Việt Nam.

AI và hạ tầng số

Theo giáo sư Hồ Tú Bảo, AI là một lĩnh vực của khoa học máy tính, lĩnh vực mà người ta muốn làm cho máy - những thực thể tri thức, có trí thông minh của con người nhằm đem lại khả năng suy luận; khả năng giải quyết vấn đề; khả năng nhận thức những vấn đề ví dụ như nghe, nhìn, nói, liên quan đến giác quan của con người; khả năng hiểu ngôn ngữ tự nhiên; khả năng học tập.

Tuy nhiên, muốn AI phát huy được những khả năng này, cần phải có dữ liệu vì nó phụ thuộc vào dữ liệu để có thể thực hiện được các thuật toán phân tích. Vì thế, trong Diễn đàn ICT Summit 2018 tại Hà Nội vào trung tuần tháng 7 vừa qua, giáo sư Hồ Tú Bảo đã đề nghị cần phải có hạ tầng số với các thành phần để xây dựng hạ tầng số gồm hạ tầng thiết bị (máy móc điện tử, thiết bị kết nối…), hạ tầng dữ liệu (cơ sở dữ liệu, quy trình vận hành dữ liệu, công nghệ về dữ liệu…), hạ tầng pháp lý (các quy định về luật pháp cho việc sử dụng dữ liệu, cách thức ứng dụng AI trong từng lĩnh vực…), hạ tầng nhân lực. hạ tầng ứng dụng (công cụ để khai thác dữ liệu đã có, một phần của công nghệ AI, của Big Data...).

Giáo sư Hồ Tú Bảo giải thích vì sao ông lại coi vấn đề này đóng vai trò quan trọng: “Sau khi trao đổi rất nhiều, tôi cho rằng trong thời chuyển đổi số có 6 phần phải chú ý: một là máy móc, thứ hai là phải kết nối, thứ ba là dữ liệu, thứ tư là ứng dụng, thứ năm là pháp lý và thứ sáu là nhân lực. Và điều quan trọng trong việc xây hạ tầng là phải xác định được cái lộ trình cho đúng để không phải xây xong lại phá đi làm lại”.

“Lộ trình đúng” mà ông nêu không chỉ dành cho việc xây dựng hạ tầng số mà còn là định hướng để có được bước phát triển hoàn hảo, tận dụng được lợi thế của những yếu tố đã được gây dựng trước để phát huy những yếu tố tiếp theo: có được hạ tầng số sẽ tạo điều kiện thuận lợi và và những cơ sở cho chính phủ số và sau đó, khuyến khích doanh nghiệp cùng tham gia khai thác những yếu tố này để xây dựng nền kinh tế số. Đây cũng là cách thức mà Estonia – một trong những quốc gia năng động và sớm có được lộ trình phát triển đúng, đã có được chính phủ số và những yếu tố ban đầu của nền kinh tế số.

Tuy nhiên, giáo sư Hồ Tú Bảo nhận xét, hiện nay nhận thức về chuyển đổi số và hạ tầng số ở các cấp, các ngành vẫn còn chưa đúng với bản chất, “hạ tầng mà mọi người nghĩ vẫn là trên phương diện thế giới vật lý (physical world), nghĩa là đường cao tốc, bến cảng, sân bay,… Chưa ai nghĩ đến vấn đề: thời từ bây giờ trở đi, chúng ta còn phải ‘sống’ trong hạ tầng số nữa”. Do chưa nhận thức đầy đủ và đúng bản chất nên Việt Nam chưa có hạ tầng số.

Cần các kho dữ liệu có khả năng chia sẻ và mở

AI cần dữ liệu nhưng ở Việt Nam chưa có những kho dữ liệu đúng nghĩa để AI có thể triển khai được các thuật toán thông minh. “Dữ liệu thì từ quốc gia địa phương đến các bộ ngành, các doanh nghiệp chúng ta nói chung đều thiếu, không liên kết được với nhau và đều ở dưới dạng phức tạp”, giáo sư Hồ Tú Bảo nhắc lại một hiện tượng phổ biến ở Việt Nam.

Vậy làm cách nào để hạn chế được hiện trạng này khi mỗi bộ, ngành đều cần tạo dựng dữ liệu riêng? Đây là một phần của “câu chuyện kết nối và chia sẻ dữ liệu”, ông cho biết, “các bộ ngành, địa phương nên xây dựng dữ liệu từ dưới lên (bottom up), nối với nhau tạo thành dữ liệu quốc gia, ngoài ra thì phải nối với dữ liệu của ‘thiên hạ’ nữa”.

Để làm tốt việc này, cần phải đáp ứng được hai yêu cầu cơ bản: thứ nhất là tạo dựng các bộ dữ liệu theo cùng một chuẩn; thứ hai là để đảm bảo chia sẻ dữ liệu, cần có sẵn những thuật toán chia sẻ và mở trong mỗi kho dữ liệu nhằm “xác định cái gì phải đóng, cái gì phải chia sẻ và mở”.

Trong bài viết “Châu Á là nhà tiên phong tiếp theo trong phát triển AI” trên trang news.microsoft.com mới đây, ông Ralph Haupter, chủ tịch Microsoft châu Á lưu ý, việc tạo dựng các cơ sở dữ liệu là cần thiết để phát triển AI, tuy nhiên để tối ưu được các kho dữ liệu này, cần đảm bảo được sáu yếu tố là tính công bằng, sự tin cậy và độ an toàn, bảo mật - quyền riêng tư, tính minh bạch và sự trách nhiệm.

AgriMedia cung cấp thông tin thời tiết và nguy cơ sâu bệnh cho các trang trại, nông trường. Nguồn: vietbao.vn

Trong quá trình hợp tác với các đơn vị ở Việt Nam, giáo sư Hồ Tú Bảo nhận xét, một trong những cơ sở dữ liệu mà Việt Nam làm khá tốt hiện nay là cơ sở dữ liệu giáo dục. So với những lĩnh vực ngành nghề khác, đặc biệt là y tế với quá nhiều dữ liệu trong nhiều khuôn dạng, khó chuẩn hóa vì có thể thuộc dạng có cấu trúc và phi cấu trúc, cách định nghĩa dữ liệu không đồng nhất và luôn thay đổi, thậm chí dữ liệu không đầy đủ và thiếu khách quan do sự thay đổi về các quy định và yêu cầu trong cách thức khám chữa ở mỗi bệnh viện và trong mỗi thời kỳ rất khác nhau..., thì dữ liệu giáo dục tương đối thuần nhất.

Điều căn bản là “cơ sở dữ liệu họ nhập vào gồm bốn thành phần chính là trường (khoảng 44.000 trường phổ thông trở xuống), lớp (khoảng 160.000 lớp), thầy cô giáo (hơn 1 triệu thầy cô), học sinh (khoảng 23 triệu). Với sự đơn giản hóa này, ngành giáo dục đã có một bộ dữ liệu “rất chi tiết, rất tốt, khá nhất trong các bộ ngành hiện nay”.

Triển khai ứng dụng AI như thế nào?

Về bản chất, việc ứng dụng AI trong các lĩnh vực ngành nghề là đưa ra những quyết định dựa trên các mô hình toán học được triển khai trên các kho dữ liệu và tương tác với người dùng. Hiện tại, trong mọi lĩnh vực ngành nghề, việc lập các chiến lược, kế hoạch phát triển hay việc thực thi nó… đều cần phải bắt nguồn từ những quyết định dựa trên những cơ sở thực tế như vậy. Do đó, việc phát triển AI theo hướng nào sẽ phụ thuộc vào chính các nhà hoạch định chính sách và các chuyên gia tư vấn – những người xác định được hướng phát triển trong từng lĩnh vực ưu tiên.

Ở góc độ một nhà nghiên cứu giàu kinh nghiệm từng hợp tác với nhiều nhóm nghiên cứu quốc tế và theo dõi một số dự án lớn trên thế giới, giáo sư Hồ Tú Bảo cho rằng, Việt Nam có thể tập trung phát triển AI trên những lĩnh vực quan trọng và thiết thực với mình, như nông nghiệp, y tế, du lịch, kiểm soát rủi ro thiên tai, triển khai các dịch vụ công…

Ví dụ trên cơ sở thành công bước đầu của ngành giáo dục, ông nhận xét, ngành nông nghiệp cũng nên xây dựng dữ liệu theo phương thức ấy nhưng với những điều chỉnh cụ thể để có được dữ liệu toàn ngành trên bình diện quốc gia trong những lĩnh vực quản lý, đặc biệt trong những lĩnh vực “át chủ bài” của nền nông nghiệp Việt Nam: chăn nuôi gia súc gia cầm, sản xuất lúa gạo hoa màu, nuôi trồng thủy sản, trồng cây ăn trái…

Vậy trong trường hợp này AI sẽ làm gì? Giáo sư Hồ Tú Bảo giải thích, đó là khả năng “xử lý rất nhanh thông tin về thị trường cung cầu đang diễn ra bên ngoài”, ví dụ như trong trường hợp nuôi lợn và xuất lợn hơi thì việc có được dữ liệu, có được các thuật toán AI sẽ có thể đánh giá, lựa chọn quyết định để tránh sự thiệt hại lớn nhất cho người nuôi, tránh được chuyện thịt lợn rớt giá.

Tuy nhiên, ông cũng lưu ý, trước khi nghĩ đến việc phát triển AI trong những lĩnh vực ưu tiên, cần chú trọng đến những tiêu chuẩn của dữ liệu. Ví dụ trong việc kiểm soát rủi ro thiên tai, câu chuyện không phải riêng của ngành nông nghiệp, xây dựng mà là “câu chuyện của văn phòng chính phủ, các tỉnh, các địa phương và liên quan đến rất nhiều quyết định phức tạp”, theo giáo sư Hồ Tú Bảo.

Ông phân tích, ví dụ như ở cấp tỉnh phải có dữ liệu của Sở Y tế, Sở Giáo dục, Sở Tài nguyên, Sở Tài chính, tất cả đều tạo ra cơ sở dữ liệu dùng chung của tỉnh để những người lãnh đạo có thể dựa vào đó ra quyết định và lựa chọn kịch bản ứng phó một cách kịp thời, đúng lúc và tránh nguy cơ rủi ro về người và tài sản. Do đó, ông cho rằng, “đây là câu chuyện cũng rất đau đầu, vì đây không còn là các dữ liệu đơn lẻ nữa, nó phải được kết nối và tạo ra được sự linh hoạt cho người sử dụng”.

Về cấu trúc dữ liệu được kết nối nhanh, giáo sư Hồ Tú Bảo đề cập đến mô hình của Estonia - mô hình phân tán dữ liệu trên sự tập trung liên quan đến sự tổ chức, sự quản trị kết nối với nhau thông qua một môi trường, “nhìn rộng ra, tất cả các bộ ngành phải xây dựng theo kiểu tập trung, tất cả những cái này có thể kết nối”.

Mặt khác, trong quá trình số hóa dữ liệu, ông nhận thấy rằng bản thân quá trình đó ảnh hưởng nhiều đến các quốc gia, đặc biệt là bản thân ngành KH&CN cũng chịu ảnh hưởng khi buộc phải theo kịp các ngành khác trong việc số hóa. Nhìn rộng ra, những quốc gia còn nhiều lạc hậu, còn chưa kịp chuẩn bị cho mình hành trang về KH&CN, về hạ tầng số nói riêng và về trình độ quản lý sẽ dễ bị tụt hậu.

Trên thế giới hiện nay phổ biến một khái niệm mới, “khoảng cách số” (digital divide), khoảng cách số toàn cầu (global digital divide) - tình trạng bất bình đẳng trong kinh tế và xã hội từ khả năng truy cập và sử dụng các công nghệ thông tin và truyền thông, dùng để so sánh các quốc gia phát triển với các quốc gia đang phát triển. Xét trên phương diện đó thì “Việt Nam là một trong những quốc gia bị tổn thương trong sự thay đổi của chuyển đổi số rất nhiều”, giáo sư Hồ Tú Bảo lưu ý.

Trên cơ sở phân tích khả năng dùng công nghệ số và mức độ áp dụng công nghệ số, ông cho rằng, dù nhân công trong lĩnh vực nông nghiệp thông minh có khả năng áp dụng công nghệ số rất cao nhưng ở Việt Nam, mức độ sử dụng công nghệ số lại rất thấp, “nói chung với nông nghiệp thông minh hay du lịch thông minh thì giới nghiên cứu đều đánh giá có rất nhiều khả năng dùng công nghệ số nhưng để tận dụng nó thì cần có được những yếu tố để tăng cường mức độ áp dụng công nghệ số”, mà điều đó có nghĩa là Việt Nam cần phải có hạ tầng số, dữ liệu, nhân lực…

“Đó là cái đích mà tôi nghĩ là AI nên làm chuyện như vậy”, giáo sư Hồ Tú Bảo nêu vấn đề trọng tâm cần giải quyết của Việt Nam trong việc tiếp cận AI.

Muốn có dữ liệu cần phải tiến hành số hóa các dữ liệu, thông tin trên giấy tờ hồ sơ. Hiện nay, TPHCM đang xây dựng cơ sở dữ liệu dùng chung, trong đó có cơ sở dữ liệu người dân, khoảng 2 triệu hồ sơ về sổ đỏ. Công việc này sẽ hết sức phức tạp vì số lượng công văn giấy tờ rất lớn, trung bình một ngày chỉ riêng văn phòng UBND thành phố HCM nhận khoảng 1.500 hồ sơ các loại. Nếu được số hóa những tập dữ liệu này và đưa nó vào khai thác thì có thể trả lời nhiều câu hỏi, ví dụ như TPHCM có bao nhiêu gia đình mà có diện tích sổ đỏ trên 500m2, hay là 2 triệu người giữ sổ đỏ này chiếm bao nhiêu diện tích của thành phố? diện tích đất công là bao nhiêu? Chỉ khi tiến hành số hóa các dữ liệu thành công thì chúng ta mới có đủ cơ sở để trả lời được những câu hỏi dù rất đơn giản như vậy.

www.khoahocphattrien.vn(lntrang)
Bản quyền @ 2017 thuộc về Sở Khoa học và Công nghệ thành phố Cần Thơ
Địa chỉ: Số 02, Lý Thường kiệt, phường Tân An, quận Ninh Kiều, thành phố Cần Thơ
Điện thoại: 0292.3820674, Fax: 0292.3821471; Email: sokhcn@cantho.gov.vn
Trưởng Ban biên tập: Ông Trần Đông Phương An - Phó Giám đốc Sở Khoa học và Công nghệ thành phố Cần Thơ