Hóa đơn điện của AI nay dễ dự đoán hơn trước làn sóng trung tâm dữ liệu mới
Sự bùng nổ của trí tuệ nhân tạo (AI) đang khiến nhu cầu điện năng tăng mạnh. Theo ước tính của Phòng thí nghiệm Quốc gia Lawrence Berkeley, đến năm 2028, các trung tâm dữ liệu có thể tiêu thụ tới 12% tổng lượng điện của Hoa Kỳ. Một trong những giải pháp để AI phát triển bền vững là cải thiện hiệu quả năng lượng của các trung tâm dữ liệu.
Nhằm đạt mục tiêu này, các nhà nghiên cứu từ MIT và MIT-IBM Watson AI Lab đã phát triển một công cụ dự đoán nhanh, giúp các nhà vận hành trung tâm dữ liệu ước tính lượng điện tiêu thụ khi chạy một tác vụ AI trên bộ xử lý hoặc chip tăng tốc AI cụ thể. Phương pháp này cho ra kết quả chỉ trong vài giây, thay vì mất hàng giờ hay thậm chí nhiều ngày như các kỹ thuật mô phỏng truyền thống. Đặc biệt, công cụ có thể áp dụng cho nhiều cấu hình phần cứng khác nhau, kể cả những thiết kế mới chưa được triển khai.
Nhờ đó, các nhà vận hành có thể phân bổ tài nguyên hợp lý hơn giữa nhiều mô hình AI và bộ xử lý, nâng cao hiệu quả năng lượng. Đồng thời, các nhà phát triển thuật toán cũng có thể đánh giá mức tiêu thụ điện tiềm năng trước khi đưa mô hình vào sử dụng.
“Thách thức về tính bền vững của AI là câu hỏi cấp bách cần lời giải. Vì phương pháp của chúng tôi nhanh, tiện lợi và cung cấp phản hồi trực tiếp, chúng tôi hy vọng sẽ thúc đẩy các nhà phát triển và vận hành trung tâm dữ liệu chú trọng hơn đến việc giảm tiêu thụ năng lượng,” Kyungmi Lee, nghiên cứu sinh sau tiến sĩ tại MIT và tác giả chính của công trình chia sẻ.
Nghiên cứu này được trình bày tại Hội nghị quốc tế IEEE về Phân tích hiệu năng hệ thống và phần mềm.
Tăng tốc dự đoán năng lượng
Trong trung tâm dữ liệu, hàng nghìn GPU mạnh mẽ thực hiện các phép tính để huấn luyện và triển khai mô hình AI. Mức tiêu thụ điện của một GPU phụ thuộc vào cấu hình và khối lượng công việc. Các phương pháp truyền thống thường mô phỏng chi tiết từng bước, nhưng với khối lượng khổng lồ của AI, quá trình này có thể kéo dài nhiều ngày.
Để rút ngắn thời gian, nhóm nghiên cứu MIT đã tận dụng các mẫu lặp lại trong tác vụ AI. Họ nhận thấy các thuật toán thường được tối ưu hóa để chạy hiệu quả trên GPU, tạo ra cấu trúc đều đặn. Từ đó, nhóm phát triển mô hình nhẹ mang tên EnergAIzer, có khả năng nắm bắt mẫu tiêu thụ điện từ những tối ưu hóa này.

Đánh giá chính xác
Tuy nhanh chóng, mô hình ban đầu chưa tính hết các chi phí năng lượng cố định, như khi GPU khởi chạy chương trình hay xử lý dữ liệu. Ngoài ra, sự biến động phần cứng hoặc xung đột truy cập dữ liệu cũng làm tăng mức tiêu thụ điện. Để khắc phục, nhóm đã thu thập số liệu thực từ GPU và bổ sung các hệ số hiệu chỉnh.
Kết quả, EnergAIzer có thể đưa ra dự đoán chỉ trong vài giây với sai số khoảng 8%, tương đương các phương pháp truyền thống nhưng nhanh hơn rất nhiều. Công cụ này còn có thể áp dụng cho các GPU thế hệ mới và cấu hình thiết bị đang phát triển, miễn là phần cứng không thay đổi quá đột ngột.
Trong tương lai, nhóm nghiên cứu muốn mở rộng EnergAIzer để áp dụng cho nhiều GPU phối hợp xử lý cùng lúc, hướng tới một giải pháp dự đoán năng lượng nhanh và chính xác cho cả nhà thiết kế phần cứng, nhà vận hành trung tâm dữ liệu và nhà phát triển thuật toán.
“Để tạo tác động thực sự đến tính bền vững, chúng ta cần một công cụ dự đoán năng lượng nhanh trên toàn bộ hệ thống. EnergAIzer là bước đi đầu tiên hướng tới mục tiêu đó,” Lee khẳng định.