ISO/IEC 8183:2023 : Khung vòng đời dữ liệu cho trí tuệ nhân tạo
ISO/IEC 8183:2023 : Khung vòng đời dữ liệu cho trí tuệ nhân tạo
Dữ liệu được xem là "nhiên liệu" của trí tuệ nhân tạo (AI). Chất lượng dữ liệu quyết định trực tiếp đến chất lượng của mô hình AI, khả năng dự đoán, mức độ công bằng, tính minh bạch và độ tin cậy của hệ thống.
Tuy nhiên, trong thực tế, nhiều tổ chức vẫn tập trung vào thuật toán và mô hình AI mà chưa xây dựng được một quy trình quản lý dữ liệu xuyên suốt vòng đời của hệ thống AI.
Để giải quyết vấn đề này, ISO và IEC đã ban hành ISO/IEC 8183:2023 – Artificial Intelligence — Data Life Cycle Framework.
Tiêu chuẩn cung cấp một khung vòng đời dữ liệu toàn diện cho AI, giúp các tổ chức quản lý dữ liệu từ khi được tạo ra, thu thập, xử lý, sử dụng cho đến khi lưu trữ hoặc loại bỏ.
Đây được xem là một trong những tiêu chuẩn nền tảng hỗ trợ xây dựng AI đáng tin cậy (Trustworthy AI) và hệ thống quản lý AI theo ISO/IEC 42001.

Nhiều rủi ro AI hiện nay xuất phát từ dữ liệu thay vì thuật toán.
Ví dụ:
Dữ liệu thiếu chính xác.
Dữ liệu không đầy đủ.
Dữ liệu lỗi thời.
Thiên vị dữ liệu (Bias).
Dữ liệu không đại diện.
Thiếu khả năng truy xuất nguồn gốc dữ liệu.
Khi dữ liệu có vấn đề, ngay cả những mô hình AI tiên tiến nhất cũng có thể tạo ra kết quả sai lệch.
ISO/IEC 8183 được xây dựng nhằm giúp tổ chức quản lý dữ liệu một cách có hệ thống trong toàn bộ vòng đời AI.
Tiêu chuẩn hướng đến:
Thiết lập khung vòng đời dữ liệu cho AI.
Chuẩn hóa hoạt động quản lý dữ liệu.
Hỗ trợ nâng cao chất lượng dữ liệu.
Giảm thiểu rủi ro liên quan đến dữ liệu AI.
Hỗ trợ truy xuất nguồn gốc dữ liệu.
Tăng tính minh bạch và khả năng giải trình.
Hỗ trợ triển khai AI đáng tin cậy.
Dữ liệu đóng vai trò trung tâm trong toàn bộ vòng đời AI.
Dữ liệu được sử dụng để:
Huấn luyện mô hình AI.
Kiểm thử mô hình.
Đánh giá hiệu suất.
Giám sát hoạt động.
Cải tiến mô hình theo thời gian.
Chất lượng dữ liệu ảnh hưởng trực tiếp đến:
Độ chính xác.
Độ tin cậy.
Công bằng.
Khả năng giải thích.
Hiệu quả vận hành.
Do đó, quản lý dữ liệu hiệu quả là điều kiện tiên quyết để xây dựng AI chất lượng cao.
Đây là bước đầu tiên trong vòng đời dữ liệu.
Tổ chức cần xác định:
Mục tiêu sử dụng dữ liệu.
Loại dữ liệu cần thiết.
Nguồn dữ liệu.
Yêu cầu chất lượng dữ liệu.
Yêu cầu pháp lý và tuân thủ.
Việc xác định đúng yêu cầu giúp tránh thu thập dữ liệu dư thừa hoặc không phù hợp.
Giai đoạn này bao gồm:
Thu thập dữ liệu nội bộ.
Thu thập dữ liệu bên ngoài.
Dữ liệu cảm biến IoT.
Dữ liệu từ khách hàng.
Dữ liệu mở (Open Data).
Tổ chức cần đảm bảo:
Tính hợp pháp.
Tính minh bạch.
Quyền riêng tư.
Sự đồng ý của chủ thể dữ liệu khi cần thiết.
Đây là một trong những giai đoạn quan trọng nhất.
Bao gồm:
Làm sạch dữ liệu.
Loại bỏ dữ liệu lỗi.
Chuẩn hóa dữ liệu.
Gắn nhãn dữ liệu.
Chuyển đổi định dạng dữ liệu.
Nhiều nghiên cứu cho thấy phần lớn thời gian phát triển AI được dành cho hoạt động chuẩn bị dữ liệu.
Tổ chức cần xây dựng cơ chế:
Lưu trữ dữ liệu an toàn.
Quản lý quyền truy cập.
Sao lưu dữ liệu.
Kiểm soát phiên bản dữ liệu.
Điều này giúp duy trì tính toàn vẹn và khả năng truy xuất dữ liệu.
Dữ liệu được sử dụng cho:
Huấn luyện mô hình.
Kiểm thử.
Xác thực mô hình.
Tối ưu hóa thuật toán.
Tiêu chuẩn nhấn mạnh việc ghi nhận nguồn gốc và mục đích sử dụng dữ liệu trong suốt quá trình này.
Sau khi triển khai AI, dữ liệu cần được theo dõi liên tục để phát hiện:
Data Drift.
Concept Drift.
Suy giảm chất lượng dữ liệu.
Thay đổi môi trường vận hành.
Đây là yếu tố quan trọng giúp duy trì hiệu suất của AI theo thời gian.
Cuối vòng đời, dữ liệu cần được:
Lưu trữ theo yêu cầu pháp lý.
Ẩn danh hóa.
Xóa bỏ an toàn.
Tiêu hủy theo quy định.
Điều này giúp giảm rủi ro bảo mật và tuân thủ các yêu cầu về quyền riêng tư.
Dữ liệu cần:
Chính xác.
Đầy đủ.
Nhất quán.
Cập nhật.
Phù hợp với mục đích sử dụng.
Tổ chức cần biết:
Dữ liệu đến từ đâu.
Được xử lý như thế nào.
Được sử dụng cho mục đích gì.
Điều này hỗ trợ minh bạch và kiểm toán AI.
Bao gồm:
Kiểm soát truy cập.
Mã hóa.
Giám sát truy cập.
Quản lý sự cố dữ liệu.
Tiêu chuẩn khuyến nghị xem xét:
Bảo vệ dữ liệu cá nhân.
Ẩn danh hóa dữ liệu.
Tuân thủ các quy định về quyền riêng tư.
Tiêu chuẩn hỗ trợ kiểm soát:
Gây suy giảm hiệu suất AI.
Dẫn đến kết quả thiếu công bằng.
Khó giải trình quyết định của AI.
Gây rủi ro bảo mật và pháp lý.
Làm giảm độ chính xác của mô hình.
Giúp cải thiện độ chính xác và độ tin cậy của mô hình.
Hỗ trợ kiểm toán và giải trình AI.
Kiểm soát tốt hơn các vấn đề liên quan đến chất lượng và bảo mật dữ liệu.
Tạo nền tảng dữ liệu cho hệ thống quản lý AI.
Dữ liệu được quản lý minh bạch và có kiểm soát giúp nâng cao mức độ tin cậy của AI.
Tiêu chuẩn phù hợp với:
Doanh nghiệp phát triển AI.
Nhà cung cấp nền tảng AI.
Tổ chức triển khai AI quy mô lớn.
Doanh nghiệp công nghệ.
Ngân hàng và tổ chức tài chính.
Doanh nghiệp y tế.
Trung tâm dữ liệu.
Cơ quan nhà nước.
Đơn vị triển khai ISO/IEC 42001.
Đặc biệt, các tổ chức phụ thuộc nhiều vào dữ liệu để vận hành AI sẽ nhận được giá trị lớn từ việc áp dụng khung vòng đời dữ liệu này.

Bình luận