Ban hành Danh mục bộ dữ liệu phục vụ phát triển trí tuệ nhân tạo trong các lĩnh vực thiết yếu
Ngày
06/5/2026, Phó Thủ tướng Chính phủ Hồ Quốc Dũng ký ban hành Quyết định số
804/QĐ-TTg về Ban hành Danh mục bộ dữ liệu phục vụ phát triển trí tuệ nhân tạo
trong các lĩnh vực thiết yếu (Quyết định).
Theo
Quyết định, Danh mục bộ dữ liệu phục vụ phát triển trí tuệ nhân tạo (AI) trong
các lĩnh vực thiết yếu gồm 15 nhóm dữ liệu quan trọng, phục vụ trực tiếp cho
nghiên cứu, phát triển, huấn luyện và ứng dụng các hệ thống AI tại Việt Nam. Các
nhóm dữ liệu gồm: Ngôn ngữ tiếng Việt và tiếng dân tộc thiểu số; tri thức quốc
gia; văn bản pháp luật và văn bản hành chính (không bao gồm văn bản mật); khoa
học, công nghệ và đổi mới sáng tạo; dịch vụ công và thủ tục hành chính; y tế và
chăm sóc sức khỏe; giáo dục và đào tạo; nông nghiệp; giao thông và đô thị; tài
nguyên và môi trường; kinh tế và thị trường; văn hóa, di sản và Nổ hũ Kho tàng Dubai link moi; bản đồ
và không gian địa lý quốc gia; viễn thông và hạ tầng số; dữ liệu đa ngôn ngữ
quốc tế về Việt Nam.
Bên
cạnh đó, Quyết định xác định 05 nhóm dữ liệu ưu tiên triển khai phục vụ phát
triển AI, được xây dựng trên cơ sở các bộ dữ liệu nêu trên.
Thứ
nhất, dữ liệu phục vụ phát triển mô hình ngôn ngữ lớn tiếng Việt, bao gồm: Dữ
liệu ngôn ngữ tiếng Việt phổ thông; hội thoại và tương tác tiếng Việt; tiếng
nói tiếng Việt; ngôn ngữ các dân tộc thiểu số; dữ liệu hướng dẫn và căn chỉnh
mô hình; dữ liệu tổng hợp nhân tạo; báo chí và truyền thông; tri thức và thuật
ngữ chuyên ngành; pháp luật và văn bản quản lý hành chính; khoa học, học thuật,
quy chuẩn kỹ thuật; mã nguồn và lập trình; toán học và suy luận khoa học; văn
hóa và lịch sử Việt Nam; dữ liệu nguồn mở trên Internet và môi trường số; dữ
liệu song ngữ và đa ngôn ngữ.
Thứ
hai, dữ liệu phục vụ phát triển AI thị giác máy tính, bao gồm: dữ liệu đa
phương tiện phục vụ hiểu ngữ cảnh hình ảnh và video; dữ liệu hình ảnh trong các
lĩnh vực y tế, nông nghiệp, giao thông, đô thị và hạ tầng, vệ tinh và viễn
thám.
Thứ
ba, dữ liệu phục vụ kiểm thử và đánh giá hệ thống AI, bao gồm: dữ liệu đánh giá
năng lực hiểu tiếng Việt; năng lực hội thoại tiếng Việt; hiểu biết pháp luật
Việt Nam; năng lực lập trình và kỹ thuật; năng lực suy luận và tri thức; hiểu
biết văn hóa và xã hội.
Thứ
tư, dữ liệu phục vụ phát triển AI trong các lĩnh vực thiết yếu, bao gồm: dữ
liệu về thủ tục hành chính; y tế và chăm sóc sức khỏe; giáo dục; môi trường và
khí hậu; năng lượng và tài nguyên; tài chính và kinh tế; bản đồ số và địa lý
quốc gia; hạ tầng viễn thông và mạng số.
Thứ
năm, dữ liệu phục vụ phát triển trí tuệ nhân tạo phục vụ đánh giá an toàn và
tin cậy, bao gồm: dữ liệu phát hiện tin giả và thông tin sai lệch; nhận diện
sản phẩm đa phương tiện do AI tạo ra; các kịch bản tấn công và kiểm thử đạo đức
AI; dữ liệu phát hiện mã độc và các mối đe dọa an ninh mạng.
Quyết định quy định các bộ dữ liệu
thuộc Danh mục sẽ được triển khai trong giai đoạn 2026 – 2030, trong đó ưu tiên
xây dựng và hoàn thiện các nhóm dữ liệu thuộc Danh mục ưu tiên triển khai. Việc
thu thập, tạo lập, chia sẻ, xử lý, khai thác và sử dụng dữ liệu phải tuân thủ
nghiêm các quy định của pháp luật về dữ liệu, bảo vệ dữ liệu cá nhân, bảo vệ bí
mật nhà nước, sở hữu trí tuệ và các quy định pháp luật có liên quan.
Việc ban hành Danh mục bộ dữ liệu phục
vụ phát triển AI là cơ sở quan trọng để xây dựng các kho dữ liệu lớn (Big
Data), hồ dữ liệu (Data Lake) trong các lĩnh vực thiết yếu, tạo nền tảng dữ
liệu đồng bộ, chất lượng cao phục vụ nghiên cứu, phát triển và ứng dụng AI tại
Việt Nam. Đồng thời, đây cũng là bước đi quan trọng nhằm hiện thực hóa mục tiêu
đến năm 2030, 100% cơ sở dữ liệu ưu tiên được số hóa, chuẩn hóa và tích hợp vào
cơ sở dữ liệu tổng hợp quốc gia, góp phần làm chủ các mô hình ngôn ngữ lớn
tiếng Việt và các thuật toán AI cốt lõi phù hợp với điều kiện, đặc thù của Việt
Nam./.