- Tổng quan
- Nội dung
- Tải về
Dự thảo Quyết định Ban hành Danh mục bộ dữ liệu phục vụ phát triển trí tuệ nhân tạo
| Lĩnh vực: | Khoa học-Công nghệ | Loại dự thảo: | Quyết định |
| Cơ quan chủ trì dự thảo: | Đang cập nhật | Trạng thái: | Chưa thông qua |
Phạm vi điều chỉnh
Dự thảo Quyết đinh Ban hành Danh mục bộ dữ liệu phục vụ phát triển trí tuệ nhân tạo trong các lĩnh vực thiết yếu
| THỦ TƯỚNG CHÍNH PHỦ | CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAMĐộc lập - Tự do - Hạnh phúc |
| Số: /2026/QĐ-TTg | Hà Nội, ngày tháng năm 2026 |
| Dự thảo |
|
QUYẾT ĐỊNH
Ban hành Danh mục bộ dữ liệu phục vụ phát triển trí tuệ nhân tạo
trong các lĩnh vực thiết yếu
______________________
THỦ TƯỚNG CHÍNH PHỦ
Căn cứ Luật Tổ chức Chính phủ số 63/2025/QH15 ngày 18 tháng 2 năm 2025;
Căn cứ Luật Trí tuệ nhân tạo số 134/2025/QH15 ngày 10 tháng 12 năm 2025;
Thực hiện Nghị quyết số 03/NQ-CP ngày 09 tháng 01 năm 2025 của Chính phủ ban hành Chương trình hành động của Chính phủ thực hiện Nghị quyết số 57-NQ/TW ngày 22 tháng 12 năm 2024 của Bộ Chính trị về đột phá phát triển khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số quốc gia và Nghị quyết số 71/NQ-CP ngày 01 tháng 4 năm 2025 của Chính phủ về việc sửa đổi, bổ sung cập nhật Chương trình hành động của Chính phủ thực hiện Nghị quyết số 57-NQ/TW ngày 22 tháng 12 năm 2024 của Bộ Chính trị về đột phá phát triển khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số quốc gia;
Theo đề nghị của Bộ trưởng Bộ Khoa học và Công nghệ.
QUYẾT ĐỊNH:
Điều 1. Ban hành kèm theo Quyết định này “Danh mục bộ dữ liệu phục vụ phát triển trí tuệ nhân tạo trong các lĩnh vực thiết yếu”. Danh mục được cấu trúc thành 02 Phụ lục cụ thể như sau:
1. Phụ lục I: Danh mục bộ dữ liệu trong các lĩnh vực thiết yếu phục vụ phát triển trí tuệ nhân tạo.
2. Phụ lục II: Danh mục dữ liệu ưu tiên triển khai phục vụ phát triển trí tuệ nhân tạo, bao gồm 05 nhóm trọng điểm:
a) Dữ liệu phục vụ phát triển mô hình ngôn ngữ lớn tiếng Việt.
b) Dữ liệu phục vụ kiểm thử và đánh giá hệ thống trí tuệ nhân tạo.
c) Dữ liệu phục vụ phát triển trí tuệ nhân tạo thị giác máy tính.
d) Dữ liệu phục vụ phát triển trí tuệ nhân tạo trong các lĩnh vực thiết yếu.
e) Dữ liệu phục vụ phát triển trí tuệ nhân tạo an toàn và đáng tin cậy.
Điều 2. Phạm vi loại trừ và yêu cầu bảo đảm an ninh dữ liệu
1. Quyết định này không áp dụng đối với các dữ liệu chứa bí mật nhà nước, dữ liệu an ninh quốc gia và dữ liệu phục vụ riêng cho nhiệm vụ quốc phòng, an ninh, cơ yếu.
2. Đối với các bộ dữ liệu thuộc Danh mục ban hành kèm theo Quyết định này, cơ quan, đơn vị chủ quản có trách nhiệm:
a) Rà soát, xử lý, chuẩn hóa và bóc tách, loại bỏ hoàn toàn các nội dung thuộc phạm vi bí mật nhà nước, dữ liệu cốt lõi và dữ liệu quan trọng theo quy định tại Quyết định số 20/2025/QĐ-TTg ngày 01/7/2025 của Thủ tướng Chính phủ trước khi tiến hành chia sẻ hoặc mở cho cộng đồng phát triển trí tuệ nhân tạo.
b) Tuân thủ nghiêm ngặt Luật Sở hữu trí tuệ; chỉ tiến hành mở và chia sẻ đối với các dữ liệu thuộc sở hữu Nhà nước, dữ liệu đã hết thời hạn bảo hộ bản quyền, dữ liệu đã thuộc về công chúng hoặc đã được chủ sở hữu quyền tác giả đồng ý cho phép khai thác.
c) Thực hiện khử nhận dạng dữ liệu cá nhân theo quy định của Luật Bảo vệ dữ liệu cá nhân trước khi chia sẻ, trừ trường hợp pháp luật có quy định khác hoặc đã được chủ thể dữ liệu đồng ý.
Điều 3. Nguyên tắc triển khai và Tổ chức thực hiện
1. Bộ Khoa học và Công nghệ chủ trì tổ chức xây dựng, cập nhật và công bố Danh mục bộ dữ liệu phục vụ phát triển trí tuệ nhân tạo; chủ trì ban hành hướng dẫn kỹ thuật, đồng thời phối hợp với cơ quan chủ quản của từng bộ dữ liệu trong Danh mục để xây dựng và công bố lộ trình chuẩn hóa, tích hợp, cập nhật, chia sẻ và khai thác dữ liệu; định kỳ hằng năm rà soát, phối hợp với các bộ, ngành, địa phương trình Thủ tướng Chính phủ cập nhật, điều chỉnh Danh mục.
2. Bộ Công an hướng dẫn tiêu chuẩn kỹ thuật về khử nhận dạng dữ liệu và rà soát an ninh đối với các bộ dữ liệu nhạy cảm.
3. Các bộ, cơ quan ngang bộ và Ủy ban nhân dân cấp tỉnh, thành phố trong phạm vi nhiệm vụ, quyền hạn của mình có trách nhiệm tổ chức xây dựng, chuẩn hóa và cung cấp các dữ liệu thuộc lĩnh vực quản lý để hình thành các bộ dữ liệu theo Danh mục.
4. Các dữ liệu trong Phụ lục II phải được xây dựng, chuẩn hóa, gắn siêu dữ liệu và công bố theo định dạng dữ liệu có thể đọc bằng máy, bảo đảm khả năng kết nối, chia sẻ qua giao diện lập trình ứng dụng (API) và bảo đảm nguyên tắc “đúng - đủ - sạch - sống” để phục vụ khai thác, chia sẻ và sử dụng trong nghiên cứu, phát triển, huấn luyện và kiểm thử hệ thống trí tuệ nhân tạo.
5. Các dữ liệu trong Danh mục được cung cấp theo mẫu giấy phép sử dụng dữ liệu thống nhất do Bộ Khoa học và Công nghệ ban hành, việc khai thác, sử dụng dữ liệu được thực hiện theo quy chế chia sẻ dữ liệu chung, bảo đảm tuân thủ các quy định về bảo vệ dữ liệu cá nhân và sở hữu trí tuệ. Tổ chức, cá nhân được khai thác, sử dụng dữ liệu theo điều kiện quy định tại giấy phép mà không phải thực hiện thủ tục cấp phép riêng, trừ trường hợp dữ liệu thuộc diện hạn chế tiếp cận theo quy định của pháp luật.
Điều 4. Quyết định này có hiệu lực thi hành kể từ ngày ký ban hành.
Điều 5. Các Bộ trưởng, Thủ trưởng cơ quan ngang Bộ, Thủ trưởng cơ quan thuộc Chính phủ, Chủ tịch Ủy ban nhân dân các tỉnh, thành phố trực thuộc Trung ương và các doanh nghiệp, tổ chức, cá nhân có liên quan chịu trách nhiệm thi hành Quyết định này./.
| Nơi nhận: | THỦ TƯỚNG
Phạm Minh Chính |
Phụ lục I
DANH MỤC BỘ DỮ LIỆU TRONG CÁC LĨNH VỰC THIẾT YẾU
PHỤC VỤ PHÁT TRIỂN TRÍ TUỆ NHÂN TẠO
(Kèm theo Quyết định số: /2026/QĐ-TTg ngày tháng năm 2026 của Thủ tướng Chính phủ)
| STT | NHÓM DANH MỤC DỮ LIỆU | MÔ TẢ KHÁI QUÁT |
| 1 | Bộ dữ liệu ngôn ngữ tiếng Việt và tiếng dân tộc thiểu số | Bao gồm các dữ liệu văn bản, tiếng nói, chữ viết tay tiếng Việt và tiếng dân tộc thiểu số, cùng các bộ dữ liệu đa phương tiện, đa ngôn ngữ phục vụ huấn luyện cốt lõi cho mô hình ngôn ngữ lớn. |
| 2 | Bộ dữ liệu tri thức quốc gia | Bao gồm dữ liệu số hóa từ thư viện, ấn phẩm, sách báo, từ điển, cùng các dữ liệu phản ánh bối cảnh lịch sử, văn hóa vùng miền, di sản và tin tức truyền thông báo chí của Việt Nam. |
| 3 | Bộ dữ liệu pháp luật và quản trị nhà nước | Bao gồm hệ thống văn bản quy phạm pháp luật, điều ước quốc tế, hồ sơ tư pháp, án lệ, văn bản chỉ đạo điều hành và các chính sách quản lý nhà nước. |
| 4 | Bộ dữ liệu khoa học, công nghệ và ĐMST | Bao gồm dữ liệu về công bố khoa học, nhiệm vụ/đề tài nghiên cứu, thông tin sở hữu trí tuệ, tiêu chuẩn/quy chuẩn kỹ thuật và hệ sinh thái đổi mới sáng tạo, khởi nghiệp. |
| 5 | Bộ dữ liệu dịch vụ công và thủ tục hành chính | Bao gồm danh mục, quy trình thủ tục hành chính, dữ liệu cung cấp dịch vụ công trực tuyến và các kết quả giải quyết hồ sơ (giấy phép, chứng chỉ). |
| 6 | Bộ dữ liệu y tế và sức khỏe | Bao gồm dữ liệu khám chữa bệnh (đã khử định danh), hình ảnh y tế, dữ liệu y tế dự phòng, dược phẩm và các tri thức, giáo trình nghiên cứu chuyên ngành y khoa. |
| 7 | Bộ dữ liệu giáo dục và học tập | Bao gồm sách giáo khoa, học liệu số, luận văn, công trình nghiên cứu, dữ liệu đánh giá người học, ngân hàng đề thi và dữ liệu quản lý mạng lưới cơ sở giáo dục các cấp. |
| 8 | Bộ dữ liệu nông nghiệp và an ninh lương thực | Bao gồm dữ liệu về thổ nhưỡng, giống cây trồng, vật nuôi, thủy sản, lâm nghiệp, thông tin phòng chống dịch bệnh và hệ thống truy xuất nguồn gốc chuỗi cung ứng nông sản. |
| 9 | Bộ dữ liệu giao thông và đô thị thông minh | Bao gồm dữ liệu mạng lưới/hạ tầng giao thông, dữ liệu điều hành giao thông thông minh, hình ảnh/video camera giám sát, quản lý phương tiện, vi phạm giao thông và hạ tầng đô thị. |
| 10 | Bộ dữ liệu tài nguyên và môi trường | Bao gồm dữ liệu dự báo khí tượng, thủy văn, biến đổi khí hậu, các chỉ số quan trắc môi trường (đất, nước, không khí), đa dạng sinh học và dữ liệu quản lý tài nguyên. |
| 11 | Bộ dữ liệu kinh tế và thị trường | Bao gồm các chỉ số thống kê kinh tế vĩ mô, dữ liệu đăng ký doanh nghiệp, thương mại, xuất nhập khẩu, phân tích tài chính, tỷ giá và hoạt động của thị trường chứng khoán. |
| 12 | Bộ dữ liệu văn hóa, di sản và du lịch | Bao gồm dữ liệu về di tích, danh thắng, bảo vật quốc gia, hoạt động du lịch, cơ sở lưu trú và các thiết chế, sự kiện văn hóa nghệ thuật truyền thống. |
| 13 | Bộ dữ liệu bản đồ và không gian địa lý quốc gia | Bao gồm dữ liệu nền địa lý quốc gia, bản đồ chuyên đề (quy hoạch đất đai, rừng, biển) và hệ thống dữ liệu không gian đô thị (GIS). |
| 14 | Bộ dữ liệu viễn thông và hạ tầng số | Bao gồm dữ liệu tọa độ trạm phát sóng (BTS), quy hoạch tần số vô tuyến điện, mạng lưới Wi-Fi công cộng và thông tin doanh nghiệp bưu chính, công nghệ số. |
| 15 | Bộ dữ liệu an toàn, an ninh và quản lý rủi ro | Bao gồm dữ liệu đánh giá tín nhiệm mạng, danh sách website vi phạm, phát tán thông tin sai lệch, và dữ liệu xử lý vi phạm an ninh trật tự, rủi ro xã hội (đã khử định danh). |
Phụ lục II
DANH MỤC DỮ LIỆU ƯU TIÊN PHỤC VỤ PHÁT TRIỂN TRÍ TUỆ NHÂN TẠO TRONG LĨNH VỰC THIẾT YẾU
Kèm theo Quyết định số: /2026/QĐ-TTg ngày tháng năm 2026 của Thủ tướng Chính phủ)
| STT | DANH MỤC | MÔ TẢ CHI TIẾT |
|---|---|---|
| I | Dữ liệu phục vụ phát triển mô hình ngôn ngữ lớn tiếng Việt (LLM) (Nhóm dữ liệu văn bản thô, toàn văn dùng để huấn luyện AI) | |
| 1 | Dữ liệu văn bản tiếng Việt quy mô lớn | 1. Dữ liệu văn bản và tri thức chung: - Nội dung số hóa sách lưu trữ Thư viện quốc gia, Dữ liệu Thư viện số quốc gia, Bách khoa toàn thư mở tiếng Việt, Dữ liệu từ điển chuẩn hiện đại, Nội dung số các ấn phẩm nhà xuất bản, Tài liệu lưu trữ nhà nước, Thư tịch cổ chữ Hán Nôm. - Dữ liệu các tác phẩm văn học, thơ ca, tiểu thuyết, truyện ký Việt Nam qua các thời kỳ (thuộc sở hữu nhà nước hoặc đã hết thời hạn bảo hộ quyền tác giả). 2. Dữ liệu báo chí và học thuật: - Dữ liệu báo chí in (lưu chiểu), Dữ liệu báo chí điện tử, Tập san khoa học trong nước, Kỷ yếu hội thảo khoa học, Tạp chí chuyên ngành, Bài viết nghiên cứu, Báo cáo chuyên đề. 3. Dữ liệu giáo dục và đào tạo: - Tài liệu học số (sách giáo khoa từ mầm non đến THPT), Giáo trình điện tử đại học, Bài giảng số hóa, Sách tham khảo, Cẩm nang hướng dẫn nghề nghiệp, Dữ liệu tài nguyên học tập số. 4. Dữ liệu hành chính và quản lý: - Văn bản điều hành tác nghiệp, Báo cáo tổng kết kinh tế - xã hội các địa phương, Báo cáo thống kê ngành, Tài liệu quy hoạch đô thị, Hồ sơ dự án đầu tư công, Tờ trình và đề án chuyên ngành. |
| 2 | Dữ liệu pháp luật và chính sách | 1. Dữ liệu văn bản quy phạm và tư pháp: - Hệ thống văn bản quy phạm pháp luật (Luật, Nghị định, Thông tư), Dữ liệu án lệ quốc gia, Dữ liệu bản án Tòa án (đã khử định danh), Quyết định giám đốc thẩm/tái thẩm, Văn bản giải thích pháp luật của Bộ Tư pháp. 2. Dữ liệu xử lý vi phạm và thủ tục: - Quyết định xử lý vi phạm hành chính, Dữ liệu quyết định xử phạt vi phạm giao thông, Danh mục thủ tục hành chính, Thành phần hồ sơ thủ tục, Quy trình giải quyết khiếu nại tố cáo, Hồ sơ đăng ký biện pháp bảo đảm. 3. Dữ liệu chính sách và quản lý nhà nước: - Chính sách dân tộc, Quy định ưu đãi miễn trừ ngoại giao, Hiến chương các tổ chức tôn giáo, Quy chế quy trình nội bộ, Chính sách thu hút đầu tư, Chính sách an sinh xã hội, Báo cáo kết quả thanh tra, kiểm tra. 4. Dữ liệu quốc tế và hội nhập: - Điều ước quốc tế, Thỏa thuận quốc tế song phương/đa phương, Hồ sơ Hiệp định thương mại tự do (FTAs/VNTR), Hồ sơ gia nhập tổ chức quốc tế, Cam kết thuế quan, Quy định xuất nhập khẩu. |
| 3 | Dữ liệu khoa học và học thuật | 1. Dữ liệu nghiên cứu và công bố khoa học: - Công bố Khoa học và Công nghệ Việt Nam, Thông tin quản lý nhiệm vụ/đề tài nghiên cứu khoa học các cấp, Luận án tiến sĩ, Luận văn thạc sĩ, Khóa luận tốt nghiệp, Báo cáo kết quả nghiên cứu, Kỷ yếu hội đồng khoa học. 2. Dữ liệu sở hữu trí tuệ: - Dữ liệu sở hữu công nghiệp, Thông tin sáng chế, Giải pháp hữu ích, Kiểu dáng công nghiệp, Nhãn hiệu hàng hóa, Kết quả chuyển giao công nghệ, Danh sách các giải pháp và sáng kiến cải tiến kỹ thuật. 3. Dữ liệu tiêu chuẩn và đo lường: - Tiêu chuẩn quốc gia (TCVN), Quy chuẩn kỹ thuật quốc gia (QCVN), Tiêu chuẩn cơ sở của doanh nghiệp, Quy trình kiểm định chất lượng sản phẩm, Hồ sơ công bố hợp quy, CSDL Mã số, mã vạch quốc gia. 4. Dữ liệu chuyên gia và đổi mới sáng tạo: - Danh sách chuyên gia khoa học công nghệ, Hồ sơ tổ chức nghiên cứu khoa học, Dữ liệu đánh giá năng lực đổi mới sáng tạo, Danh sách doanh nghiệp khởi nghiệp (Startup), Dữ liệu chuyên gia tư vấn công nghệ. |
| 4 | Dữ liệu báo chí và truyền thông | 1. Dữ liệu phát thanh và truyền hình: - Bản tin phát thanh, truyền hình của các cơ quan phát thanh, truyền hình trung ương, các cơ quan Thông tấn báo chí, tin tức phát thanh, truyền hình địa phương, kịch bản chương trình phát sóng, văn bản bóc băng các chương trình thời sự, phóng sự tài liệu. 2. Dữ liệu báo in và báo điện tử: - Kho lưu chiểu báo điện tử, kho lưu chiểu báo in, Tin tức tổng hợp hàng ngày, bài viết bình luận chuyên sâu, dữ liệu các tác phẩm đoạt giải báo chí quốc gia và địa phương. 3. Dữ liệu xuất bản và quảng cáo: - Danh mục cấp phép xuất bản, Dữ liệu các nhà xuất bản và chi nhánh, Danh sách các cơ sở in và đơn vị phát hành, Sản phẩm quảng cáo, Danh mục cấp phép quảng cáo ngoài trời. 4. Dữ liệu quản lý truyền thông và đối ngoại: - Tin tức và thông tin đối ngoại, Danh sách cơ quan báo chí, Tôn chỉ mục đích các báo/tạp chí, Danh sách trang thông tin điện tử tổng hợp, Dữ liệu quản lý thẻ nhà báo (đã khử định danh), Hồ sơ xử phạt vi phạm truyền thông, Thông tin các hội nghị họp báo. |
| 5 | Dữ liệu văn hóa và lịch sử Việt Nam | 1. Dữ liệu di sản và di tích: - Di tích lịch sử xếp hạng (cấp quốc gia/tỉnh), Danh lam thắng cảnh, dữ liệu Di vật/cổ vật/bảo vật quốc gia, Di sản văn hóa phi vật thể (được UNESCO công nhận), Hồ sơ khảo cổ học, Dữ liệu loại hình di tích (đình, đền, chùa, miếu). 2. Dữ liệu lịch sử và địa danh: - Thư tịch cổ chữ Hán Nôm, Lịch sử địa giới hành chính, Dữ liệu địa danh đỏ và lịch sử cách mạng, Thông tin danh nhân văn hóa/anh hùng dân tộc, Bản ghi chép các sự kiện lịch sử trọng đại. 3. Dữ liệu văn hóa vùng miền và dân gian: - Dữ liệu Văn hóa các dân tộc Việt Nam, Đặc trưng văn hóa vùng miền (trang phục, ẩm thực, kiến trúc), Dữ liệu lễ hội truyền thống, Kho tàng ca dao/tục ngữ/truyện cổ tích/sử thi truyền miệng, Luật tục và tri thức dân gian bản địa. 4. Dữ liệu thiết chế và sự kiện văn hóa: - Dữ liệu các bảo tàng/nhà hát/thư viện, thông tin các sự kiện cộng đồng và nghệ thuật, CSDL hoạt động nghệ thuật biểu diễn, Danh mục khu du lịch, Danh mục cơ sở văn hóa nước ngoài tại Việt Nam. - Dữ liệu Điện ảnh và Phim lưu trữ quốc gia; Kho tư liệu hình ảnh động; Dữ liệu phim truyện, phim tài liệu, phim khoa học, phim hoạt hình do Nhà nước đặt hàng sản xuất hoặc làm chủ sở hữu; Dữ liệu kịch bản phim và các tác phẩm đạt Giải thưởng Nhà nước, Giải thưởng Hồ Chí Minh về văn học nghệ thuật. |
| 6 | Dữ liệu tri thức và thuật ngữ chuyên ngành | 1. Dữ liệu danh mục chuẩn quốc gia: - Bảng mã tỉnh/thành phố, quận/huyện, xã/phường; Danh mục Dân tộc, Thành phần dân tộc; Danh mục Ngữ hệ, Nhóm ngôn ngữ; Danh mục Tôn giáo tại Việt Nam; Danh mục nghề nghiệp; Danh mục chỉ tiêu thống kê quốc gia. 2. Dữ liệu từ điển và thuật ngữ: - Từ điển tiếng Việt chuẩn, Từ điển đồng nghĩa/trái nghĩa, Từ điển song ngữ Việt - Dân tộc thiểu số, Bảng tra cứu thuật ngữ tài chính kế toán, Thuật ngữ pháp lý/tư pháp, Thuật ngữ công nghệ thông tin, danh pháp y khoa và dược học. 3. Dữ liệu chuẩn hóa ngành kinh tế - kỹ thuật: - Bảng giá vật liệu xây dựng, Danh mục giống cây trồng/vật nuôi, Danh mục phân bón/thuốc bảo vệ thực vật, Danh mục trang thiết bị y tế, Danh mục loại hình tổ chức doanh nghiệp, Hệ thống ngành kinh tế quốc dân. |
| 7 | Dữ liệu hội thoại và tương tác tiếng Việt | 1. Dữ liệu tương tác hành chính và pháp lý: - Kịch bản hỏi đáp dịch vụ công trực tuyến, Kịch bản hỏi đáp thuế/hải quan, Dữ liệu tư vấn trợ giúp pháp lý, Hồ sơ giải quyết khiếu nại tố cáo, Biên bản tiếp công dân, Tình huống xử lý thủ tục đất đai/đăng ký kinh doanh, Giải đáp chế độ bảo hiểm xã hội/lao động. 2. Dữ liệu tương tác đời sống và chuyên ngành: - Kịch bản hỏi đáp y khoa lâm sàng, Tương tác tư vấn tâm lý/sức khỏe sinh sản, Tình huống xử lý vi phạm giao thông, Tương tác tư vấn du học/tuyển sinh, Hội thoại tư vấn bảo vệ quyền lợi người tiêu dùng, Dữ liệu phản hồi đánh giá của người dân trên Cổng dịch vụ công. 3. Dữ liệu hội thoại chăm sóc khách hàng và dịch vụ: - Kịch bản tổng đài chăm sóc khách hàng (đã khử định danh), Hội thoại tư vấn dịch vụ du lịch/lưu trú, Kịch bản đặt vé/đặt phòng tự động, Giao tiếp hỗ trợ kỹ thuật phần mềm/viễn thông, Tương tác thương mại điện tử/mua bán trực tuyến. |
| 8 | Dữ liệu tiếng nói tiếng Việt | 1. Dữ liệu âm thanh phát thanh và truyền hình: - Bản thu âm chương trình phát thanh VOV, Bản ghi âm đài phát thanh địa phương, Tệp âm thanh MC/Biên tập viên truyền hình, Bản thu âm các chương trình tọa đàm/phỏng vấn, Audio sách nói từ thư viện, Âm thanh các bản tin dự báo thời tiết/giao thông. 2. Dữ liệu giọng đọc và thuyết minh tự động: - Giọng đọc chuẩn đa vùng miền (Bắc, Trung, Nam), File âm thanh thuyết minh tại các bảo tàng/địa chỉ đỏ, File ghi âm hướng dẫn du lịch tự động, Giọng nói hệ thống tổng đài tự động (IVR), Thông báo tự động tại nhà ga/sân bay/bến xe, Cảnh báo an toàn/thiên tai qua loa phát thanh. 3. Dữ liệu hội thoại tự nhiên (đã khử định danh): - Ghi âm cuộc gọi đường dây nóng dịch vụ công, Ghi âm hội nghị/cuộc họp hành chính, Ghi âm các phiên tòa xét xử công khai, Audio phỏng vấn/khảo sát thực địa, Tệp âm thanh giao tiếp sinh hoạt đời thường, Bản thu âm đọc ca dao/ngâm thơ/hát dân ca, Ghi âm giao tiếp tại quầy giao dịch ngân hàng/bệnh viện. |
| 9 | Dữ liệu ngôn ngữ các dân tộc thiểu số | 1. Dữ liệu từ vựng và ngữ pháp: - Dữ liệu từ vựng 54 ngôn ngữ dân tộc, Sổ tay ngữ pháp tiếng dân tộc (Tày, Nùng, Thái, Khmer, Mông...). - Từ điển song ngữ Việt - Ba Na/Ê Đê/Gia Rai, Từ điển song ngữ Việt - Chăm/Khmer, Cấu trúc câu/cách chia từ trong tiếng dân tộc, Hệ thống phiên âm tiếng dân tộc sang chữ Quốc ngữ. 2. Dữ liệu chữ viết và văn bản: - Dữ liệu chữ viết dân tộc (Chữ Nôm Dao, Akhar Thrah Chăm, Chữ Thái Việt Nam...), Văn bản chính sách dịch sang tiếng dân tộc, Tài liệu tuyên truyền phổ biến pháp luật bằng tiếng Dân tộc thiểu số, Bản tin/tờ rơi/áp phích in bằng chữ Dân tộc thiểu số, Các ấn phẩm báo chí xuất bản bằng tiếng Dân tộc thiểu số, Hồ sơ bảo tồn chữ viết. 3. Dữ liệu âm thanh và văn hóa truyền miệng: - Bản ghi âm chương trình phát thanh/truyền hình tiếng Dân tộc thiểu số, File âm thanh bài hát/dân ca/diễn xướng truyền thống, Audio truyện cổ tích/sử thi truyền miệng, Ghi âm phỏng vấn người có uy tín/già làng/trưởng bản, Ghi âm các nghi lễ/tín ngưỡng dân gian, Dữ liệu thống kê tình trạng sử dụng ngôn ngữ. |
| II | Dữ liệu phục vụ kiểm thử và đánh giá hệ thống AI (Nhóm dữ liệu dạng câu hỏi, bài tập, tình huống để đo lường năng lực AI) | |
| 10 | Dữ liệu đánh giá năng lực hiểu tiếng Việt | 1. Dữ liệu kiểm tra ngữ pháp và chính tả: - Bộ câu hỏi trắc nghiệm ngữ pháp tiếng Việt, Bài tập phát hiện và sửa lỗi chính tả, Bài tập điền từ vào chỗ trống, Phân tích cú pháp câu tiếng Việt, Đánh giá nhận diện từ loại (danh từ, động từ, tính từ), Bài tập chọn từ đồng nghĩa/trái nghĩa phù hợp ngữ cảnh. 2. Dữ liệu kiểm tra đọc hiểu và ngữ nghĩa: - Bộ dữ liệu kiểm tra đọc hiểu đoạn văn dài, Bài tập tóm tắt văn bản chuẩn hóa, Đánh giá nhận diện thực thể có tên (NER), Câu hỏi suy luận ý nghĩa ẩn dụ/thành ngữ/tục ngữ, Bộ test độ tương đồng ngữ nghĩa giữa các câu, Câu hỏi giải nghĩa từ cổ/từ Hán Việt. 3. Dữ liệu đánh giá cảm xúc và phân loại: - Phân loại cảm xúc văn bản (Sentiment analysis - tích cực/tiêu cực), Phân tích sắc thái bình luận mạng xã hội/đánh giá sản phẩm, Bài tập phân loại chủ đề văn bản, Bài test dịch thuật Việt - Anh chuyên ngành, Bài test dịch thuật Việt - Ngôn ngữ dân tộc thiểu số, Câu hỏi phát hiện thông tin mâu thuẫn trong văn bản. |
| 11 | Dữ liệu đánh giá năng lực suy luận và tri thức | 1. Dữ liệu đề thi và kiểm tra phổ thông: - Đề thi trắc nghiệm cấp tiểu học (Toán, Tiếng Việt), Đề thi trung học cơ sở các môn tự nhiên/xã hội, Đề thi trung học phổ thông quốc gia các năm, Đề thi tuyển sinh đại học/cao đẳng, Đề thi học sinh giỏi các cấp, Đề kiểm tra đánh giá năng lực của các Đại học Quốc gia. 2. Dữ liệu đánh giá suy luận logic và toán học: - Bài toán kiểm tra suy luận logic/giải quyết vấn đề, Bộ câu hỏi đánh giá IQ/tư duy không gian, Bài toán giải phương trình/đại số/hình học, Bài tập xác suất thống kê/suy luận dữ liệu, Câu hỏi trắc nghiệm tư duy phản biện (Critical thinking), Bài toán đố vui/giải đố mẹo dân gian. 3. Dữ liệu tri thức khoa học và tổng hợp: - Câu hỏi trắc nghiệm Vật lý/Hóa học/Sinh học, Câu hỏi trắc nghiệm Địa lý/Lịch sử/Giáo dục công dân, Bộ dữ liệu đánh giá tri thức học thuật đa môn, Câu hỏi kiểm tra kiến thức phổ thông về vũ trụ/thiên văn, Câu hỏi về biến đổi khí hậu/môi trường sinh thái, Bài test kiến thức về y tế công cộng/phòng chống dịch bệnh. 4. Bộ dữ liệu đánh giá khả năng tư duy tổng hợp, Bộ dữ liệu đánh giá khả năng hội thoại, Bộ dữ liệu đánh giá khả năng lập trình: - Câu hỏi phân tích tình huống, Câu hỏi so sánh – đánh giá, Câu hỏi tóm tắt – tổng hợp, Hội thoại nhiều lượt, Hội thoại hỗ trợ nghiệp vụ, Hội thoại xử lý lỗi, hội thoại an toàn,... |
| 12 | Dữ liệu đánh giá hiểu biết pháp luật Việt Nam | 1. Dữ liệu tình huống luật hành chính và giao thông: - Tình huống xử lý vi phạm luật giao thông đường bộ, Câu hỏi trắc nghiệm thi bằng lái xe các hạng, Tình huống xử lý vi phạm hành chính các lĩnh vực, Quy trình thủ tục khiếu nại tố cáo, Bài kiểm tra quy trình cấp hộ tịch/quốc tịch/CCCD, Tình huống về quy định cư trú/tạm trú. 2. Dữ liệu tình huống luật dân sự, hình sự: - Bài tập giải quyết tranh chấp luật dân sự/hợp đồng, Trắc nghiệm cấu thành tội phạm luật hình sự/khung hình phạt, Tình huống tranh chấp quyền sử dụng đất/nhà ở, Hỏi đáp luật hôn nhân gia đình/ly hôn/quyền nuôi con, Tình huống chia thừa kế tài sản theo pháp luật/di chúc, Tình huống về bồi thường thiệt hại ngoài hợp đồng. 3. Dữ liệu tình huống luật kinh tế và doanh nghiệp: - Tình huống thủ tục đăng ký thành lập/giải thể doanh nghiệp, Bài tập tính thuế thu nhập doanh nghiệp/thuế thu nhập cá nhân, câu hỏi về thủ tục đăng ký biện pháp bảo đảm, tình huống luật lao động/hợp đồng lao động/sa thải, xử lý vi phạm sở hữu trí tuệ/bản quyền, Bài test về quy định đấu thầu/đầu tư công. |
| 13 | Dữ liệu đánh giá hiểu biết văn hóa và xã hội | 1. Dữ liệu kiểm tra kiến thức lịch sử và danh nhân: - Câu hỏi trắc nghiệm các triều đại lịch sử Việt Nam, kiến thức về tiểu sử danh nhân văn hóa/anh hùng dân tộc, mốc thời gian các sự kiện lịch sử trọng đại/chiến dịch quân sự, nhận diện các văn kiện/tuyên ngôn lịch sử, câu hỏi về lịch sử Đảng bộ các địa phương. 2. Dữ liệu kiểm tra địa lý và đặc trưng vùng miền: - Trắc nghiệm đặc trưng ẩm thực 3 miền Bắc/Trung/Nam, kiến thức về trang phục truyền thống các dân tộc, câu hỏi địa lý tự nhiên/sông ngòi/núi non/biên giới, kiến thức về chủ quyền biển đảo/quần đảo Trường Sa/Hoàng Sa, câu hỏi phân biệt phương ngữ/từ địa phương. 3. Dữ liệu kiểm tra tín ngưỡng, di sản và phong tục: - Bộ câu hỏi về nguồn gốc/ý nghĩa các lễ hội dân gian, kiến thức về chức sắc/hệ thống tổ chức các tôn giáo tại Việt Nam, câu hỏi về di sản văn hóa vật thể/phi vật thể (UNESCO), kiến thức về phong tục tập quán cưới hỏi/tang ma/lễ tết, bài kiểm tra về nghệ thuật truyền thống (dân ca, ca dao, chèo, tuồng, cải lương,...), câu hỏi về làng nghề truyền thống. - Bộ câu hỏi trắc nghiệm/tự luận về các tác phẩm văn học, thơ ca kinh điển của Việt Nam; Câu hỏi kiến thức về các tác phẩm điện ảnh, đạo diễn, diễn viên và lịch sử phát triển điện ảnh Việt Nam. |
| 14 | Dữ liệu đánh giá năng lực hội thoại tiếng Việt | 1. Dữ liệu đánh giá hội thoại dịch vụ và nghiệp vụ: - Kịch bản đối thoại đa lượt hướng dẫn thủ tục Dịch vụ công, Đánh giá chất lượng tư vấn/chẩn đoán sơ bộ của chatbot y tế, Kịch bản hội thoại chatbot tài chính/ngân hàng/mở thẻ, Kịch bản tư vấn đăng ký kinh doanh/nộp thuế, Kịch bản chatbot tư vấn pháp luật tự động, Hội thoại hỗ trợ kỹ thuật/xử lý lỗi mạng internet. 2. Dữ liệu đánh giá xử lý tình huống và thương mại: - Kịch bản xử lý phàn nàn/khiếu nại của khách hàng, hội thoại đặt vé máy bay/tàu/đặt phòng du lịch, đánh giá phản hồi kịch bản mua bán trên thương mại điện tử, Hội thoại tư vấn chọn mua sản phẩm, kịch bản xử lý đổi trả hàng/bảo hành sản phẩm, kịch bản nhắc nợ/thu hồi nợ tự động. 3. Dữ liệu đánh giá tính tự nhiên và cảm xúc xã hội: - Đánh giá mức độ đồng cảm/an ủi trong tư vấn tâm lý cơ bản, đánh giá khả năng duy trì ngữ cảnh dài qua hàng chục lượt chat, kịch bản giao tiếp xã giao/trò chuyện phiếm trên mạng xã hội, bài kiểm khả năng hiểu và phản hồi câu hỏi tu từ/mỉa mai, hội thoại phỏng vấn tuyển dụng mô phỏng, đánh giá khả năng sử dụng tiếng lóng/ngôn ngữ gen Z. |
| 15 | Dữ liệu đánh giá năng lực lập trình và kỹ thuật | 1. Dữ liệu kiểm tra tư duy thuật toán và viết mã: - Kho bài toán thuật toán cấu trúc dữ liệu, yêu cầu viết mã lệnh (code) bằng các ngôn ngữ lập trình như Python/C++/Java/JavaScript, bài toán tối ưu hóa độ phức tạp thời gian/không gian của mã nguồn, yêu cầu viết script tự động hóa, bài tập lập trình front-end (HTML/CSS/React), bài tập lập trình thiết bị di động (Android/iOS). 2. Dữ liệu đánh giá thiết kế hệ thống và cơ sở dữ liệu: - Yêu cầu thiết kế kiến trúc hệ thống phần mềm (System Design), Yêu cầu thiết kế cấu trúc CSDL quan hệ và phi quan hệ (SQL/NoSQL), bài tập viết câu truy vấn dữ liệu (Query) phức tạp, bài tập thiết kế giao diện lập trình ứng dụng (RESTful API/GraphQL), đánh giá khả năng viết tài liệu kỹ thuật (Documentation). 3. Dữ liệu kiểm tra sửa lỗi, phân tích và bảo mật: - Bài kiểm tra phát hiện và sửa lỗi cú pháp/logic phần mềm (Debugging), bài tập phân tích dữ liệu (Data Science) bằng Pandas/R, câu hỏi trắc nghiệm kiến thức mạng máy tính/giao thức, bài tập triển khai ứng dụng lên cloud (DevOps/CI-CD), Bài toán kiểm thử lỗ hổng bảo mật cơ bản (SQL Injection, XSS), Đánh giá khả năng viết Unit Test/Integration Test. |
| III | Dữ liệu phục vụ phát triển AI thị giác máy tính (Nhóm dữ liệu đa phương tiện dạng ảnh, video) | |
| 16 | Dữ liệu hình ảnh giao thông | 1. Dữ liệu phương tiện và dòng lưu thông: - Ảnh/Video trích xuất từ camera giám sát giao thông đô thị, Hình ảnh các loại phương tiện cơ giới đường bộ (xe máy, ô tô, xe tải, container), Video mật độ và dòng chảy lưu lượng xe tại các ngã tư, Hình ảnh nhận diện xe buýt/xe khách/taxi, Hình ảnh nhận diện biển số xe (đã làm mờ thông tin nhạy cảm), Dữ liệu hình ảnh xe đạp/người đi bộ. 2. Dữ liệu hạ tầng và biển báo, vạch kẻ: - Ảnh nhận diện các loại biển báo giao thông đường bộ (cấm, nguy hiểm, chỉ dẫn), Dữ liệu hình ảnh vạch kẻ đường/làn đường/gờ giảm tốc, Ảnh nhận diện trạng thái đèn tín hiệu giao thông, Hình ảnh trạm thu phí/hệ thống ETC, Ảnh bến bãi đỗ xe/nhà ga/bến cảng/sân bay, Hình ảnh cầu vượt/hầm chui giao thông. 3. Dữ liệu sự cố và vi phạm giao thông: - Tình huống video tai nạn giao thông thực tế, Video phân tích điểm ùn tắc giao thông, Hình ảnh vi phạm luật giao thông (vượt đèn đỏ, lấn làn, ngược chiều), Hình ảnh đỗ xe sai quy định, Hình ảnh sự cố ngập lụt/sạt lở trên đường, Hình ảnh thi công sửa chữa công trình giao thông. |
| 17 | Dữ liệu hình ảnh đô thị và hạ tầng | 1. Dữ liệu không gian và quy hoạch đô thị: - Bản đồ không gian 3D đô thị/mô hình số độ cao, Hình ảnh quy hoạch các khu công nghiệp/chế xuất, Không gian hình ảnh công viên/quảng trường/cây xanh đô thị, Ảnh toàn cảnh các khu đô thị mới/khu dân cư, Hình ảnh các dự án nhà ở thương mại/nhà ở xã hội, Ảnh chụp từ flycam cảnh quan đô thị. 2. Dữ liệu công trình và kiến trúc: - Hình ảnh kiến trúc công trình tiêu biểu/di tích, Ảnh các tòa nhà hành chính/trụ sở cơ quan nhà nước, Ảnh thực trạng các khu chung cư cũ/nhà tập thể, Hình ảnh trường học/cơ sở giáo dục, Hình ảnh bệnh viện/trạm y tế, Hình ảnh trung tâm thương mại/siêu thị/chợ. 3. Dữ liệu hạ tầng kỹ thuật và mạng lưới: - Hình ảnh và tọa độ trạm thu phát sóng viễn thông (BTS), Ảnh trạm biến áp/đường dây điện/cột điện, Dữ liệu hình ảnh hệ thống chiếu sáng công cộng, Bản đồ hình ảnh mạng lưới cấp nước/thoát nước, Ảnh bãi tập kết/khu vực xử lý rác thải sinh hoạt, Hình ảnh hệ thống hố ga/cống ngầm. |
| 18 | Dữ liệu hình ảnh y tế | 1. Dữ liệu hình ảnh chẩn đoán chuyên sâu (Phi định danh): - Ảnh chụp X-quang (phổi, xương khớp, lồng ngực), Ảnh chụp cắt lớp vi tính CT (não, ổ bụng, phổi), Ảnh cộng hưởng từ MRI (sọ não, cột sống), Hình ảnh siêu âm (thai nhi, tim, gan, thận), Hình ảnh nội soi (dạ dày, đại tràng, tai mũi họng), Hình ảnh chụp PET/CT trong ung bướu. 2. Dữ liệu hình ảnh vi thể và bệnh học: - Ảnh chụp tiêu bản tế bào máu/tủy xương, Hình ảnh mô bệnh học dưới kính hiển vi (sinh thiết), Hình ảnh phân tích các tổn thương da liễu, Ảnh chụp võng mạc/đáy mắt, Hình ảnh tổn thương niêm mạc/răng hàm mặt, Hình ảnh vi khuẩn/virus nuôi cấy. 3. Dữ liệu cơ sở vật chất, thiết bị, dược phẩm: - Hình ảnh nhận diện các loại trang thiết bị y tế (máy thở, máy đo huyết áp), Hình ảnh phòng mổ/phòng cấp cứu, Hình ảnh cơ sở vật chất phòng khám/giường bệnh, Hình ảnh phân loại rác thải y tế, Dữ liệu hình ảnh nhận diện các loại thuốc/bao bì dược phẩm, Hình ảnh các chứng chỉ hành nghề y dược. |
| 19 | Dữ liệu hình ảnh nông nghiệp | 1. Dữ liệu giống cây trồng và vật nuôi: - CSDL hình ảnh các giống lúa/cây lương thực, Hình ảnh các loại cây ăn quả/cây công nghiệp, Hình ảnh các giống vật nuôi (bò, lợn, gia cầm), Hình ảnh các loài thủy sản nuôi trồng (tôm, cá), Hình ảnh nhận diện các giai đoạn sinh trưởng của cây trồng, Hình ảnh các sản phẩm nông sản đạt chuẩn (OCOP, VietGAP). 2. Dữ liệu dịch bệnh và vật tư nông nghiệp: - Hình ảnh nhận diện sâu bệnh/nấm bệnh trên lá cây, Hình ảnh biểu hiện dịch bệnh trên vật nuôi/gia cầm, Dữ liệu hình ảnh các loại phân bón, Hình ảnh bao bì nhãn mác thuốc bảo vệ thực vật, Hình ảnh các loại thức ăn chăn nuôi, Hình ảnh cỏ dại/thực vật ngoại lai xâm hại. 3. Dữ liệu cảnh quan và hạ tầng canh tác: - Dữ liệu hình ảnh/bản đồ số diễn biến rừng (đặc dụng, phòng hộ), Hình ảnh cảnh quan ruộng bậc thang/khu canh tác, Hình ảnh mạng lưới kênh mương/trạm bơm thủy lợi, Ảnh nhận diện máy móc/thiết bị cơ giới nông nghiệp, Hình ảnh nhà màng/nhà lưới nông nghiệp công nghệ cao, Hình ảnh tàu thuyền đánh bắt thủy sản. |
| 20 | Dữ liệu ảnh vệ tinh và viễn thám | 1. Dữ liệu viễn thám môi trường và thiên tai: - Hình ảnh viễn thám giám sát hạn hán/cháy rừng, Hình ảnh cảnh báo sạt lở bờ biển/bờ sông/đồi núi, Ảnh giám sát mức độ xâm nhập mặn vùng đồng bằng, Hình ảnh đo lường nhiệt độ bề mặt đất, Ảnh vệ tinh theo dõi mức độ phát thải khí nhà kính/khói bụi, Hình ảnh giám sát đường đi của bão/áp thấp nhiệt đới. 2. Dữ liệu tài nguyên và sinh thái: - Bản đồ ảnh vệ tinh phân bố hệ sinh thái (rừng, san hô), Ảnh vệ tinh đo lường diện tích rừng tự nhiên/rừng ngập mặn, Bản đồ ảnh chụp đáy biển/địa hình hải đảo, Bản đồ ảnh quy hoạch vùng khai thác khoáng sản, Ảnh viễn thám giám sát tài nguyên nước mặt/sông hồ, Hình ảnh giám sát khu bảo tồn thiên nhiên/vườn quốc gia. 3. Dữ liệu sử dụng đất và không gian: - Ảnh vệ tinh phân tích hiện trạng sử dụng đất nông nghiệp/đô thị, Hình ảnh phát hiện và theo dõi quỹ đạo tàu thuyền trên biển, Ảnh viễn thám quy hoạch mở rộng đô thị/hạ tầng giao thông, Hình ảnh quan trắc sự thay đổi của các khu công nghiệp, Ảnh vệ tinh đo lường độ sụt lún của công trình/mặt đất, Dữ liệu ảnh viễn thám radar xuyên mây (SAR). |
| IV | Dữ liệu phục vụ phát triển AI trong các lĩnh vực thiết yếu (Nhóm dữ liệu cấu trúc, bảng biểu, số liệu thống kê chuyên ngành) | |
| 21 | Dữ liệu y tế và chăm sóc sức khỏe | 1. Dữ liệu lâm sàng và điều trị (Phi định danh): - Các trường dữ liệu từ Hồ sơ sức khỏe điện tử cá nhân, Dữ liệu bệnh án điện tử tại các bệnh viện, Kết quả xét nghiệm sinh hóa/huyết học/nước tiểu, Thống kê lượt khám chữa bệnh bảo hiểm y tế, Báo cáo tình hình dịch bệnh truyền nhiễm, Số liệu tỷ suất sinh thô/tử vong/suy dinh dưỡng. 2. Dữ liệu dược phẩm, vật tư và tài chính y tế: - Danh mục thuốc và dược phẩm được phép lưu hành, Dữ liệu về kho máu và chế phẩm máu, Thống kê xuất nhập khẩu thiết bị/vật tư y tế, Bảng giá trần dịch vụ khám bệnh/chữa bệnh kỹ thuật cao, Bảng giá thuốc trúng thầu tại các bệnh viện, Dữ liệu quản lý/xử lý chất thải y tế tại các cơ sở. 3. Dữ liệu mạng lưới cơ sở y tế và y tế dự phòng: - Danh sách tọa độ/quy mô các cơ sở khám chữa bệnh/trạm y tế, CSDL chứng chỉ hành nghề y/dược của y bác sĩ, Thống kê nhân lực ngành y tế (bác sĩ, điều dưỡng, kỹ thuật viên), Dữ liệu lịch sử và mạng lưới các điểm tiêm chủng, Danh sách các nhà thuốc/cơ sở bán lẻ thuốc đạt chuẩn, Danh sách cơ sở đủ điều kiện khám sức khỏe lao động/lái xe, Danh sách cơ sở công bố đủ điều kiện điều trị HIV/AIDS. |
| 22 | Dữ liệu giáo dục | 1. Dữ liệu mạng lưới và cơ sở vật chất giáo dục: - Danh sách/tọa độ các trường Mầm non, Danh sách trường phổ thông (Tiểu học, THCS, THPT), CSDL mạng lưới các trường Đại học/Cao đẳng/Học viện, Danh sách các trung tâm tin học/ngoại ngữ/GDTX, Dữ liệu về diện tích phòng học/phòng lab/thư viện/nhà thể chất, Danh sách cơ sở giáo dục đạt chuẩn quốc gia. 2. Dữ liệu về các chương trình đào tạo, giảng dạy - Dữ liệu Sách giáo khoa, bài giảng, giáo án, bài kiểm tra, bài thi các cấp học. - Dữ liệu các loại sách chuyên ngành. - Dữ liệu các nghiên cứu và kết quả nghiên cứu khoa học trong lĩnh vực giáo dục. 3. Dữ liệu nhân sự và quản lý chất lượng đào tạo: - CSDL đội ngũ giáo viên/giảng viên (trình độ, thâm niên, môn dạy), Dữ liệu quản lý cán bộ giáo dục các cấp, Dữ liệu kiểm định chất lượng giáo dục các cấp, Danh sách doanh nghiệp kinh doanh dịch vụ tư vấn du học, Dữ liệu các chương trình đào tạo liên kết quốc tế, Thông tin quy định học phí và các khoản thu sự nghiệp. 4. Dữ liệu người học và kết quả tuyển sinh: - Số liệu thống kê quy mô học sinh từng cấp học/khối lớp, Tỷ lệ đỗ tốt nghiệp/chuyển cấp/phân luồng học sinh, Dữ liệu chỉ tiêu tuyển sinh đại học/cao đẳng hàng năm, Điểm chuẩn xét tuyển các ngành học qua các năm, Thống kê tỷ lệ sinh viên tốt nghiệp có việc làm, Dữ liệu số lượng người học nhận học bổng/hỗ trợ khó khăn. |
| 23 | Dữ liệu tài chính và kinh tế | 1. Dữ liệu kinh tế vĩ mô và ngân sách: - Tốc độ tăng trưởng GRDP/GDP theo quý/năm/khu vực, Chỉ số giá tiêu dùng (CPI) phân theo nhóm hàng hóa, Chỉ số giá vàng/tỷ giá ngoại tệ, Số liệu thu chi Ngân sách Nhà nước (Trung ương/địa phương), Kết quả đấu thầu mua sắm tài sản công/dự án công, Kết quả phát hành Trái phiếu Chính phủ, Bản tin nợ công quốc gia. 2. Dữ liệu doanh nghiệp, đầu tư và lao động: - Thông tin đăng ký doanh nghiệp thành lập mới/giải thể/phá sản, Dữ liệu hồ sơ doanh nghiệp có vốn đầu tư nước ngoài (FDI), Dữ liệu vốn đầu tư toàn xã hội/vốn đầu tư công, Thông tin hoạt động của các Hợp tác xã/Liên hiệp HTX, Dữ liệu số lượng lao động trong các doanh nghiệp/KCN, CSDL doanh nghiệp thuộc diện rủi ro cao về thuế, Danh sách tổ chức hành nghề kế toán/kiểm toán. 3. Dữ liệu thị trường và thương mại: - Dữ liệu giao dịch trên thị trường chứng khoán (mã cổ phiếu, khối lượng), Kim ngạch xuất nhập khẩu hàng hóa theo thị trường/nhóm hàng, Chỉ số sản xuất công nghiệp (IIP), Năng lực sản xuất các sản phẩm công nghiệp chủ lực (ô tô, dệt may, cơ khí), Số liệu thống kê tổng mức bán lẻ hàng hóa/dịch vụ, Dữ liệu các chương trình khuyến mại tập trung, Danh sách các hội chợ/triển lãm thương mại, Dữ liệu cấp phép kinh doanh xăng dầu/hóa chất. |
| 24 | Dữ liệu môi trường và khí hậu | 1. Dữ liệu quan trắc và chất lượng môi trường: - Chỉ số chất lượng nước mặt/nước ngầm (WQI), Chỉ số chất lượng không khí (AQI) từ các trạm quan trắc tự động, Dữ liệu quan trắc môi trường nước biển ven bờ, Chỉ số độ mặn/độ đục của các lưu vực sông, Số liệu ô nhiễm kim loại nặng/dư lượng hóa chất trong đất, Dữ liệu thông số vi khí hậu (nhiệt độ, độ ẩm, sức gió). 2. Dữ liệu quản lý rác thải, nước thải, khí thải: - Số liệu thống kê khối lượng thu gom chất thải sinh hoạt, Dữ liệu xử lý chất thải rắn công nghiệp/chất thải nguy hại, Khối lượng phát thải khí nhà kính (GHG) hàng năm, CSDL giấy phép xả nước thải vào nguồn nước, Tỷ lệ KCN có hệ thống xử lý nước thải tập trung đạt chuẩn, Danh sách các bãi chôn lấp/nhà máy xử lý rác. 3. Dữ liệu khí hậu, thiên tai và đa dạng sinh học: - Bản tin dự báo/cảnh báo rủi ro thiên tai (lũ lụt, bão, hạn hán), Lượng mưa và nhiệt độ trung bình tại các trạm khí tượng, Dữ liệu bản đồ phân vùng rủi ro thiên tai, CSDL đa dạng sinh học (danh mục nguồn gen bảo tồn), Dữ liệu danh sách các loài động thực vật nguy cấp/quý hiếm, Số liệu diện tích khu bảo tồn thiên nhiên/hệ sinh thái. |
| 25 | Dữ liệu năng lượng và tài nguyên | 1. Dữ liệu năng lượng và tiêu thụ: - CSDL các cơ sở sử dụng năng lượng trọng điểm, Tổng sản lượng điện sản xuất và tiêu thụ theo ngành nghề, Công suất thiết kế của mạng lưới trạm biến áp/đường dây truyền tải, Lịch cấp/ngừng cung cấp điện khu vực, Thống kê công suất phát điện năng lượng tái tạo (mặt trời, gió), Dữ liệu biểu giá điện bán lẻ/giá bán buôn, CSDL điều hành giá cơ sở xăng dầu. 2. Dữ liệu khoáng sản và tài nguyên nước: - Hồ sơ giấy phép thăm dò/khai thác khoáng sản, Danh mục khu vực dự trữ/cấm khai thác khoáng sản quốc gia, Giấy phép khai thác/sử dụng tài nguyên nước mặt/nước ngầm, Dữ liệu trữ lượng khai thác các mỏ vật liệu xây dựng, Dữ liệu cấp phép nhận chìm vật chất ở biển, Dữ liệu quan trắc lưu lượng/mực nước các hồ chứa thủy điện. 3. Dữ liệu đất đai và quy hoạch: - CSDL Bảng giá đất đô thị/đất nông thôn do nhà nước ban hành, Dữ liệu chỉ tiêu quy hoạch/kế hoạch sử dụng đất cấp tỉnh/huyện, Diện tích chuyển đổi mục đích sử dụng đất, Thống kê quỹ đất nông nghiệp/đất khu công nghiệp/đất ở, Dữ liệu khung giá tính tiền thuê đất/thu tiền sử dụng đất, Danh mục các dự án thu hồi đất để phát triển KT-XH. |
| 26 | Dữ liệu hạ tầng viễn thông và mạng số | 1. Dữ liệu hạ tầng mạng và viễn thông: - Tọa độ/phân cấp các trạm thu phát sóng di động (BTS 2G/3G/4G/5G), Quy hoạch và hồ sơ cấp phép tần số vô tuyến điện, Danh sách các điểm phát sóng Wi-Fi công cộng miễn phí, Báo cáo thống kê tốc độ truy cập Internet băng rộng cố định/di động, Bản đồ mạng lưới tuyến cáp quang biển/cáp quang đất liền, Danh sách doanh nghiệp được cấp phép kinh doanh viễn thông. 2. Dữ liệu chuyển đổi số, tên miền và giao dịch: - CSDL số lượng tên miền quốc gia ".vn" đăng ký mới, Kết quả xếp hạng chỉ số chuyển đổi số (DTI) các bộ ngành/tỉnh thành, Danh sách các sản phẩm/nền tảng công nghệ số Make in Viet Nam, CSDL giao dịch kết nối mạng nền tảng tích hợp chia sẻ dữ liệu (NDXP), CSDL cấp phép chứng thực chữ ký số điện tử công cộng, Thống kê số lượng giao dịch thanh toán điện tử/dịch vụ công trực tuyến. 3. Dữ liệu doanh nghiệp và dịch vụ số: - Thống kê danh sách doanh nghiệp bưu chính/chuyển phát, Dữ liệu doanh thu dịch vụ viễn thông/CNTT, Danh mục các cơ quan/doanh nghiệp hoạt động lĩnh vực an toàn thông tin, Dữ liệu các khu công nghệ thông tin tập trung/khu phần mềm, Dữ liệu doanh nghiệp được xác nhận sản xuất sản phẩm phần mềm, Danh sách mạng xã hội/game online được cấp phép. |
| 27 | Dữ liệu bản đồ số và địa lý quốc gia | 1. Dữ liệu ranh giới, hành chính và hạ tầng xã hội: - Tọa độ ranh giới địa giới hành chính các cấp (Tỉnh, Huyện, Xã), Bản đồ hệ thống trụ sở cơ quan hành chính nhà nước, Bản đồ phân bố mạng lưới trường học các cấp, Bản đồ vị trí trạm y tế/bệnh viện/cơ sở khám chữa bệnh, Bản đồ phân bố các khu di tích/công trình văn hóa, Dữ liệu địa danh dân cư/thôn/bản/tổ dân phố. 2. Dữ liệu hạ tầng giao thông và đô thị (GIS): - Tọa độ không gian (GIS) tích hợp với bảng giá đất các tuyến đường, Bản đồ mạng lưới các tuyến xe buýt đô thị/điểm dừng đỗ, Hệ thống định vị không gian các cây cầu/bến cảng/nhà ga, Tọa độ các điểm neo đậu tàu thuyền tránh trú bão, Sơ đồ mạng lưới các tuyến đường bộ giao thông trọng điểm, Bản đồ không gian mạng lưới điện quốc gia/cấp thoát nước. 3. Dữ liệu chuyên đề tự nhiên và tài nguyên: - Bản đồ nền địa hình quốc gia chuẩn hóa các tỷ lệ, Bản đồ phân bố mạng lưới thủy văn/sông ngòi/hồ đập, Bản đồ phân vùng nguy cơ rủi ro thiên tai/ngập lụt/sạt lở, Bản đồ phân loại thổ nhưỡng/bản đồ đất nông nghiệp, Bản đồ hiện trạng che phủ rừng/rừng phòng hộ/rừng đặc dụng, Bản đồ quy hoạch khai thác khoáng sản/tài nguyên biển. |
| V | Dữ liệu phục vụ phát triển AI an toàn và đáng tin cậy (Nhóm dữ liệu phục vụ bộ lọc an toàn, chống rủi ro) | |
| 28 | Dữ liệu phát hiện nội dung độc hại | 1. Dữ liệu website, tên miền và tài khoản vi phạm: - Danh sách các website có dấu hiệu vi phạm pháp luật/lừa đảo, Dữ liệu tên miền bị cơ quan chức năng chặn/thu hồi, Danh sách tài khoản/fanpage mạng xã hội vi phạm tiêu chuẩn cộng đồng, CSDL danh sách địa chỉ IP đen (IP Blacklist)/server phát tán mã độc, Danh sách các website phát tán nội dung khiêu dâm/đồi trụy, Dữ liệu các hội nhóm trực tuyến xúi giục tự tử/hành vi nguy hiểm. 2. Dữ liệu văn bản, tin nhắn và ứng dụng độc hại: - Dữ liệu văn bản chứa ngôn từ kích động/thù ghét/bạo lực (bóc tách/gán nhãn), Bình luận mạng xã hội chứa ngôn từ thô tục/chửi thề, Tập hợp các mẫu email rác/tin nhắn rác (spam SMS/spam mail), Danh mục trò chơi điện tử lậu/game bài bạc bị cấm phát hành, Danh sách các ứng dụng (App) chứa mã độc/lấy cắp dữ liệu người dùng, Mẫu câu hội thoại lừa đảo chiếm đoạt tài sản qua điện thoại. 3. Dữ liệu hình ảnh và xử lý vi phạm: - Kho hình ảnh vi phạm bản quyền/vi phạm thuần phong mỹ tục, Hình ảnh mô tả các phương thức lừa đảo/giả mạo biên lai chuyển tiền, Hình ảnh/biểu tượng của các tổ chức phản động/khủng bố, CSDL hồ sơ quyết định xử phạt vi phạm hành chính lĩnh vực TT&TT, Dữ liệu báo cáo thống kê các vụ tấn công mạng/DDoS, Hình ảnh bạo lực học đường/bạo hành trẻ em (được che mờ dùng để huấn luyện AI nhận diện). |
| 29 | Dữ liệu phát hiện thông tin sai lệch | 1. Dữ liệu tin giả (Fake news) đã được kiểm chứng: - CSDL các mẫu tin giả đã được cơ quan chức năng đính chính/bác bỏ, tin đồn thất thiệt gây ảnh hưởng thị trường chứng khoán/tài chính/ngân hàng, Báo cáo giả mạo về tình hình thiên tai/dịch bệnh/bão lũ, Thông tin sai lệch về y tế/phương pháp chữa bệnh phản khoa học, Tin giả mạo tuyển dụng/lừa đảo xuất khẩu lao động "việc nhẹ lương cao", Các chiến dịch xuyên tạc chính sách của Đảng và Nhà nước. 2. Dữ liệu nguồn phát tán và hình thức sai lệch: - Danh sách trang thông tin điện tử được gắn nhãn tín nhiệm mạng (White list) để đối chiếu, Dữ liệu bài viết bôi nhọ uy tín doanh nghiệp và danh dự cá nhân, Hình ảnh bị cắt ghép/chỉnh sửa sai sự thật (ví dụ: photoshop văn bản nhà nước), Video bóp méo/cắt xén ngữ cảnh phát ngôn của lãnh đạo, Các mẫu bình luận định hướng dư luận sai lệch (Seeding), Thông tin giả mạo các cuộc thi/chương trình khuyến mãi trúng thưởng. 3. Dữ liệu phân tích hành vi thao túng: - Hồ sơ phân tích các chiến dịch lan truyền thông tin tự động (Sử dụng Bots, Troll farms), Báo cáo chuyên đề cảnh báo xu hướng tin giả từ trung tâm chống tin giả quốc gia, Dữ liệu cấu trúc mạng lưới tài khoản ảo chuyên chia sẻ tin giả, Kịch bản các đối tượng lừa đảo dùng để thao túng tâm lý nạn nhân, Dữ liệu thống kê nguồn gốc quốc gia phát tán tin giả vào Việt Nam, Các thuật ngữ/từ khóa thường dùng để giật tít câu view sai sự thật. |
| 30 | Dữ liệu phát hiện nội dung giả mạo do AI tạo ra | 1. Dữ liệu âm thanh và video giả mạo (Deepfake): - Bộ dữ liệu tệp âm thanh giả giọng nói người thật (Voice deepfake), Tệp mẫu giả mạo tiếng nói của người nổi tiếng/lãnh đạo/người có ảnh hưởng, Video ghép mặt nhân vật (Face-swap deepfake) dùng trong lừa đảo video call, Video giả mạo người dẫn chương trình tin tức/MC ảo (Virtual anchor), Âm thanh tổng hợp có chèn nhiễu/biến đổi để qua mặt hệ thống kiểm tra, Các mẫu video deepfake đồng bộ môi và giọng nói (Lip-sync deepfake). 2. Dữ liệu hình ảnh và tài liệu tổng hợp bằng AI: - Hình ảnh phong cảnh/chân dung tổng hợp bằng công nghệ GANs/Diffusion (Midjourney, DALL-E), Hình ảnh giả mạo tài liệu hành chính/con dấu/chữ ký, Dữ liệu hình ảnh giả mạo chứng minh thư/căn cước công dân (KYC spoofing), Dấu vân tay kỹ thuật số (Watermark) của các mô hình tạo ảnh nổi tiếng, Hình ảnh giả mạo biên lai chuyển khoản ngân hàng do AI tạo ra, Ảnh chụp sản phẩm/hàng hóa không có thật dùng để lừa đảo bán hàng. 3. Dữ liệu văn bản, y tế và sinh trắc học giả mạo: - Văn bản/bài báo/kịch bản lừa đảo được tự động sinh ra bởi các LLM (AI-generated text), Deepfake trong lĩnh vực y tế (giả mạo ảnh chụp X-quang, MRI để trục lợi bảo hiểm), Các mẫu video tấn công qua mặt hệ thống sinh trắc học khuôn mặt (Presentation Attack), Luận văn/bài tiểu luận học thuật viết hoàn toàn bằng AI để kiểm tra đạo văn, Mã nguồn (Code) độc hại do AI tự động sinh ra, Dữ liệu so sánh cặp văn bản “Người viết” và “AI viết” để huấn luyện mô hình phân biệt. |
| 31 | Dữ liệu kiểm thử an toàn và độ tin cậy của AI (dữ liệu hạn chế tiếp cận, chỉ cung cấp có kiểm soát theo quy định của pháp luật) | 1. Dữ liệu kịch bản tấn công hệ thống (Red-teaming): - Bộ kịch bản tấn công chèn mã lệnh độc hại vào câu hỏi (Prompt Injection), Bộ prompt vượt rào/đánh lừa hệ thống bảo vệ (Jailbreak prompts), Kịch bản thử nghiệm tấn công logic phần mềm/gây tràn bộ nhớ (Denial of Service prompt), Kịch bản yêu cầu AI tạo mã độc tự động/ransomware, Các câu hỏi đính kèm ký tự ẩn/mã hóa base64 để qua mặt bộ lọc, Kịch bản tấn công lừa AI thực hiện giao dịch tài chính trái phép. 2. Dữ liệu kiểm tra đạo đức và giới hạn từ chối: - Câu hỏi chứa định kiến/thiên lệch về giới tính/nghề nghiệp/độ tuổi, Câu hỏi kích động phân biệt vùng miền/tôn giáo/chủng tộc/dân tộc, Kịch bản ép AI hướng dẫn thực hiện hành vi phạm tội (trộm cắp, buôn lậu), Kịch bản ép AI hướng dẫn chế tạo vũ khí/chất nổ/chất cấm, Tình huống kiểm tra khả năng từ chối trả lời an toàn/lịch sự (Refusal testing), Câu hỏi xúi giục tự tử/bạo lực bản thân. 3. Dữ liệu kiểm tra tính chính xác, bảo mật và ảo giác: - Bộ kịch bản cố tình yêu cầu AI trích xuất thông tin cá nhân/thẻ tín dụng (PII leak), Bài kiểm tra rò rỉ dữ liệu huấn luyện có bản quyền/bí mật nhà nước, Bộ câu hỏi mập mờ ngữ nghĩa/sự kiện không có thật để đo lường độ ảo giác (Hallucination), Kịch bản yêu cầu AI đưa ra tư vấn y tế/kê đơn thuốc trái thẩm quyền, Kịch bản yêu cầu tư vấn đầu tư tài chính/chứng khoán sai lệch quy chuẩn, Câu hỏi yêu cầu AI cung cấp quan điểm cá nhân về chính trị/đảng phái. |
Bạn chưa Đăng nhập thành viên.
Đây là tiện ích dành cho tài khoản thành viên. Vui lòng Đăng nhập để xem chi tiết. Nếu chưa có tài khoản, vui lòng Đăng ký tại đây!