- Tổng quan
- Nội dung
- Tiêu chuẩn liên quan
- Lược đồ
- Tải về
Tiêu chuẩn TCVN 14365:2025 Công nghệ thông tin - Trí tuệ nhân tạo - Tổng quan về các phương pháp tính toán cho các hệ thống trí tuệ nhân tạo
| Số hiệu: | TCVN 14365:2025 | Loại văn bản: | Tiêu chuẩn Việt Nam |
| Cơ quan ban hành: | Bộ Khoa học và Công nghệ | Lĩnh vực: | Khoa học-Công nghệ , Sở hữu trí tuệ |
|
Ngày ban hành:
Ngày ban hành là ngày, tháng, năm văn bản được thông qua hoặc ký ban hành.
|
02/06/2025 |
Hiệu lực:
|
Đã biết
|
| Người ký: | Đang cập nhật |
Tình trạng hiệu lực:
Cho biết trạng thái hiệu lực của văn bản đang tra cứu: Chưa áp dụng, Còn hiệu lực, Hết hiệu lực, Hết hiệu lực 1 phần; Đã sửa đổi, Đính chính hay Không còn phù hợp,...
|
Đã biết
|
TÓM TẮT TIÊU CHUẨN VIỆT NAM TCVN 14365:2025
Nội dung tóm tắt đang được cập nhật, Quý khách vui lòng quay lại sau!
Tải tiêu chuẩn Việt Nam TCVN 14365:2025
TIÊU CHUẨN QUỐC GIA
TCVN 14365:2025
ISO/IEC TR 24372:2021
CÔNG NGHỆ THÔNG TIN - TRÍ TUỆ NHÂN TẠO - TỔNG QUAN VỀ CÁC PHƯƠNG PHÁP TÍNH TOÁN CHO CÁC HỆ THỐNG TRÍ TUỆ NHÂN TẠO
Information technology- Artificial intelligence (AI)- Overview of computational approaches for Al systems
Lời nói đầu
TCVN 14365:2025 được xây dựng hoàn toàn tương đương với tiêu chuẩn quốc tế ISO/IEC TR 24372:2021.
TCVN 14365:2025 do Viện Công nghiệp số và Chuyển đổi số quốc gia biên soạn và đề nghị, Ủy ban Tiêu chuẩn Đo lường Chất lượng Quốc gia thẩm định, Bộ Khoa học và Công nghệ công bố.
Lời giới thiệu
Các sản phẩm, hệ thống và giải pháp dựa trên công nghệ trí tuệ nhân tạo (AI) đã trở nên phổ biến hơn trong những năm gần đây nhờ những cải tiến nhanh chóng về phần mềm và phần cứng, giúp tăng cường hiệu năng tính toán, khả năng lưu trữ dữ liệu và băng thông mạng. Mục đích của tiêu chuẩn này là xem xét các phương pháp và cách tiếp cận tính toán trong các hệ thống AI. Trên cơ sở các tiêu chuẩn TCVN 13902:2023 (ISO/IEC 22989), TCVN 14364:2025 (ISO/IEC 23053) và ISO/IEC TR 24030, tiêu chuẩn này cung cấp mô tả các đặc điểm và cách tiếp cận tính toán của hệ thống AI. Cách tiếp cận tính toán trong hệ thống AI được thể hiện cho cả phương pháp học máy và không phải học máy. Để phản ánh các phương pháp tiên tiến nhất được sử dụng trong AI, tiêu chuẩn này được cấu trúc như sau:
- Điều 5 đưa ra mô tả chung về các cách tiếp cận tính toán trong các hệ thống AI;
- Điều 6 đề cập đến các đặc điểm chính của các hệ thống AI;
- Điều 7 đưa ra phân loại chung về các cách tiếp cận tính toán, bao gồm tiếp cận dựa trên tri thức và tiếp cận dựa trên dữ liệu;
- Điều 8 đề cập đến các thuật toán được lựa chọn sử dụng trong các hệ thống AI, bao gồm cơ sở lý thuyết và các kỹ thuật cơ bản, các đặc điểm chính và ứng dụng điển hình.
Bằng việc tổng quan các công nghệ khác nhau sử dụng trong hệ thống AI, tiêu chuẩn này giúp các đối tượng sử dụng hiểu các đặc điểm và phương pháp tiếp cận tính toán trong AI.
CÔNG NGHỆ THÔNG TIN - TRÍ TUỆ NHÂN TẠO - TỔNG QUAN VỀ CÁC PHƯƠNG PHÁP TÍNH TOÁN CHO CÁC HỆ THỐNG TRÍ TUỆ NHÂN TẠO
Information technology- Artificial intelligence (AI)- Overview of computational approaches for Al systems
1 Phạm vi áp dụng
Tiêu chuẩn này cung cấp cái nhìn tổng quan về các phương pháp tính toán tiên tiến nhất cho các hệ thống AI bằng việc mô tả: a) các đặc điểm tính toán chính của các hệ thống AI; b) các thuật toán và phương pháp tiếp cận chính sử dụng trong các hệ thống AI, tham khảo các trường hợp sử dụng có trong ISO/IEC TR 24030.
2 Tài liệu viện dẫn
Các tài liệu viện dẫn sau đây rất cần thiết cho việc áp dụng tiêu chuẩn này. Đối với các tài liệu viện dẫn ghi năm công bố thì áp dụng phiên bản được nêu. Đối với các tài liệu viện dẫn không ghi năm công bố thì áp dụng phiên bản mới nhất, bao gồm cả các sửa đổi (nếu có).
TCVN 13902:2023 (ISO/IEC 22989), Công nghệ thông tin - Trí tuệ nhân tạo - Các khái niệm và thuật ngữ trí tuệ nhân tạo.
TCVN 14364:2025 (ISO/IEC 23053), Công nghệ thông tin - Trí tuệ nhân tạo - Khung cho hệ thống trí tuệ nhân tạo sử dụng học máy (ML).
3 Thuật ngữ và định nghĩa
Trong tiêu chuẩn này sử dụng các thuật: ngữ, định nghĩa trong TCVN 13902:2023 (ISO/IEC 22989), TCVN 14364:2025 (ISO/IEC 23053) và các thuật ngữ, định nghĩa sau.
3.1
Tìm kiếm heuristic (heuristic search)
Khám phá, dựa trên kinh nghiệm và phán đoán, sử dụng để thu được kết quả chấp nhận được mà không đảm bảo sự thành công.
[NGUỒN: ISO/IEC 2382:2015, 2123854 sửa đổi - xóa chú thích].
3.2
Logic mờ(fuzzy logic)
Tập mờlogic (fuzzy-set logic)
Logic phi truyền thống, trong đó các dữ kiện, quy tắc suy luận và định lượng là các yếu tố chắc chắn cho trước.
[NGUỒN: ISO/IEC 2382:2015, 2123795 sửa đổi - xóa chú thích]
3.3
Bộ tạo sinh(generator)
Mạng nơ-ron tạo ra các mẫu thường được phân loại bởi bộ phân biệt.
CHÚ THÍCH 1: Các bộ tạo sinh chủ yếu xuất hiện trong ngữ cảnh của các mạng đối nghịch tạo sinh.
3.4
Bộ phân biệt(discriminator)
mạng nơ-ron phân loại các mẫu thường được tạo bởi một bộ tạo sinh
CHÚ THÍCH 1: Bộ phân biệt chủ yếu xuất hiện trong bối cảnh của các mạng đối nghịch tạo sinh.
3.5
Mạng đối nghịch tạo sinh(generative adversarial network GAN)
Kiến trúc mạng nơ-ron bao gồm một hoặc nhiều bộ tạo sinh và một hoặc nhiều bộ phân biệt có sự cạnh tranh với nhau để cải thiện hiệu năng mô hình.
3.6
Nền tảng(platform)
Sự kết hợp của một hệ điều hành và phần cứng tạo nên môi trường hoạt động để chạy chương trình.
[NGUỒN: ISO/IEC/IEEE 26513:2017, 3.30]
3.7
Tri giác (perceptron)
Mạng nơ-ron chứa một nơ-ron nhân tạo, có giá trị đầu ra nhị phân hoặc liên tục được xác định bằng cách áp dụng một hàm đơn điệu cho tổ hợp tuyến tính của các giá trị đầu vào với học sửa lỗi.
CHÚ THÍCH 1: Tri giác tạo thành hai vùng quyết định được tách biệt bằng một siêu phẳng.
CHÚ THÍCH 2: Đối với các giá trị đầu vào nhị phân, tri giác không thể thực hiện phép toán không tương đương (EXCLUSIVE OR, XOR).
[NGUỒN: ISO/IEC 2382:2015, 2120656 sửa đổi - thuật ngữ được sửa đổi, bổ sung "hoặc liên tục" vào định nghĩa và xóa Chú thích 3 và 4]
4 Chữ viết tắt
| AI | Artificial intelligence | Trí tuệ nhân tạo |
| ASIC | Application-specific integrated circuit | Mạch tích hợp được thiết kế cho các ứngdụng cụ thể |
| BERT | Bidirectional encoder representations from transformers | Biểu diễn mã hóa hai chiều từ bộ chuyển đổi |
| BPTT | Back propagation through time | Lan truyền ngược theo thời gian |
| CNN | Convolutional neural network | Mạng nơ-ron tích chập |
| CPU | Central processing unit | Bộ xử lý trung tâm (đơn vị xử lý trung tâm) |
| DAG | Directed acyclic graph | Đồ thị không lặp vòng có hướng |
| DNN | Deep neural network | Mạng nơ-ron sâu |
| ERM | Empirical risk minimization | Giảm thiểu rủi ro theo kinh nghiệm |
| FFNN | Feedforward neural network | Mạng nơ-ron tiến |
| FPGA | Field programmable gate array | Mảng cổng lập trình dạng trường |
| GDM | Gradient descent method | Phương pháp giảm độ dốc |
| GPU | Graphics processing unit | Khối xử lý đồ họa |
| GPT | Generative pre-training | Tạo sinh huấn luyện trước |
| loT | Internet of things | Internet vạn vật |
| KG | Knowledge graph | Đồ thị tri thức |
| KNN | K-nearest neighbour | K-láng giềng gần nhất |
| LSTM | Long short-term memory | Bộ nhớ ngắn-dài hạn |
| MFCC | Mel-frequency cepstrum coefficient | Hệ số phổ tần số Mel |
| MLM | Masked language model | Mô hình ngôn ngữ đánh dấu |
| NER | Named entity recognition | Nhận dạng thực thể được đặt tên |
| NLP | Natural language processing | Xử lý ngôn ngữ tự nhiên |
| NSP | Next sentence prediction | Dự đoán câu tiếp theo |
| OWL | Web ontology language | Ngôn ngữ bản thể luận Web |
| QA | Question answering | Hệ thống trả lời câu hỏi |
| RDF | Resource description framework | Khung mô tả tài nguyên |
| RNN | Recurrent neural network | Mạng nơ-ron hồi quy |
| RTRL | Real-time recurrent learning | Học hồi quy thời gian thực |
| SPARQL | SPARQL protocol and RDF query language | Giao thức SPARQL và ngôn ngữ truy vấnRDF |
| SQL | Structured query language | Ngôn ngữ truy vấn có cấu trúc |
| SRM | Structure risk minimization | Giảm thiểu rủi ro cấu trúc |
| SVM | Support vector machine | Máy véc tơ hỗ trợ |
| URI | Uniform resource identifier | Bộ định danh tài nguyên thống nhất |
| XML | Extensible markup language | Ngôn ngữ đánh dấu mở rộng |
5 Tổng quan
Những tiến bộ trong phương pháp tính toán là một động lực quan trọng trong quá trình trưởng thành của AI để có khả năng xử lý các tác vụ khác nhau. Các phương pháp AI ban đầu chủ yếu dựa trên quy tắc và tri thức. Gần đây các phương pháp dựa trên dữ liệu như mạng nơ-ron nhân tạo đã trở nên nổi bật. Các phương pháp tính toán AI đang phát triển trong lĩnh vực công nghiệp và cộng đồng học thuật và là mối quan tâm lớn trong các hệ thống AI.
Các phương pháp tính toán cho các hệ thống AI thường được phân loại dựa trên các tiêu chí khác nhau.
Một trong số đó là theo mục đích của hệ thống AI. Phân loại dựa trên mục đích phù hợp với các nghiên cứu về AI [1] và bao hàm cả một phân loại mẫu cho các dạng phổ biến.
a) Các phương pháp tìm kiếm. Cách tiếp cận này có thể chia thành nhiều loại tìm kiếm khác nhau: thuật toán tìm kiếm cổ điển, nâng cao, tìm kiếm đối nghịch và tìm kiếm sự thỏa mãn ràng buộc.
1) Thuật toán tìm kiếm cổ điển giải quyết vấn đề bằng cách tìm kiếm trên một vài không gian trạng thái và có thể được chia thành tìm kiếm đồng dạng và tìm kiếm heuristic, áp dụng quy tắc thông thường để hướng dẫn và tăng tốc độ tìm kiếm.
2) Thuật toán tìm kiếm nâng cao bao gồm những thuật toán tìm kiếm trong không gian con cục bộ mang tính bất định, quan sát một phần không gian tìm kiếm bằng các phiên bản trực tuyến của thuật toán tìm kiếm.
3) Thuật toán tìm kiếm đối nghịch tìm kiếm khi có mặt đối phương và thường được sử dụng trong trò chơi. Chúng bao gồm các thuật toán đáng chú ý như cắt tỉa alpha-beta và bao hàm các biến đổi ngẫu nhiên có thể quan sát được từng phần.
4) Các bài toán thỏa mãn ràng buộc được giải quyết khi mỗi một biến trong bài toán có giá trị thỏa mãn mọi ràng buộc.
b) Logic, lập kế hoạch và tri thức. Cách tiếp cận này có thể được chia thành ba trường hợp: logic, lập kế hoạch và tìm kiếm không gian trạng thái, biểu diễn tri thức.
1) Logic, chẳng hạn như logic mệnh đề và logic bậc nhất được sử dụng trong AI cổ điển để biểu diễn tri thức. Giải pháp cho vấn đề trong các hệ thống tính toán như vậy liên quan đến suy luận logic bằng cách sử dụng các thuật toán có lời giải.
2) Lập kế hoạch trong các hệ thống AI cổ điển liên quan đến việc tìm kiếm trên một vài khônggian trạng thái cũng như phần mở rộng của thuật toán để xử lý lập kế hoạch trong thế giới thực. Các phương pháp để giải quyết sự phức tạp của việc lập kế hoạch trong thế giới thực liên quan đến các ràng buộc về thời gian và tài nguyên, lập kế hoạch theo thứ bậc trong đó các vấn đề được giải quyết ở mức độ trừu tượng trước khi giải quyết ở mức chi tiết, hệ thống đa tác nhân xử lý sự không chắc chắn và các tác từ khác trong hệ thống.
3) Biểu diễn tri thức là một loại cấu trúc dữ liệu để mô tả tri thức bằng logic vị từ, tạo ra cácquy tắc "nếu-thì" và biểu diễn khung tri thức.
c) Tri thức và lập luận không chắc chắn. Các phương pháp tiếp cận trong lĩnh vực này xử lý tri thức có khả năng bị thiếu, không chắc chắn hoặc không đầy đủ. Chúng thường sử dụng xác suất hoặc logic mở để biểu diễn các khái niệm. Các hệ thống tính toán xác suất lập luận bằng cách sử dụng quy tắc Bayes, mạng Bayes, mô hình Markov ẩn (trong tình huống phụ thuộc vào thời gian) hoặc bộ lọc Kalman. Các phương pháp tính toán khác được sử dụng để ra quyết định bao gồm phương pháp dựa trên lý thuyết thực dụng và mạng quyết định.
d) Học trong lĩnh vực này giải quyết vấn đề làm cho máy tính học tương tự như con người. Cácphương pháp tiếp cận có thể nhóm thành: học từ các mẫu, học dựa trên tri thức, học xác suất, học tăng cường, học sâu, GAN và các phương pháp học khác.
1) Học từ các mẫu liên quan đến các phương pháp học có giám sát để một mô hình học học máy từ dữ liệu được dán nhãn. Nó bao gồm các phương pháp như cây quyết định, phương pháp hồi quy tuyến tính và logistic, mạng nơ-ron nhân tạo, phương pháp phi tham số (ví dụ KNN), SVM và phương pháp học quần thể (ví dụ: đóng gói, tăng tốc và biến thể của rừng ngẫu nhiên).
2) Các phương pháp học dựa trên tri thức bao gồm phương pháp tiếp cận dựa trên logic, học dựa trên diễn giải và lập trình quy nạp logic.
3) Học xác suất liên quan đến các phương pháp tính toán như phương pháp Bayes và phương pháp tối đa hóa kỳ vọng.
4) Học tăng cường liên quan đến các hệ thống tính toán nhận phản hồi, đưa ra quyết định và thực hiện hành động trong môi trường để tối đa hóa phần thưởng tổng thể. Các thuật toán đáng chú ý bao gồm học khác biệt theo thời gian và Q-learning.
5) Phương pháp tiếp cận mạng nơ-ron học sâu liên quan đến các phương pháp tính toán hiện đại với nhiều lớp ẩn, bao gồm mạng lan truyền thẳng, chính tắc hóa, phương pháp tối ưu hóa hiện đại, CNN và phương pháp học tuần tự như mạng LSTM.
6) GAN liên quan đến hai mạng có tính ganh đua với nhau, bộ tạo sinh và bộ phân biệt. Bộ tạo sinh có nhiệm vụ tạo ra các mẫu và bộ phân biệt phân loại từng mẫu là thật hay giả. Sau quá trình lặp, bộ tạo sinh được huấn luyện để có thể sử dụng trong các ứng dụng như tạo ra hình ảnh nhân tạo.
7) Các phương pháp học khác bao gồm học không giám sát, liên quan đến xác định bản chất cấu trúc của bộ dữ liệu; học bán giám sát, liên quan đến các bộ dữ liệu được dán nhãn một phần; thuật toán học trực tuyến, tiếp tục học khi chúng nhận được dữ liệu; học mạng: lưới và quan hệ, học xếp hạng và sở thích, học đại diện, học chuyển giao và học tích cực.
e) Suy diễn. Cách tiếp cận này thể hiện ứng dụng của hệ thống AI trong việc ước tính các tham số hoặc khía cạnh của (hoặc phân loại dữ liệu mới hoặc dữ liệu chưa được quan sát) tham số đã học được, thu được hoặc xác định được. Suy diễn Bayes là hoạt động suy diễn thống kê theo quan điểm Bayes. Suy diễn xấp xỉ, chẳng hạn như suy diễn biến phân, giải quyết bài toán suy luận bằng cách lấy giá trị xấp xỉ tốt nhất theo thống kê. Thuật toán Monte Carlo tạo các mẫu từ một phân phối đã biết nhưng khó được chuẩnhóa để suy ra số liệu thống kê từ các mẫu đã tạo. Suy diễn nhân quả liên quan đến suy diễn các kết nối nhân quả của dữ liệu được quan sát.
f) Giảm chiều. Các phương pháp tính toán này liên quan đến việc giảm số lượng kích thước của dữ liệu bằng thuật toán giảm kích thước (trích xuất đặc trưng), xác định số lượng thuộc tính mới nhỏ hơn để biểu diễn dữ liệu; hoặc lựa chọn đặc trưng bằng cách chọn một tập hợp con có các thuộc tính phù hợp nhất.
g) Giao tiếp, nhận thức và hành động. Các phương pháp tính toán trong các lĩnh vực này liên quan tới NLP (bao gồm các tác vụ như mô hình hóa ngôn ngữ, phân loại văn bản, thu thập thông tin, trích xuất thông tin, phân tích cú pháp, dịch máy và nhận dạng tiếng nói), thị giác máy tính (bao gồm xử lý hình ảnh, nhận dạng đối tượng) và người máy .
Các loại hình và loại hình phụ nói trên không loại trừ lẫn nhau. Ví dụ phương pháp học sâu [d)5)] có thể là học giám sát [d)1)], học không giám sát [d)7)]; học tăng cường [d)4)] có thể đạt được thông qua học sâu [d)5)]; phương pháp dịch máy hoặc nhận dạng đối tượng [g)] có thể là các cách tiếp cận học [d)].
TCVN 13902:2023 (ISO/IEC 22989) chỉ định các khái niệm và thuật ngữ liên quan đến các phương pháp tính toán AI. TCVN 14364:2025 (ISO/IEC 23053) cung cấp khuôn khổ cho các hệ thống AI sử dụng học máy, bao gồm các thuật toán học máy, thuật toán tối ưu hóa và phương pháp học máy. ISO/IEC TR 24030 thu thập và phân tích các trường hợp sử dụng AI.
6 Đặc điểm chính của hệ thống AI
6.1 Khái quát chung
Không phải tất cả các hệ thống AI đều dựa trên học máy hoặc mạng nơ-ron. Để chứng minh tính đa dạng của hệ thống AI, một số đặc điểm thường gặp của hệ thống AI được mô tả trong 6.2 và 6.3. Những đặc điểm này có tính khái niệm rộng và không gắn với một phương pháp hoặc kiến trúc cụ thể. Nhìn chung, những đặc điểm này giúp phân biệt hệ thống AI với các hệ thống không phải AI.
Một số đặc điểm của hệ thống AI là phổ biến và được áp dụng rộng rãi cho các trường hợp sử dụng khác nhau. Một số khác dành riêng cho một số ít trường hợp sử dụng trong một lĩnh vực cụ thể. Nội dung điều này nêu danh mục các đặc điểm của hệ thống AI, danh mục này chưa đầy đủ nhưng chứa các thuộc tính nội tại của nhiều hệ thống AI. Mặc dù danh mục này không giới hạn ở một công nghệ cụ thể nào (chẳng hạn như hệ thống AI được xây dựng bằng mạng nơ-ron), nhưng nó không bao gồm mọi loại hình hệ thống AI động.
6.2 Đặc điểm chính của hệ thống AI
6.2.1 Có thể thích ứng
Một số hệ thống AI thích ứng với những thay đổi khác nhau của chính nó và môi trường mà nó được triển khai. Sự thích ứng như vậy phụ thuộc vào nhiều yếu tố, bao gồm dữ liệu bên trong, kiến trúc của hệ thống hoặc các quyết định kỹ thuật khác được đưa ra khi triển khai.
Các hệ thống AI thường hoạt động trên môi trường điện toán đám mây phía máy chủ với quyền truy cập vào điện toán hiệu năng cao và các tài nguyên khác. Với sự phát triển của các hệ thống loT có khả năng tính toán đa năng trên GPU và CPU đa lõi, hoặc xử lý AI trên bộ xử lý và bộ tăng tốc dành riêng cho ứng dụng, khả năng thích ứng của hệ thống AI hiện mở rộng sang những cân nhắc về triển khai loT, chẳng hạn như xử lý dữ liệu gần thời gian thực, tối ưu hóa để có độ trễ thấp và hiệu suất tiết kiệm điện năng cao.
6.2.2 Tính xây dựng
Một số hệ thống AI xây dựng hoặc tạo các đầu ra tĩnh hoặc động dựa trên tiêu chí đầu vào xác định. Điều này áp dụng cho các phương pháp bao gồm học không giám sát và học tạo sinh.
6.2.3 Tính phối hợp
Một số hệ thống AI phối hợp giữa các tác nhân. Tác nhân cũng có thể là hệ thống AI hiểu theo cách thức nào đó nhưng không cần thiết phải như vậy. Nhiều ràng buộc đồng thời có thể chi phối hành vi của tác nhân, bao gồm cả cách thức tĩnh hoặc động. Sự phối hợp có thể được thể hiện rõ ràng thông qua đàm phán trực tiếp giữa các hệ thống hoặc ngầm định thông qua phản ứng trước những thay đổi của môi trường.
6.2.4 Tính động
Một số hệ thống AI thể hiện khả năng ra quyết định linh hoạt dựa trên các,nguồn dữ liệu bên ngoài. Những nguồn dữ liệu này có thể đến từ các nền tảng phần mềm khác, từ môi trường vật lý hoặc từ các nguồn khác.
6.2.5 Tính có thể giải thích được
Một số hệ thống AI cung cấp cơ chế giải thích điều gì dẫn đến quyết định hoặc kết quả đầu ra. Đầu ra này có thể ở nhiều dạng, có thể rõ ràng hoặc ẩn dụ theo thiết kế hệ thống AI. Hệ thống AI có thể giải thích được có thể đóng góp hoặc bổ sung cho độ tin cậy, độ chính xác và tính hiệu quả. Khả năng giải thích cũng có thể dùng để so sánh và tối ưu hóa hiệu năng của mô hình học máy bằng cách tạo ra những hiểu biết sâu sắc về các yếu tố làm giảm hiệu năng. Khả năng giải thích có thể là một biện pháp quan trọng chống lại hành vi lừa đảo trong hệ thống AI.
6.2.6 Tính phân biệt hoặc tạo sinh
Một số hệ thống AI có tính phân biệt, được thiết kế để phân biệt khả năng xuất hiện của kết quả đầu ra, chẳng hạn như bằng cách loại trừ các xác suất tiên nghiệm. Ngoài ra một số hệ thống AI có tính tạo sinh, được thiết kế để thể hiện các khía cạnh liên quan của dữ liệu, chẳng hạn như bằng đưa vào các xác suất tiên nghiệm.
6.2.7 Tính tự suy
Một số hệ thống AI tự giám sát để thích ứng với môi trường hoặc cung cấp thông tin chi tiết về chức năng của chúng, chẳng hạn như trong tình huống kiểm tra. Việc tự giám sát này có thể là thích ứng, tình huống phụ thuộc hoặc cố định và có thể có các hình thức khác tùy thuộc vào kiến trúc hệ thống.
Để hỗ trợ các hệ thống AI tự suy, chức năng giám sát hiệu năng sẽ thu thập và báo cáo các số liệu hiệu suất liên quan đến tài nguyên tính toán của CPU, GPU hoặc bộ xử lý dành riêng cho ứng dụng, bộ nhớ và việc sử dụng tài nguyên hệ thống khác. Thông tin này có thể được sử dụng để định cấu hình tài nguyên hệ thống AI, chẳng hạn như phân bổ bộ nhớ, cấu hình lõi và cân bằng tải trên hệ thống phần cứng lai hoặc đa bộ xử lý, đồng thời cho phép hệ thống AI xử lý song song và tăng tốc đào tạo hoặc suy diễn đối với mô hình học máy.
6.2.8 Được huấn luyện hoặc có thể huấn luyện
Một số hệ thống AI được huấn luyện bằng một bộ dữ liệu trước khi triển khai hoặc được huấn luyện một cách linh hoạt (thông qua khả năng thích ứng) khi hệ thống được sử dụng. Có nhiều kiến trúc khả thi cho hệ thống có những đặc điểm này (ví dụ: mạng nơ-ron, mô hình Markov ẩn).
6.2.9 Đáp ứng sự đa dạng của dữ liệu
Một số hệ thống AI xử lý lượng lớn dữ liệu không đồng nhất có cấu trúc hoặc không có cấu trúc, tĩnh hoặc theo luồng. Hệ thống AI có thể nắm rõ các thông tin quan trọng bên trong các bộ dữ liệu khác nhau giúp con người đưa ra quyết định tốt và chính xác hơn.
6.3 Đặc điểm tính toán của hệ thống AI
6.3.1 Dựa trên dữ liệu hoặc dựa trên tri thức
Một đặc điểm của phương pháp tính toán AI dựa trên dữ liệu là mô hình tính toán được đào tạo trên một hoặc nhiều nguồn dữ liệu để tiếp thu tri thức.
Những yếu tố cần xem xét khi sử dụng dữ liệu trong hệ thống AI bao gồm việc thu thập, lưu trữ và truy cập.
a) Thu thập dữ liệu. Trường hợp sử dụng và tác vụ của ứng dụng AI thường quy định loại dữ liệu cần thu thập để huấn luyện. Các tác vụ điển hình của hệ thống AI được phản ánh trong TCVN 13902:2023 (ISO/IEC 22989) và TCVN 14364:2025 (ISO/IEC 23053) bao gồm phân loại, phân nhóm, phân cụm (khái niệm), hồi quy, dự đoán, tối ưu hóa, NLP (văn bản hoặc tiếng nói), nhận thức và kiểm soát hệ thống hoặc hướng dẫn hành vi. Tùy thuộc vào ứng dụng và tác vụ, nhà phát triển hệ thống AI có thể thu thập dữ liệu đào tạo thông qua phần cứng thông minh (ví dụ: vòng đeo tay thông minh, đồng hồ thông minh, điện thoại thông minh), cảm biến loT (ví dụ: cảm biến trọng lực, cảm biến nhiệt độ, cảm biến độ ẩm), máy ảnh, micrô hoặc các cảm biến khác.
b) Lưu trữ dữ liệu. Dữ liệu thu thập được lưu trữ ở định dạng và cấu trúc phù hợp với tác vụ và ứng dụng của hệ thống AI. Các phương pháp tiếp cận và điều kiện lưu trữ có thể khác nhau trong quá trình huấn luyện và đánh giá. Ngoài ra lưu trữ phân tán và chia sẻ có thể là những yếu tố quan trọng cần xem xét trong lưu trữ dữ liệu.
c) Truy cập dữ liệu. Việc truy cập và truy xuất nhanh chóng lượng lớn dữ liệu thường là cần thiết trong các hệ thống AI. Kỹ thuật cân bằng tải thường được sử dụng để giải quyết các thách thức về xử lý đồng thời dữ liệu và tình trạng quá tải mạng.
Ngoài các tác vụ và ứng dụng dựa trên tri thức, nhận thức thông minh trở thành một khía cạnh quan trọng của hệ thống AI, trong đó điện toán nhận thức được tích hợp với tri thức công nghiệp. Sử dụng các kỹ thuật như NLP và KG, hệ thống AI có thể tiết lộ tri thức tiềm ẩn và cung cấp những hiểu biết sâu sắc về các quan hệ, logic hoặc các hình thái mà dễ dàng nhận ra bởi con người.
VÍ DỤ: Khi sử dụng KG, dữ liệu quy trình kinh doanh được tích lũy có thể được chuyển đổi thành kinh nghiệm và tri thức của tổ chức. Chúng có thể được sử dụng để giảm chi phí giao tiếp giữa các bộ phận khác nhau.
6.3.2 Dựa trên cơ sở hạ tầng
Các hệ thống AI có thể phải đối mặt với những thách thức đồng thời xảy ra trong việc tối ưu hóa thiết kế nền tảng điện toán, hiệu quả tính toán trong môi trường không đồng nhất và phức tạp, các khung tính toán song song và có quy lớn cũng như hiệu năng tính toán của các ứng dụng AI. Một giải pháp khả thi cho những thách thức như vậy là sử dụng cơ sở hạ tầng mạnh mẽ để đáp ứng năng lực tính toán.
Cơ sở hạ tầng như vậy có thể bao gồm cảm biến, máy chủ, mạng, bộ xử lý, bộ lưu trữ và các yếu tố khác. Bộ xử lý dựa trên Silicon thường được sử dụng cho cả việc huấn luyện và suy luận trong các phương pháp học máy. Khi xử lý lượng lớn dữ liệu huấn luyện hoặc cấu trúc DNN phức tạp, quy trình huấn luyện thường cần thực hiện các phép tính quy mô lớn trên hệ thống xử lý đa lõi hoặc cụm tăng tốc.
So với huấn luyện, suy diễn sử dụng cường độ tính toán ít hơn, nhưng vẫn có thể yêu cầu các phép tính ma trận với khối lượng tính toán đáng kể. Theo truyền thống, việc huấn luyện và suy luận được triển khai trên các máy chủ đám mây, trong khi các trường hợp sử dụng thường yêu cầu xử lý theo thời gian thực để có thể triển khai chức năng suy diễn trên các thiết bị biên.
Tùy thuộc vào kiến trúc kỹ thuật, bộ xử lý dựa trên Silicon dành cho AI bao gồm bộ xử lý đa năng (ví dụ: CPU, GPU và FPGA), bộ xử lý bán tùy chỉnh dựa trên FPGA, bộ xử lý ASIC tùy chỉnh hoàn toàn và bộ xử lý điện toán giống não bộ. Các khối xử lý thị giác, xử lý học sâu, xử lý mạng nơ-ron và các bộ xử lý dành riêng cho ứng dụng khác cũng có thể phù hợp với các kịch bản và chức năng AI khác nhau.
Các cảm biến với bộ vi xử lý để thu thập, xử lý và truyền thông tin có thể được sử dụng để cung cấp các nhận biết đầy đủ về môi trường bên ngoài. Triển khai và ứng dụng cảm biến quy mô lớn có thể hỗ trợ thu thập dữ liệu cho các ứng dụng AI. Hơn nữa, các yêu cầu về cảm biến chuyên dụng là cần thiết cho các ứng dụng nhà thông minh, y tế thông minh và bảo mật thông minh. Sự phát triển của cảm biến thông minh cho các ứng dụng AI phụ thuộc vào các yếu tố quan trọng như độ chính xác cao, độ tin cậy cao, khả năng thu nhỏ và tích hợp cũng như độ nhạy cao.
6.3.3 Phụ thuộc vào thuật toán
TCVN 13902:2023 (ISO/IEC 22989) định nghĩa học máy là một quá trình tối ưu hóa các tham số mô hình thông qua các kỹ thuật tính toán, sao cho hành vi của mô hình phản ánh dữ liệu hoặc kinh nghiệm. Phương pháp học máy tìm các kiểu cách từ dữ liệu hoặc mẫu được quan sát và sử dụng các kiểu cách này để đưa ra dự đoán về dữ liệu đầu vào mà không cần lập trình tường minh. Các phương pháp học máy phần nào có những sự khác nhau về trong phương pháp học và khung tính toán.
Một phương pháp học máy bao gồm ba yếu tố cơ bản: hàm mất mát, tiêu chí học và thuật toán tối ưu hóa. Sự khác biệt giữa các phương pháp học máy có thể được xem như hàm của các yếu tố này. Ví dụ, các phương pháp phân loại tuyến tính, chẳng hạn như perceptron, hồi quy logistic và SVM khác nhau về tiêu chí học và thuật toán tối ưu hóa.
a) Từ góc độ hàm mất mát, các phương pháp học máy có thể được phân loại là tuyến tính hoặc phi tuyến. Phương pháp hiệu quả phải có sự rủi ro hoặc sai sót dự kiến nhỏ. Phương pháp như vậy sử dụng hàm mất mát để định lượng sự khác biệt giữa dữ liệu dự đoán và dữ liệu thực Các hàm mất mát phổ biến bao gồm: hàm mất mát 0-1, hàm mất mát bình phương, hàm mất mát entropy chéo, hàm mất mát hinge, hàm mất mát sai số trung bình tuyệt đối, hàm mất mát Huber, hàm mất mát log-cosh và hàm mất mát phân vị.
Ngoài ra, các danh mục rộng hơn khác của hàm mất mát bao gồm hàm xếp hạng, hàm dựa trên phân phối, hàm phân loại và hồi quy.
b) Tiêu chí học có giám sát bao gồm ERM và SRM. ERM làm giảm mất mát trung bình trên tập dữ liệu huấn luyện. SRM tránh các vấn đề về phù hợp quá mức bằng cách chính tắc hóa tham số dựa trên ERM để hạn chế bớt khả năng của mô hình. Học không giám sát có nhiều tiêu chí khác nhau. Ví dụ như ước lượng khả năng cực đại thường được sử dụng trong ước lượng mật độ, giảm thiểu lỗi tái cấu trúc trong học thuộc tính không giám sát.
c) Tác vụ tối ưu hóa là tìm ra mô hình học máy tối ưu. Nó bao gồm tối ưu hóa tham số và tối ưu hóa siêu tham số. Các thuật toán tối ưu hóa phổ biến bao gồm phương pháp giảm độ dốc, dừng sớm, giảm độ dốc hàng loạt, giảm độ dốc ngẫu nhiên, giảm độ dốc theo từng lô nhỏ dữ liệu (minibatch), phương pháp giảm độ dốc sử dụng hệ số mô-men, lan truyền trung bình quân phương và tối ưu hóa mô-men thích ứng.
Để xử lý dữ liệu lớn và suy luận tri thức phức tạp, một nhiệm vụ tính toán lớn thường được chia thành các tác vụ tính toán nhỏ hơn. Các khung tính toán phân tán như vậy dựa trên điện toán đám mây, điện toán biên và công nghệ dữ liệu lớn. Khung học sâu là khung tính toán cơ bản dành cho học sâu, thường bao gồm các kiến trúc mạng nơ-ron và giao diện học sâu ổn định để hỗ trợ học phân tán. Một số khung có thể chạy trên nhiều nền tảng như nền tảng điện toán đám mây và thiết bị di động.
6.3.4 Dựa vào học đa bước hoặc học từ đầu cuối đến đầu cuối
Trong học đa bước, một bài toán được chia thành nhiều giai đoạn để giải quyết từng bước. Ngược lại, học từ đầu cuối đến đầu cuối tìm cách giải quyết các bài toán sao cho kết quả được lấy trực tiếp từ dữ liệu đầu vào.
Quá trình học máy thường bao gồm một số mô-đun độc lập. Ví dụ một ứng dụng NLP điển hình bao gồm phân đoạn, gắn thẻ từ loại, phân tích cú pháp, phân tích ngữ nghĩa và các bước độc lập khác. Mỗi bước là một tác vụ cụ thể, kết quả của mỗi bước sẽ tác động đến bước tiếp theo và có khả năng ảnh hưởng đến toàn bộ quá trình huấn luyện.
Trong học từ đầu cuối đến đầu cuối, chẳng hạn như thực hiện với học sâu, kết quả dự đoán sẽ thu được từ đầu vào đến đầu ra. Thông thường lỗi được truyền qua quá trình lan truyền ngược trong mỗi lớp của mạng. Việc biểu diễn ở mỗi lớp được điều chỉnh theo các lỗi cho đến khi mạng hội tụ hoặc đạt được hiệu năng mong muốn. Trong các quy trình từ đầu đến cuối như vậy, việc ghi nhãn dữ liệu trước mỗi tác vụ học độc lập không còn cần thiết nữa.
Lấy nhận dạng tiếng nói làm ví dụ. Thực hiện nhận dạng tiếng nói gồm các bước như trong Hình 1. Giọng nói được chuyển đổi thành các vec-tơ đặc trưng giọng nói (ví dụ: các thuộc tính MFCC). Các nhóm vec-tơ sau đó được phân loại thành nhiều âm vị khác nhau bằng cách sử dụng học máy. Văn bản gốc của lời nói với xác lớn nhất được khôi phục thông qua âm vị. Trong quá trình này, các vec-tơ đặc trưng được tạo ra bởi tính toán đặc trưng và âm vị sẽ được xử lý bằng mô hình âm thanh. Mô hình âm thanh và mô hình ngôn ngữ được huấn luyện riêng biệt.

Hình 1 - Nhận dạng tiếng nói dựa trên học đa bước
Đối với nhận dạng tiếng nói dựa trên học từ đầu đến cuối như được thể hiện trong Hình 2, toàn bộ quá trình từ trích xuất đặc trưng đến biểu diễn âm vị có thể được hoàn thành trực tiếp bằng một mạng nơ- ron tiến DNN. Với đủ dữ liệu huấn luyện được gán nhãn cho trước, bao gồm các cặp dữ liệu giọng nói và dữ liệu văn bản ở đầu vào quá trình nhận dạng; nhận dạng tiếng nói dựa trên học từ đầu đến cuối có thể cho hiệu năng tốt.

Hình 2 - Nhận dạng tiếng nói dựa trên học từ đầu đến cuối
7 Các loại hình phương pháp tính toán AI
7.1 Tổng quan
Các phương pháp tính toán trong AI có thể được phân rã thành hai loại chính là dựa trên tri thức và dựa trên dữ liệu.
Phương pháp tính toán dựa trên tri thức trong AI chủ yếu bao gồm một loạt các phương pháp dựa trên quy tắc. Lấy hệ thống chuyên gia làm ví dụ, việc học, suy luận và ra quyết định cho một trường hợp sử dụng được thực hiện thông qua tập các đối tượng được khái quát hóa và các quy tắclogic "nếu - thì". Một cơ sở tri thức lớn lưu trữ tri thức phong phú từ các chuyên gia trong từng lĩnh vực được sử dụng để hỗ trợ hệ chuyên gia.
Ngược lại, phương pháp tính toán dựa trên dữ liệu trong AI sử dụng lượng lớn dữ liệu là tài nguyên cơ bản được xử lý bởi các thuật toán để mô phỏng quá trình suy nghĩ và ra quyết định của con người. Các phương pháp tính toán dựa trên dữ liệu điển hình bao gồm cả học máy có thể được phân rã thành hồi quy tuyến tính hoặc hồi quy logistic, mô hình đồ thị xác suất, cây quyết định, mạng nơ-ron và các phương pháp khác.
Hình 3 thể hiện sự phân rã của các phương pháp tính toán trong AI.

Hình 3 - Các phương pháp tính toán AI
7.2 Phương pháp dựa trên tri thức
Các phương pháp tiếp cận dựa trên tri thức bắt chước các chức năng thuộc về trí thông minh con người như các quy tắc biểu trưng và quy tắc logic. Nhận thức của con người được xem như một quá trình hoạt động mang tính biểu trưng. Cách tiếp cận này dựa vào hai giả định cơ bản:
a) thông tin được biểu diễn dưới dạng các biểu tượng;
b) các biểu tượng được thao tác bởi các quy tắc tường minh (chẳng hạn như các phép toán logic).
7.3 Phương pháp dựa trên dữ liệu
Phương pháp này dựa vào dữ liệu có trong mô hình tính toán AI. Có nhiều phương pháp học máy liên quan đến các loại dữ liệu khác nhau như mô tả trong TCVN 14364:2025 (ISO/IEC 23053). Các phương pháp tiếp cận này bao gồm: học có giám sát, học không giám sát, học bán giám sát, học tăng cường, học kết hợp, suy diễn thống kê, học đa tác vụ, học tích cực, học chuyển giao, học quần thể và học trực tuyến.
Các phương pháp học điển hình được mô tả trong điều này bao gồm.
- Học có giám sát: Các phương pháp học có giám sát tạo lập các mô hình học máy bằng cách sử dụng dữ liệu huấn luyện được gán nhãn. Các mô hình học máy sau đó dự đoán phân loại hoặc ánh xạ dữ liệu đầu vào. Khi nhãn dữ liệu huấn luyện ngày càng phong phú và chính xác hơn thì các dự đoán của mô hình học máy và các phân tích thu được từ dự đoán cũng trở lên hữu ích và tin cậy hơn. Các thuật toán điển hình cho học có giám sát bao gồm hồi quy và phân loại. Học có giám sát được sử dụng trong NLP, truy xuất thông tin, khai thác văn bản, nhận dạng chữ viết tay, phát hiện thư rác và các lĩnh vực khác.
- Học không giám sát: Các phương pháp học không giám sát ánh xạ đầu vào đến đầu ra bằng cách sử dụng dữ liệu huấn luyện không được gán nhãn. Học không giám sát không cần dữ liệu huấn luyện được gán nhãn, điều này có thể giảm yêu cầu lưu trữ và tính toán dữ liệu, cải thiện tốc độ thuật toán và tránh các lỗi phân loại do dữ liệu huấn luyện bị gán sai nhãn. Các thuật toán học máy không giám sát điền hình như ước lượng mật độ đơn lớp, giảm chiều dữ liệu đơn hướng cho thiết kế đặc tính và phân cụm. Học không giám sát được sử dụng trong dự báo kinh tế phát hiện bất thường, khai thác dữ liệu, xử lý hình ảnh, nhận dạng mẫu và các lĩnh vực khác.
- Học bán giám sát: Các phương pháp học bán giám sát sử dụng cả dữ liệu được gắn nhãn và dữ liệu không được gán nhãn. Bằng cách huấn luyện trên một lượng nhỏ dữ liệu được gán nhãn và một lượng lớn dữ liệu không được gán nhãn, các thuật toán này có thể tối đa hóa tính hữu ích của lượng nhỏ dữ liệu huấn luyện được gán nhãn. Các thuật toán học bán giám sát thông thường bao gồm tự huấn luyện và đồng huấn luyện.
- Học tăng cường: Các phương pháp học tăng cường liên quan đến một tác tử tương tác với môi trường của nó để đạt được mục tiêu đã định trước. Phương pháp học này ánh xạ từ môi trường đến hành vi để tối đa hóa giá trị chức năng của tín hiệu tăng cường. Trong những trường hợp mà môi trường bên ngoài cung cấp ít thông tin, các thuật toán học tăng cường dựa vào kinh nghiệm của chính chúng để học. Học tăng cường đã được áp dụngthànhcông trong điều khiển công nghiệp, chơi cờ vua, điều khiển robot, lái xe tự động và các lĩnh vực khác.
- Học chuyển giao: Các phương pháp học chuyển giao sử dụng tri thức đã được lưu trữ, trừu tượng từ dữ liệu trong một lĩnh vực ứng dụng và áp dụng nó vào các tác vụ trong các lĩnh vực ứng dụng khác. Học chuyển giao thường được sử dụng khi không có đủ dữ liệu trong một lĩnh vực ứng dụng cụ thể để huấn luyện mô hình một cách đáng tin cậy. Học chuyển giao phù hợp cho các ứng dụng có số biến hữu hạn, chẳng hạn như phân loại văn bản, mạng cảm biến cho các tác vụ định vị và phân loại hình ảnh.
Học máy bắt đầu từ quan sát hoặc dữ liệu huấn luyện, cố gắng tìm ra các mẫu vượt ra ngoài những mẫu có được từ phân tích cơ bản để thực hiện các dự đoán chính xác. Các thuật toán học máy bao gồm hồi quy logistic, Markov ẩn, SVM, KNN, Adaboost, mạng Bayes, cây quyết định và nhiều thuật toán khác. Kết quả từ các phương pháp học máy thường có thể giải thích được xét theo hành vi của các thuật toán và mô hình học máy.
Học máy cung cấp một khung cho việc huấn luyện với sự hữu hạn về dữ liệu khả dụng và có thể sử dụng cho phân tích hồi quy, phân loại mẫu, ước lượng mật độ xác suất và các tác vụ khác. Thống kê là cơ sở lý thuyết quan trọng của học máy, được sử dụng rộng rãi trong các lĩnh vực như xử lý ngôn ngữ tự nhiên (NLP), nhận dạng tiếng nói, nhận dạng hình ảnh, truy xuất thông tin và tin sinh học.
Mạng nơ-ron là mạng của các lớp nơ-ron kết nối bằng các liên kết có trọng số có thể điều chỉnh. Mạng nơ-ron nhận dữ liệu đầu vào và tạo ra đầu ra thường là các dự đoán. Mạng nơ-ron với một số lớp ẩn được gọi là học sâu. Học sâu có thể coi là một phương pháp kết hợp cả biểu diễn đặc trưng và học. Học sâu thường kém khả năng diễn giải hơn so với học máy truyền thống. Các phương pháp học sâu điển hình bao gồm mạng tin cậy sâu, mạng nơ-ron tích chập (CNN), máy Boltzmann hạn chế và mạng nơ- ron hồi quy (RNN). CNN thường được sử dụng cho dữ liệu phân bố không gian, RNN thường được sử dụng cho dữ liệu phân bố thời gian dựa trên việc sử dụng bộ nhớ và phản hồi từ các lớp trước đó..
8 Các thuật toán và phương pháp được chọn sử dụng trong các hệ thống AI
8.1 Khái quát chung
ISO/IEC TR 24030 cung cấp khuôn mẫu để thu thập thông tin chi tiết về các trường hợp sử dụng AI. Khuôn mẫu bao gồm các mô tả về các tính năng của trường hợp sử dụng như các tác vụ, phương pháp, nền tảng, cấu trúc liên kết, thuật ngữ và khái niệm được sử dụng. Học sâu, học máy và mạng lưới thần kinh là những phương pháp tính toán được đề cập thường xuyên nhất trong các trường hợp sử dụng AI được mô tả trong ISO/IEC TR 24030.
Trong tiêu chuẩn này, các thuật toán và phương pháp tiếp cận tiên tiến được chọn sử dụng trong hệ thống AI được mô tả ở góc độ lý thuyết và kỹ thuật, các đặc điểm chính và các ứng dụng điển hình.
8.2 Kỹ thuật và biểu diễn tri thức
8.2.1 Tổng quan
Kỹ thuật và biểu diễn tri thức là một lĩnh vực rộng trong Trí tuệ nhân tạo (AI) liên quan đến việc biểu diễn tri thức dưới dạng có thể xử lý bởi máy móc và sử dụng, quy trình máy móc để thực thi các tác vụ liên quan đến tri thức, đặc biệt là lập luận trong tất cả các hình thức của nó.
Có nhiều quyết định mang tính lý luận và thực tiễn liên quan đến cách tri thức được biểu diễn để máy xử lý, nhằm đảm bảo sự chính xác và hữu ích cho chủ đích của con người. Do đó, thiết kế và kỹ thuật là những yếu tố cần thiết của quá trình này. Mọi dự án dựa trên biểu diễn tri thức và lập luận đều hướng đến tuân thủ theo một vài mô hình tri thức nào đó một cách tường minh hoặc không tường minh. Lựa chọn mô hình tri thức là yếu tố quan trọng để xác định liệu mục tiêu dự án có thể đạt được hay không. Lĩnh vực này đang được phát triển, đặc biệt là liên quan đến nội hàm kỹ thuật của các lựa chọn.
8.2.2 Bản thể luận
8.2.2.1 Lý thuyết và kỹ thuật
"Bản thể luận" là thuật ngữ xuất phát từ triết học đề cập đến đến sự tồn tại. Theo một nghĩa nào đó, nó có liên quan đến các cấu trúc tri thức được gọi là bản thể học; nói theo triết học, nó mô tả thế giới quan đề cập về phát biểu những gì tồn tại. Tuy nhiên, "bản thể luận" với tư cách là một cấu trúc tri thức về cơ bản là một mô hình tri thức về bất kỳ lĩnh vực nào mà mọi người muốn khai báo tri thức. Trong bối cảnh công nghệ thông tin, "bản thể học" thường có nghĩa là một cấu trúc tri thức tường minh, có mô hình logic hình thức và hỗ trợ suy luận. Loại bản thể luận phổ biến nhất theo cấu trúc tri thức được triển khai bằng công nghệ ngăn xếp web ngữ nghĩa của W3C dựa trên RDF [6] và OWL[7].
8.2.2.2 Đặc điểm chính
Là một phương pháp cơ bản của AI nhận thức, bản thể luận quan niệm tri thức tập trung vào phân loại khái niệm về các thực thể và mối quan hệ giữa các khái niệm khác nhau. Nó cung cấp ngôn ngữ hình thức, định nghĩa chung, quan hệ logic và mô hình khái niệm ổn định cho tri thức được sử dụng trong AI. Nó hoạt động như một sơ đồ mô tả tri thức cho phép các hệ thống Al truy vấn, tái sử dụng và chia sẻ tri thức.
Một mô hình bản thể luận bao gồm các khái niệm được định nghĩa cụ thể liên quan đến các phần tử cấu thành, chẳng hạn như cấu trúc, thực thể, thuộc tính, chức năng và tiên đề. Các ngôn ngữ mô tả hình thức như XML, RDF(s) và OWL được sử dụng trong kỹ thuật bản thể luận.
Bản thể luận là một loại hình trừu tượng, mô hình nhận thức cho thế giới thực. Trong bản thể luận, các định nghĩa, thuộc tính và mối quan hệ giữa các đối tượng được minh họa một cách cụ thể. Điều này cho phép tri thức tổng quát hoặc tri thức chuyên ngành dễ dàng được thu thập và xử lý bởi máy móc.
8.2.2.3 Ứng dụng điển hình
Bản thể luận được sử dụng rộng rãi trong kỹ thuật tri thức, chẳng hạn như trong các KG, tìm kiếm thông tin và các tác vụ QA.
8.2.3 Đồ thị tri thức
8.2.3.1 Lý thuyết và kỹ thuật
Một KG có thể được coi là một cấu trúc tri thức bao gồm các nút và liên kết. Từ "đồ thị" đề cập đến khái niệm đồ thị trong toán học. Các nút trong đồ thị đại diện cho các vật (các thực thể) và các liên kết đại diện cho mối quan hệ giữa các vật. Nó được xem là một cấu trúc tri thức vì sự kết hợp, chẳng hạn như như thực thể 1 => quan hệ R => thực thể 2 được coi là một sự khẳng định rằng thực thể 1 có mối quan hệ R với thực thể 2.
VÍ DỤ: Anne => motherOf => David khẳng định rằng Anne là mẹ của David. Mối quan hệ này có hướng, Anne là mẹ của David nhưng David không phải là mẹ của Anne.
KG là sự tương phản rõ rệt so với cấu trúc dữ liệu dạng bảng. Nó là cách tiếp cận linh hoạt và có thể mở hơn, hỗ trợ các dạng suy luận tiên tiến hơn. KG chưa được chấp thuận rộng rãi vì còn một chút khó khăn hơn trong việc quản lý so với các phương pháp truyền thống và chưa được giảng dạy rộng rãi trong các trường đại học.
8.2.3.2 Đặc điểm chính
Nói chung, một KG đơn giản chỉ là một loại web ngữ nghĩa [8]. Đó là một cấu trúc dữ liệu dựa trên đồ thị bao gồm các nút và cạnh. Toàn bộ đồ thị biểu thị các thực thể, khái niệm và mối quan hệ ngữ nghĩa khác nhau.
So với các phương pháp biểu diễn tri thức thông thường (ví dụ: bản thể luận hoặc web ngữ nghĩa), KG có các đặc điểm sau:
- Bao hàm đầy đủ các thực thể và khái niệm.
- Quan hệ ngữ nghĩa đa dạng.
- Cấu trúc dễ sử dụng.
- Chất lượng biểu diễn tri thức nói chung là cao.
KG đã trở thành phương pháp quan trọng nhất trong kỹ thuật xử lý tri thức của các hệ thống AI. Quá trình xây dựng một KG có thể làm cho máy tính có khả năng nhận thức.
Quá trình tính toán dựa trên KG thông thường bao gồm trích xuất tri thức, biểu diễn tri thức, lưu trữ tri thức, mô hình hóa tri thức, tổng hợp tri thức và tính toán tri thức.
a) Trích xuất tri thức: tri thức được trích xuất từ dữ liệu có cấu trúc, bán cấu trúc và không có cấu trúc, đặc biệt là từ dữ liệu văn bản. Theo các đối tượng khác nhau, việc trích xuất tri thức bao gồm trích xuất thực thể (ví dụ: NER), trích xuất quan hệ hoặc thuộc tính và trích xuất sự kiện.
b) Biểu diễn tri thức: biểu diễn tri thức là một loại cấu trúc dữ liệu để mô tả tri thức bằng logic phức, phát sinh "nếu-thì" và biểu diễn khung.
c) Lưu trữ tri thức: các đối tượng của lưu trữ tri thức bao gồm tri thức thuộc tính cơ bản, tri thức quan hệ, tri thức sự kiện, tri thức thời gian và tri thức tài nguyên. Các phương pháp lưu trữ phổ biến bao gồm lưu trữ dựa trên bảng và lưu trữ dựa trên đồ thị. Cụ thể, lưu trữ tri thức dựa trên đồ thị bao gồm đồ thị thuộc tính, RDF và phương pháp siêu đồ thị.
d) Mô hình hóa tri thức: mục tiêu của mô hình hóa tri thức là xây dựng một mô hình dữ liệu cho KG, điều này rất quan trọng cho việc xây dựng toàn bộ KG. Có các phương pháp mô hình hóa là từ trên xuống và từ dưới lên. Phương pháp từ trên xuống xác định lược đồ dữ liệu hoặc bản thể luận, sau đó chi tiết hóa dần để hình thành một phân loại có cấu trúc phân cấp tốt. Phương pháp từ dưới lên tổng hợp và tổ chức các thực thể hiện có để hình thành các khái niệm cơ bản, sau đó dần trừu tượng hóa chúng để hình thành các khái niệm cấp cao hơn.
e) Tổng hợp tri thức: tổng hợp tri thức thường trích xuất tri thức ở mức dữ liệu và mức khái niệm. Tổng hợp ở mức dữ liệu tập trung vào liên kết thực thể và phân tích thực thể. Tổng hợp ở mức khái niệm tập trung vào điều chỉnh các bản thể luận và tổng hợp đa ngôn ngữ.
f) Tính toán tri thức: tính toán tri thức nhằm mục đích thu được tri thức ẩn dựa trên thông tin cung cấp bởi KG. Các ví dụ bao gồm:
1) sử dụng các phương pháp suy luận dựa trên bản thể luận hoặc quy tắc để trừu tượng hóa khái niệm và thực thể;
2) sử dụng các phương pháp liên kết thực thể để dự đoán mối quan hệ ẩn giữa các thực thể;
3) sử dụng các phương pháp tính toán xã hội để tổ chức các thực thể vào KG và cung cấp các đường dẫn liên quan đến tri thức.
8.2.3.3 Các ứng dụng điển hình
Ứng dụng phổ biến của KG là trong việc truy xuất tri thức, gợi ý thông minh và tác vụ trả lời câu hỏi.
8.2.4 Web ngữ nghĩa
8.2.4.1 Lý thuyết và kỹ thuật
Web ngữ nghĩa là một mạng web tri thức toàn cầu. Nó là đồ thị tri thức sử dụng công nghệ ngăn xếp web ngữ nghĩa dựa trên RDF. Mọi thực thể và mối quan hệ trong web ngữ nghĩa đều có URI, do đó chúng có thể được định vị bất cứ nơi nào trên mạng (mặc dù tri thức mà các tổ chức tạo ra bằng cách sử dụng công nghệ web ngữ nghĩa không nhất thiết phải công khai).
Vì công nghệ web ngữ nghĩa dựa trên đồ thị, đơn vị cơ bản của tri thức là một bộ ba RDF: thực thể => mối quan hệ => thực thể. URI và tổ hợp bộ ba tạo thành đồ thị các nút URI và liên kết: RDF, RDF-schema và OWL.
Ngăn xếp công nghệ web ngữ nghĩa là tiêu chuẩn của W3C và là tiêu chuẩn mở. Ngăn xếp bao gồm SPARQL [9], một ngôn ngữ truy vấn tương tự SQL [10] và ngôn ngữ ràng buộc hình dạng [11], một ngôn ngữ dựa trên ý tưởng về hình dạng được sử dụng để đảm bảo rằng đồ thị tri thức tuân thủ các ràng buộc mong muốn. Giống như web, web ngữ nghĩa có tính phi tập trung, có khả năng mở rộng và linh hoạt. Tuy nhiên, khác với web, nó được thiết kế để được xử lý trực tiếp bởi máy tính thay vì được dùng bởi con người.
8.2.4.2 Đặc điểm chính
Web ngữ nghĩa dựa trên các ngữ nghĩa hình thức được gọi là "logic mô tả", là một dạng suy diễn logic. Các khẳng định có thể có các đặc tính logic và mối quan hệ giữa các thực thể có thể là bắc cầu hoặc phản xạ để hỗ trợ suy diễn (ví dụ: Sarah cao hơn Anne, Anne cao hơn David, do đó Sarah cao hơn David). Có nhiều công cụ suy diễn khác nhau để thực hiện các chức năng suy diễn.
Ý tưởng chính để xây dựng RDF là các lớp, lớp con và các thể hiện. RDF có hai loại thuộc tính (mối quan hệ): những thuộc tính liên quan giữa các lớp và những thuộc tính liên quan giữa lớp và chữ.
VÍ DỤ: "cha mẹ" là một lớp con của lớp "con người". "Anne" là một thể hiện của "cha mẹ". Từ đó suy diễn có thể Anne là con người. Đây là một hình thức suy diễn tam đoạn luận, được hỗ trợ thông qua kế thừa lớp.
Ví dụ về cú pháp cho web ngữ nghĩa bao gồm:
- Cú pháp dựa trên XML có mức độ sử dụng khác nhau (thường là .ttl hoặc Turtle được ưa chuộng bởi các chuyên gia);
- Cú pháp dựa trên logic hình thức giống như công thức logic;
- Cú pháp một phần bằng ngôn ngữ tự nhiên (cú pháp Manchester) để cải thiện khả năng đọc được của con người.
- Cú pháp mà hoàn toàn có thể đọc như ngôn ngữ tự nhiên (được định nghĩa đầy đủ nhưng chưa được triển khai bằng các công cụ, chẳng hạn như cú pháp Sydney), giúp các chuyên gia chuyên ngành thực hiện kiểm tra tri thức mà không cần hiểu về cú pháp mang tính kỹ thuật.
8.2.4.3 Các ứng dụng điển hình
Các ứng dụng thông thường của web ngữ nghĩa bao gồm phát triển năng lực tìm kiếm nâng cao và mô hình hóa tăng cường trong các ứng dụng chăm sóc sức khỏe.
8.3 Logic và suy luận
8.3.1 Khái quát chung
Logic và suy luận liên quan đến việc sử dụng tri thức hiện có để tạo ra tri thức mới và đảm bảo rằng nó đã được thực hiện đúng và đáng tin cậy. Về chính thống nó thuộc về lĩnh vực nhận thức luận trong nghiên cứu triết học, nhưng cũng tồn tại nhiều phương pháp không chính tắc để áp dụng nó trong các lĩnh vực khác. Điều này thực sự quan trọng đối với toán học, khoa học và bất kỳ lĩnh vực nào trong cuộc sống tính đúng đắn của mọi vấn đề. AI đưa ra triển vọng sử dụng máy tính để tự động hóa quá trình quá trình gia công để tạo ra tri thức và kiểm tra tính đúng đắn. Thúc đẩy khả năng của máy tính về logic và suy luận hiện đang được phát triển và cần được quan tâm hơn nữa.
8.3.2 Suy luận quy nạp
Suy luận quy nạp liên quan đến khái niệm tổng quát hóa từ các ví dụ. Nó thường sử dụng trong các tình huống hàng ngày. Nó không được sử dụng trong toán học thuần túy là lĩnh vực mà suy luận diễn giải duy nhất được sử dụng. Nói một cách khái quát, nó bắt đầu bằng các mẫu của một vài loại quan sát và sử dụng chúng để tạo ra một lý thuyết. Khi có đủ bằng chứng hỗ trợ, lý thuyết đưa ra từ đó trở thành quy tắc được chấp nhận rộng rãi.
Ví dụ, các nhà khoa học đã nghiên cứu nhiều hình thái sống và tất cả đều được phát hiện có ADN. Các nhà khoa học từ đó có thể tổng quát đưa ra lý thuyết rằng "tất cả các hình thái sống đều có ADN". Mặc dù lý thuyết này mô tả chính xác tất cả các hình thái sống nghiên cứu đến nay, nhưng chúng ta không biết rằng liệu nó đúng đối với tất cả các hình thái sống tại mọi thời gian và địa điểm không, về mặt logic vẫn có khả năng rằng một ngày nào đó, chúng ta sẽ nghiên cứu một hình thái sống và phát hiện rằng nó không có ADN.
Đây được gọi là một sự kiện "thiên nga đen". Trước khi người châu Âu thuộc địa hóa úc, các nhà tự nhiên học châu Âu chỉ gặp thiên nga trắng, do đó họ tin rằng tất cả các con thiên nga đều màu trắng. Tuy nhiên ở phía Tây nước úc có các con thiên nga đen và khi các nhà tự nhiên học thuộc châu Âu phát hiện điều này, lý thuyết của họ đã bị chứng minh là sai và họ buộc phải sửa lại.
Có những trường hợp mà thuyết quy nạp trở thành một sự thật, nhưng chỉ khi nó liên quan đến điều gì đó có thể được chứng minh bằng thực nghiệm: chúng giới hạn trong thời gian và không gian thay vì được tổng quát hóa. Ví dụ bằng nhiều quan sát để có được thuyết cho rằng trái đất là hình cầu. Trải qua thời gian vài trăm năm, cuối cùng nó đã được chứng minh một cách thuyết phục thông qua phương pháp thực nghiệm và đã được chấp nhận là một sự thật (đối với những người hiểu biết về khoa học cơ bản). Quỹ đạo của trái đất có tâm là mặt trời cũng là một ví dụ khác.
Cũng có thuyết quy nạp được chấp nhận như là một định luật khoa học. Đó là sự khái quát hóa trừu tượng sẽ không được chứng minh bằng thực nghiệm ở mọi thời gian và địa điểm, nhưng lại tin rằng nó đúng ở mọi nơi và mọi lúc. Một ví dụ là nguyên lý bảo toàn khối lượng. Mọi người tin rằng đây là một nguyên lý cơ bản của vật lý không thể phá vỡ, mặc dù về mặt kỹ thuật nó vẫn dựa trên suy luận quy nạp.
8.3.3 Suy luận diễn giải
Suy luận diễn giải là hình thức suy luận bắt đầu với một tập các mệnh đề hoặc khẳng định được biết đến như "tiền đề" hoặc "giả thiết" và chỉ sử dụng các phương pháp suy luận đảm bảo rằng nếu các tiền đề đúng, bất kỳ kết luận nào được đưa ra cũng đúng. Nó cũng cần các thuật ngữ rõ nghĩa, ví dụ như rõ về đối tượng mà thuật ngữ đề cập đến. Mệnh đề là một tuyên bố khẳng định điều gì đó; nó có thể được đánh giá là đúng hoặc sai.
Xét về mặt lịch sử, các kiểu suy luận diễn giải đã được biết đến từ thời Aristotle cổ đại. Một số hình thức suy luận diễn giải được công nhận từ thời cổ đại.
a) Logic mệnh đề.
1) Dạng modus ponens (luật tách rời):
tiền đề 1: nếu P thì Q
tiền đề 2: P
kết luận: Q (trong đó P và Q là các khẳng định).
2) Dạng Modus Tollens (luật phủ định ngược), suy luận theo hướng ngược lại so với modus ponens:
Tiền đề 1: Nếu P thì Q
Tiền đề 2: Không Q
Kết luận: Không P.
3) Tính chất bắc cầu:
Tiền đề 1: Nếu P thì Q
Tiền đề 2: Nếu Q thì R
Kết luận: Nếu P thì R.
Các hình thức liên quan đến logic mệnh đề là các hình thức đơn giản nhất của logic để xử lý các mệnh đề. Nó sử dụng các liên kết logic (và, hoặc, phủ định) để kết hợp các mệnh đề thành các dạng phức. Bảng chân lý dùng để đánh giá các dạng phức đó đúng hay sai dựa trên sự đúng hay sai của các mệnh đề thành phần. Ví dụ nếu P đúng và Q sai, thì (P và Q) là sai, nhưng (P hoặc Q) là đúng, phủ định của P là sai và phủ định của Q là đúng.
Có các hình thức logic phức tạp hơn sử dụng các phương pháp suy diễn tương tự. Chúng sử dụng các liên kết logic giống như logic mệnh đề (và, hoặc, phủ định).
b) Logic bậc nhất (First Order Logic):
Logic bậc nhất còn được gọi là logic vị từ hoặc logic lượng từ. Sự khác biệt chính giữa logic bậc nhất và logic mệnh đề là logic hạng nhất sử dụng biến và phép lượng hóa. Phép lượng hóa được sử dụng là "mọi" và "tồn tại". Trong khi logic mệnh đề chỉ đưa ra các khẳng định như "Socrates là một người".Trong logic bậc nhất, ta có thể nói "tồn tại một X sao cho X là Socrates và X là một người". Điều này cho phép suy luận theo các dạng diễn giải mới. Cũng có các hình thức logic cao hơn để bổ sung tính biểu đạt nhưng mất đi khả năng suy luận.
c) Các hình thức logic khác hỗ trợ phương pháp suy luận diễn giải.
1) Logic biểu đạt (Modal Logic): logic biểu đạt sử dụng bổ nghĩa cho các câu. Hình thức truyền thống sử dụng các khái niệm về khả năng và sự cần thiết để biểu đạt, nhưng cũng có những biểu đạt là tạm thời (liên quan đến thời gian), là nghĩa vụ (liên quan đến bổn phận và sự cho phép), là nhận thức (tri thức), là doxastic (niềm tin). Các khung sử dụng ngữ nghĩa chứa "thế giới có thể" trong đó mỗi lần lặp lại giá trị chân lý trên tất cả các biến đều được liệt kê. Thế giới có thể có thể đặc trưng bởi các giá trị của chúng và mối quan hệ tiếp cận nhị phân giữa chúng.
Bản thân các mối quan hệ nhị phân có thể có các thuộc tính logic như phản xạ, đối xứng và bắc cầu (lưu ý những thuộc tính này được sử dụng trong web ngữ nghĩa). Hệ thống logic đặc trưng bởi các thuộc tính quan hệ của nó.
2) Logic không gian (spatial Logic): Nếu A đứng trước B và B đứng trước C, thì A đứng trước C. "Đứng trước" được hiểu là quan hệ bắc cầu. Xét trên quan điểm quan sát thì khái niệm "trước" là tương đối.
3) Logic thời gian (temporal logic): Nếu A xảy ra sau B và B xảy ra sau C, thì A xảy ra sau C. ở đây, A, B và C đều là các sự kiện và "xảy ra sau" được cho là một quan hệ bắc cầu (ví dụ: cho rằng hệ quy chiếu vật lý Newton hoặc một người quan sát đơn lẻ là kịch bản của thuyết tương đối).
4) Toán học: mọi thứ trong toán học được coi là suy luận diễn giải đúng. Một số cách chứng minh phổ biến là bằng phản chứng.
8.3.4 Suy luận giả định
Suy luận giả định được sử dụng rộng rãi trong khoa học và toán học, nhưng cũng có thể áp dụng trong mọi khía cạnh của cuộc sống. Nóđược sử dụng trong pháp y, tranh tụng pháp lý và suy luận trong cuộc sống thường ngày.
Suy luận giả định bắt đầu từ một khẳng định có thể không biết là đúng hay sai và được gọi là "giả định", trong trong khoa học và toán học nó thường là một giả thuyết khoa học hoặc toán học mà mọi người muốn kiểm tra.
Giả định đưa ra một số dự đoán nhất định về điều gì đó có tính logic. Lý tưởng nhất là điều đó có thể được kiểm chứng bằng thực nghiệm. Nhưng trong nhiều trường hợp điều đó không xảy ra và chúng ta nói rằng giả thuyết là "không thể bác bỏ", tức là không có các phép kiểm tra để chứng minh nó là sai.
Dạng suy luận được sử dụng là modus tollens [12], đó là:
Giả định: P
Tiên đề: nếu P thì Q.
Kết luận giờ đây phụ thuộc vào việc Q có đúng hay không. Nếu Q là sai, thì theo modus tollens, P là sai và giả định P đã bị bác bỏ. Đây là một kết luận mang tính diễn giải: đảm bảo rằng P không đúng. Nếu Q đúng, nó không chứng minh rằng P đúng, nó chỉ là phù hợp với việc P đúng. Sau đó, chúng ta cần đưa ra một tiên đề khác và một điều kiện khác để kiểm tra.
VÍ DỤ: Giả định: sáng nay đã mưa. Tiên đề: nếu sáng nay đã mưa thì đường sẽ ướt. Quan sát thực nghiệm: đường ướt không? Kết quả thực nghiệm có thể là có hoặc không (có thể vẽ như nhánh trong cây quyết định).
- Kết quả thực nghiệm 1: không; kết luận: sáng nay không mưa (nếu tiên đề đúng và quan sát hợp lệ, là diễn giải đúng).
- Kết quả thực nghiệm 2; có; kết luận; không kết luận được.
Việc đường ướt có logic phù hợp với việc đã mưa sáng nay, nhưng nó không chứng minh điều đó. Có thể đường đi ướt vì nó đã được tưới, hoặc vừa xảy ra một trò chơi bắn súng nước, hoặc là một con voi vừa tắm trên đường (tình huống cuối cùng vẻ hiếm xảy ra nhưng không phải là không thể xảy ra, vì "giả định thế giới mở" là cần thiết để mọi người nhận biết mọi thực tế xảy ra).
Trong cuộc sống hàng ngày, mọi người thường lấy sự thật của Q để chứng minh cho sự thật của P, đó là một lỗi logic được biết đến là "khẳng định hệ quả đương nhiên"1).
Trong toán học, mô hình lấy một giả định, cho rằng nó đúng và suy luận đưa ra một kết luận sai được gọi là "chứng minh bằng mâu thuẫn". Nó cho thấy rằng giả định không đúng bằng cách chỉ ra rằng giả định và kết luận không nhất quán về mặt logic với nhau.
8.3.5 Phương pháp suy luận Bayes
Bayes là một dạng suy luận thống kê. Lưu ý rằng suy luận thống kê là một công việc hoàn toàn khác biệt so với suy luận toán học. Toán học thuần túy chỉ liên quan đến suy luận tiên đề: nếu một bằng chứng toán học hợp lệ thì các kết luận luôn luôn tuân theo logic từ các tiên đề2).
Đối tượng của thống kê là xác suất, do đó suy luận thống kê chủ yếu liên quan đến khái niệm khả năng và xác suất rằng một sự kiện tương lai nào đó sẽ xảy ra hay không. Các phép tính sử dụng ý tưởng về ngẫu nhiên và mô hình phân phối. Ví dụ, nếu ai đó tung một đồng xu, có xác suất 50% rằng nó sẽ ngửa và 50% rằng nó sẽ úp. Tuy nhiên, kết quả trên mỗi lần tung cụ thể phụ thuộc vào tính ngẫu nhiên. Trong 20 lần tung, khả năng không thể xảy ra việc lật ngửa 20 lần và rất có thể xảy ra lật ngửa khoảng 10 lần, do đó, tạo ra một phân phối xác suất hình chuông, tập trung vào 10.
Khả năng một điều gì đó sẽ xảy ra (hoặc đã xảy ra) thường bị ảnh hưởng bởi việc áp dụng một điều kiện nhất định. Ví dụ, nếu có ướt thì có khả năng đã mưa trong ngày đó. Tuy nhiên, điều đó chỉ tăng khả năng nhưng không chứng minh điều đó. Rõ ràng có những lý do khác, chẳng hạn như đã tưới nước lên có. Một cách khác để nhìn vào điều đó là dựa trên khái niệm sửa đổi niềm tin dựa trên bằng chứng mới. Ví dụ, hãy xem niềm tin rằng một giáo sư đang ở trong văn phòng. Nếu ai đó nhìn thấy áo khoác của giáo sư không ở trên ghế như lúc đầu giờ sáng, có thể cần sửa đổi đánh giá về khả năng giáo sư đang ở trong văn phòng. Đây là ý tưởng chính đằng sau suy luận Bayes, dựa trên định lý Bayes cho rằng xác suất hậu nghiệm tỷ lệ với xác suất tiên nghiệm nhân với hệ số về khả năng.
8.4 Học máy
8.4.1 Khái quát chung
Phương pháp học máy đã thu hút sự chú ý trong lĩnh vực công nghiệp và giới học thuật. Thuật toán và phương pháp học máy được đề cập trong hầu hết các trường hợp sử dụng có trong ISO/IEC TR 24030. Các phương pháp học như cây quyết định, rừng ngẫu nhiên, hồi quy tuyến tính hoặc logistic, KNN, Naïve Bayes và các phương pháp liên quan đến mạng nơ-ron được giới thiệu trong phần này.
8.4.2 Cây quyết định
8.4.2.1 Lý thuyết và kỹ thuật
Cây quyết định là thuật toán học máy giám sát phân chia không gian dữ liệu một cách đệ quy dựa trên các giá trị thuộc tính. Quá trình phân chia được mô tả như một đồ thị DAG, trong đó các nút trong đồ thị được liên kết với các kiểm tra thuộc tính, các nút lá tương ứng với giá trị lớp hoặc giá trị hồi quy. Hình 4 cho thấy ví dụ về phân loại bộ dữ liệu Iris nổi tiếng. Các luật có thể đọc được từ cây quyết định. Ví dụ, "Nếu chiều rộng cánh hoa <= 0,8 thì lớp = setosa" hoặc "Nếu chiều rộng cánh hoa > 0,8 và chiều dài cánh hoa <= 4,75 thì lớp = versicolor".
Các nút nội bộ có thể có hai hoặc nhiều nút con. Các nút liên quan đến thuộc tính số thường được chia thành hai nút con với một kiểm tra nhị phân như thể hiện trong Hình 4. Các nút liên quan đến thuộc tính phân loại có thể sử dụng một kiểm tra nhị phân (tức là thuộc tính bằng hoặc không bằng một giá trị cụ thể) hoặc phổ biến hơn là có một nút con cho mỗi giá trị có thể của thuộc tính.

Hình 4 - Ví dụ về cây quyết định
8.4.2.2 Các đặc điểm chính
Thuật toán sinh cây quyết định tạo ra cây quyết định cho một bộ dữ liệu huấn luyện cụ thể. Điều này bao gồm sử dụng một kiểm tra thống kê để chọn thuộc tính tốt nhất để phân tách dữ liệu ở mỗi bước. Kiểm tra này phân chia dữ liệu từ nút cha thành các phân vùng dựa trên thuộc tính được chọn. Hoạt động kiểm tra cần giảm sự pha trộn của các lớp trong dữ liệu liên kết với nút cha thành các bộ dữ liệu phần lớn thuộc cùng một lớp (tức là ít lộn xộn và sạch hơn) liên kết với các nút con. Phép kiểm tra thống kê thông thường là về độ lợi thông tin hoặc chỉ số Gini. Các thuật toán kiểm tra cũ thường là các thuật toán ID3 [13], C4.5 [14] hoặc C5.0 [15], các thuật toán kiểm tra mới hơn là thuật toán cây phân loại và hồi quy [16].
Quá trình sinh cây quyết định tiếp tục cho đến khi đạt được các tiêu chí để kết thúc. Các tiêu chí thông thường bao gồm dừng lại khi tất cả dữ liệu tại một nút có cùng giá trị lớp hoặc khi nút có số điểm dữ liệu ít hơn so với giá trị được gán cho nút. Xây dựng cây một cách tái đa cho đến khi tất cả dữ liệu ở các nút là cùng một lớp thường dẫn đến việc quá khớp với tập huấn luyện. Do đó, việc sinh cây cần được kết thúc trước khi điều này xảy ra (được gọi là dừng sớm) hoặc cây cực đại được cắt tỉa sau khi huấn luyện hoàn tất.
Sinh cây quyết định là một thuật toán học máy giám sát đơn giản, tạo ra các cây tương đối dễ hiểu đối với con người. Vì quá trình sinh cây quyết định không cần tiền xử lý dữ liệu đáng kể và thực hiện nhanh. Nó có thể xử lý dữ liệu số và dữ liệu phân loại cũng như dữ liệu thiếu giá trị. Tuy nhiên, do tính tương đối đơn giản nền nó thường không tạo ra kết quả chính xác như các phương pháp học giám sát khác.
8.4.2.3 Ứng dụng điển hình
Sinh cây quyết định có thể tạo ra cấu trúc cây rõ ràng để cho ra kết quả dự đoán dựa trên đặc trưng khác nhau. Nó thường dễ hiểu đối với các chuyên gia chuyên ngành và có thể sử dụng cho các tác vụ như phân loại và dự đoán
8.4.3 Rừng ngẫu nhiên
8.4.3.1 Lý thuyết và kỹ thuật
Rừng ngẫu nhiên [17] là một phương pháp học máy giám sát quần thể. Nó bao gồm một tập hợp n cây quyết định, mỗi cây được xây dựng để giải quyết vấn đề học máy. Biểu quyết đa số của cây quyết định trong quần thể được sử dụng để dự đoán hoặc phân loại các điểm dữ liệu mới.
Cây quyết định thứ i trong quần thể được xây dựng từ một mẫu khởi động bi của tập huấn luyện. Mẫu khởi động là mẫu lấy ra có sự thay thế từ tập huấn luyện. Trung bình nó chứa khoảng hai phần ba số điểm dữ liệu từ bộ dữ liệu mẫu. Điều này có nghĩa là có n mẫu khởi động có sự khác nhau chút ít giữa mẫu này so với mẫu kia, dẫn đến sự đa dạng của các cây trong quần thể, đồng thời góp phần làm ổn định toàn bộ quần thể học.
Rừng ngẫu nhiên cũng tạo ra sự đa dạng trong quần thể cây bằng việc giới hạn sự lựa chọn thuộc tính để kiểm tra trong quá trình xây dựng cây từ m thuộc tính được chọn ngẫu nhiên từ tập các thuộc tính có sẵn. Thường m nhỏ hơn rất nhiều so với tổng số thuộc tính d. Thông thường m được đặt là bằng
. Tóm lại, các thông số chính kiểm soát thuật toán rừng ngẫu nhiên là n và m, cùng với loại cây quyết định được xây dựng.
8.4.3.2 Các đặc điểm chính
Rừng ngẫu nhiên có hai đặc điểm hữu ích: nó có thể tính toán lỗi kiểm tra cho quần thể mà không cần tập kiểm tra và có thể ước lượng sự quan trọng tương đối của các thuộc tính trong bộ dữ liệu đối với vấn đề học máy. Các đặc điểm này phát sinh từ việc sử dụng các mẫu ngoài trong quá trình khởi động. Mẫu ngoài oi cho cây quyết định thứ i là tập điểm dữ liệu lấy ra từ tập huấn luyện không được chọn là mẫu khởi động bi. Do oi không được sử dụng để huấn luyện cây quyết định ti, nó được sử dụng để ước lượng lỗi kiểm tra của cây. Lỗi kiểm tra của toàn bộ quần thể có thể được ước lượng bằng cách lấy trung bình trên toàn bộ các cây và các mẫu khởi động.
Tương tự, bằng cách hoán vị các giá trị của một thuộc tính cụ thể a và tính sai lệch về lỗi kiểm tra của cây trước và sau khi hoán vị, ta có thể ước lượng sự quan trọng của thuộc tính. Sự khác biệt lớn về lỗi kiểm tra được ước lượng cho thấy thuộc tính a quan trọng để giải quyết vấn đề. Ngược lại, sự khác biệt nhỏ hoặc không có trong lỗi kiểm tra được ước lượng cho thấy thuộc tính a không quan trọng. Bằng cách lấy trung bình trên nhiều hoán vị và trên các cây, thuật toán tính toán được sự giảm trung bình về lỗi, sau đó được sử dụng để xếp hạng tầm quan trọng của các thuộc tính. Đôi khi độ giảm trung bình về chỉ số Gini được sử dụng thay cho độ chính xác.
Phương pháp quần thể, rừng ngẫu nhiên có nhiều lợi thế trong việc giải thích (đặc biệt với việc sử dụng để đánh giá sự thay đổi tầm quan trọng) và không thiên vị về kiểm tra lỗi trong quần thể. Tuy nhiên, đôi khi nó hoạt động kém trên các bộ dữ liệu với số lượng thuộc tính có tương quan từng phần lớn.
8.4.3.3 Các ứng dụng điển hình
Rừng ngẫu nhiên là một thuật toán học máy giám sát mạnh mẽ. Việc diễn giải mô hình thu được được hỗ trợ bởi việc đánh giá sự thay đổi của tầm quan trọng và bằng việc kiểm tra từng cây trong rừng. Sự thay đổi của tầm quan trọng một khu rừng ngẫu nhiên thường sử dụng làm phương pháp lựa chọn đặc tính cho dữ liệu tiền xử lý..
8.4.4 Hồi quy tuyến tính
8.4.4.1 Lý thuyết và kỹ thuật
Hồi quy tuyến tính là một phương pháp hồi quy xây dựng hàm của các biến độc lập để dự đoán giá trị biến mục tiêu. Hồi quy tuyến tính là dạng phân tích hồi quy đơn giản nhất. Trong hồi quy tuyến tính, giá trị kỳ vọng của y, với một tập hợp biến độc lập x = {x1, x2,…,xp}, trong đó p là số lượng biến độc lập, được thể hiện trong công thức (1):
| y = b0 + b1x1 + b2x2 +... + bpxp | (1) |
Trong đó b0, b1, b2 và bp là các hệ số của mô hình. Sau khi ước lượng các hệ số bp, chúng ta có thể dự đoán giá trị của y dựa trên giá trị mới của biến độc lập X.
Trong hồi quy tuyến tính, mục tiêu là tìm ra mặt phẳng tuyến tính tốt nhất phù hợp với các điểm dữ liệu. Phương pháp phổ biến nhất để tìm ra các tham số là hồi quy bình phương tối thiểu thông thường, trong đó sự phù hợp tốt nhất được xác định là mặt phẳng tối thiểu hóa khoảng cách trực giao bình phương giữa các điểm dữ liệu và mặt phẳng. Các chỉ số như giá trị R-square và sai số tiêu chuẩn thặng dư thường được sử dụng để đánh giá sự phù hợp của mô hình, các thống kê F được sử dụng để đánh giá quan hệ tuyến tính.
8.4.4.2 Đặc điểm chính
Các mô hình hồi quy tuyến tính hoạt động dựa trên một vài giả định. Thứ nhất, mối quan hệ giữa biến phụ thuộc và biến độc lập được giả định là tuyến tính. Thứ hai, sai sá (tức là sự khác biệt giữa giá trị y thực tế và ước tính) là độc lập. Thứ ba, phương sai của sai số không đổi đối với phản hồi. Thứ tư, sai số được giả định ở dạng phân phối chuẩn. Cuối cùng, biến độc lập x được giả định được đo mà không có sai số.
Mô hình hồi quy tuyến tính có thể dễ dàng được mở rộng để tạo ra các mô hình hồi quy đa thức và hồi quy phi tuyến khác. Để mở rộng thành mô hình hồi quy đa thức, các thuật ngữ trong mô hình hồi quy tuyến tính được thay thế bằng các thuật ngữ đa thức, chẳng hạn như x2. Cũng có thể mở rộng hồi quy tuyến tính để tính đến sự tương tác giữa các biến độc lập bằng cách bổ sung khái niệm tích của các biến độc lập.
8.4.4.3 Ứng dụng điển hình
Hồi quy tuyến tính được sử dụng khi có một mối quan hệ tuyến tính giữa biến độc lập và biến phụ thuộc, và cần tìm giá trị của biến phụ thuộc. Ví dụ như dự đoán giá bán nhà dựa trên giá nhà và các tiện ích xung quanh.
8.4.5 Hồi quy logistic
8.4.5.1 Lý thuyết và kỹ thuật
Hồi quy logistic là một phương pháp phân loại trong đó mối quan hệ giữa biến độc lập X và biến phụ thuộc Y được mô hình hóa theo công thức (2):
|
| (2) |
trong đó p(X) = P(Y=1|X) và β hệ số,
trong đó p(X) = P(Y=1|X) b0, b1, b2 và bp là các hệ số.
Vế trái của công thức là sự biến đổi log-odds (hoặc logit) của p(X) và hồi quy logistic giả định rằng nó có thể được biểu diễn dưới dạng một hàm tuyến tính. Các hệ số của hồi quy logistic thường được ước lượng bằng phương pháp hợp lý tối đa. Hợp lý tối đa nhằm ước lượng các tham số sao cho xác suất dự đoán p(x) của mỗi mẫu càng gần với giá trị thực tế của mẫu đó càng tốt.
8.4.5.2 Đặc điểm chính
Trong hồi quy logistic, biến mục tiêu được dự đoán nằm trong khoảng từ 0 đến 1, bao gồm cả 0 và 1. Nói cách khác, xác suất thuộc lớp 2. Một ngưỡng được đặt cho xác suất để xác định liệu mẫu dữ liệu mới thuộc lớp 1 hay lớp 2.
8.4.5.3 Ứng dụng điển hình
Hồi quy logistic được sử dụng cho các bộ dữ liệu nhỏ trong đó có mối quan hệ tuyến tính giữa các biến độc lập và biến phụ thuộc. Hồi quy logistic phù hợp nhất với các bộ dữ liệu chỉ có hai lớp. Mặc dù có thểsử dụng hồi quy logistic cho phân loại đa lớp, nhưng các phương pháp khác như phân tích phân loại tuyến tính phù hợp hơn về bản chất.
8.4.6 K - láng giềng gần nhất
8.4.6.1 Lý thuyết và kỹ thuật
KNN là một phương pháp học máy đơn giản nhất được sử dụng cho cả phân loại và hồi quy. Nó đôi khi được gọi là thuật toán "lười" vì nó không học một hàm từ dữ liệu huấn luyện. KNN là một phương pháp phi tham số vì chấp nhận cấu trúc mô hình cố định.
KNN dự đoán một điểm dữ liệu mới bằng cách tìm "hàng xóm gần nhất" trong dữ liệu huấn luyện. Các hàng xóm gần nhất được tìm thấy thông qua các số đo khoảng cách. Các số đo phổ biến bao gồm Euclidean, Manhattan và Mahalanobis. Trong phân loại, thuật toán tìm khàng xóm gần nhất và nhãn lớp được xác định bằng nhãn phổ biến nhất trong các hàng xóm gần nhất này. Trong hồi quy, giá trị ước tính thường là trung bình của các hàng xóm gần nhất.
8.4.6.2 Đặc điểm chính
Do KNN phụ thuộc vào số đo khoảng cách, thường khuyến nghị rằng giá trị của các thuộc tính liên tục được chuẩn hóa để tránh làm cho một số thuộc tính nào đó áp đảo về số đo khoảng cách trong kết quả đánh giá.
Vì KNN là một phương pháp phi tham số, nó đặc biệt phù hợp với các bộ dữ liệu không có ranh giới quyết định rõ ràng hoặc không thể mô hình một cách dễ dàng. Một điểm yếu của KNN là không phải cách thức thỏa đáng để xử lý các thuộc tính phân loại.
8.4.6.3 Ứng dụng điển hình
KNN là một mô hình dễ hiểu và dễ thực hiện, nó đem lại hiệu năng thực thi chấp nhận được Do đó đây là một phương pháp cơ bản được coi là tốt để thử trước khi thực hiện các kỹ thuật tiên tiến hơn. Vì KNN yêu cầu toàn bộ tập dữ liệu để thực hiện phân loại hoặc hồi quy, nên việc dự đoán có thể rất chậm khi kích thước hoặc chiều của dữ liệu lớn
8.4.7 Thuật toán Naïve Bayes
8.4.7.1 Lý thuyết và kỹ thuật
Thuật toán Naïve Bayes thường được tổng quát hòa thành một biểu diễn hoặc mô hình. Mô hình Naïve Bayes sử dụng lý thuyết Bayesian để học và suy luận, như thể hiện trong công thức (3):
| P (B | A )= P(A | B)P(B)/P (A) | (3) |
Trong đó P(B|A) là xác suất của sự kiện B với sự kiện A đã cho, P(A|B) là xác suất của sự kiện A với sự kiện B đã cho, P(A) và P(B) là xác suất của sự kiện A hoặc B.
trong đó
P(B|A) là xác suất của sự kiện B với sự kiện A đã cho;
P(A|B)là xác suất của sự kiện A với sự kiện B đã cho;
P(A) và P(B) là xác suất của sự kiện A hoặc B.
Trong phân loại Bayesian, B là biến lớp và A là tập các thuộc tính. Trong phân loại Naïve Bayes, giả sử các thuộc tính là độc lập với nhau, như được thể hiện trong công thức (4):
| P (C|A )= P (A1|C) P (A2|C) ... P(Ai|C) | (4) |
Xác suất hậu nghiệm P(C|A) được tính dựa trên khả năng xảy ra P(Ai|C) và xác suất tiên nghiệm P(C).
8.4.7.2 Đặc điểm chính
Để tìm xác suất cho một biến rời rạc, số lượng của mỗi lớp có thể có hoặc giá trị của thuộc tính được đưa vào bảng. Nếu biến là liên tục thì cần ước lượng hàm phân phối xác suất của biến.
8.4.7.3 Ứng dụng điển hình
Mô hình Naïve Bayes được sử dụng cho phân loại, đặc biệt là khi bộ dữ liệu không quá lớn. Nó có thể sử dụng cho phân loại đa lớp. Nó hoạt động không tốt nếu giả định rằng sự độc lập có điều kiện của các thuộc tính không được thỏa mãn. Đối với bộ dữ liệu rất nhỏ, nếu P(Ai|C) bằng không thì toàn bộ dự đoán sẽ thất bại.
8.4.8 Mạng nơ-ron tiến
8.4.8.1 Lý thuyết và kỹ thuật
Mạng nơ-ron tiến có cấu trúc mạng với mỗi nơ-ron thuộc về một tầng. Mỗi tầng nơ-ron nhận tín hiệu đầu vào từ các nơ-ron ở tầng trước đó và xuất tín hiệu đầu ra đến các nơ-ron ở tầng tiếp theo. Các tầng giữa tầng đầu vào và tầng đầu ra được gọi là các tầng ẩn. Tín hiệu lan truyền từ tầng đầu vào đến tầng đầu ra theo một hướng duy nhất mà không có phản hồi và có thể biểu diễn bằng đồ thị DAG. Hình 5 cho thấy ví dụ về cấu trúc FFNN.

CHÚ DẪN
1 tầng đầu vào
2 tầng ẩn
3 tầng đầu ra
Hình 5 - Ví dụ về cấu trúc FFNN
8.4.8.2 Đặc điểm chính
FFNN có khả năng mạnh mê, có thể xấp xỉ được các hàm phi tuyến liên tục cho biến đổi đặc trưng phức tạp hoặc xấp xỉ các phân phối có điều kiện phức tạp. Trong học máy, các đặc trưng đầu vào có ảnh hưởng lớn đến bộ phân loại. Lấy học có giám sát làm ví dụ, các đặc trưng tốt có thể cải thiện đáng kể hiệu năng của bộ phân loại. Do đó, để đạt được hiệu quả phân loại tốt, cần trích xuất đặc trưng, nơi vec- tơ đặc trưng gốc của mẫu được chuyển đổi thành vec-tơ đặc trưng hiệu quả hơn. Vì một FFNN đa tầng có thể xem là một hàm phức hợp phi tuyến, nó có thể được áp dụng như một phương pháp biến đổi đặc trưng, trong đó đầu ra của nó có thể sử dụng làm đầu vào của bộ phân loại để thực hiện phân loại. Khi cấu trúc của các tầng ẩn và các nơ-ron được tối ưu, FFNN đa tầng có thể xấp xỉ chính xác các hàm liên tục phức tạp. Một trong những điểm yếu của FFNN là nó dễ bị quá khớp khiến mô hình không thể tổng quát hóa một cách đáng tin cậy đối với dữ liệu mới.
8.4.9 Mạng nơ-ron hồi quy (RNN)
8.4.9.1 Lý thuyết và kỹ thuật
Mạng nơ-ron hồi quy là mạng nơ-ron có khả năng lưu trữ thông tin ngắn hạn. Các nơ-ron có thể nhận thông tin từ các nơ-ron khác và từ chính chúng trong RNN để hình thành một cấu trúc mạng có vòng lặp. Hình 6 mô tả ví dụ về cấu trúc RNN. Xét về mặt toán học, RNN có thể coi là một hệ động sử dụng hàm để mô tả sự thay đổi của tất cả các trạng thái trong không gian đã cho theo thời gian. RNN được kết nối đầy đủ tương tự như bất kỳ hệ động phi tuyến nào.

Hình 6 - Ví dụ về cấu trúc RNN
8.4.9.2 Đặc điểm chính
RNN có thể áp dụng cho các loại tác vụ học máy khác nhau, bao gồm tác vụ chuỗi-sang-phân loại, tác vụ chuỗi đồng bộ-sang-chuỗi và tác vụ chuỗi không đồng bộ-sang-chuỗi.
a) Tác vụ chuỗi-sang-lớp chủ yếu sử dụng để phân loại dữ liệu chuỗi, trong đó mô hình học máy nhận dữ liệu chuỗi làm đầu vào và đầu ra lồ dữ liệu phân loại. Ví dụ trong phân loại văn bản, dữ liệu đầu vào là chuỗi các từ, đầu ra là loại của văn bản.
b) Tác vụ chuỗi đồng bộ-sang-chuỗi chủ yếu sử dụng cho gán nhãn chuỗi đầu vào. Trong đó từng mẫu đầu vào có độ dài giống nhau được gắn chung một loại mẫu. Ví dụ trong phân loại từ loại, mỗi một từ được gán nhãn dạng từ loại tương ứng của nó.
c) Trong tác vụ chuỗi-sang-chuỗi không đồng bộ, còn được gọi là mô hình mã hóa-giải mã, các chuỗi đầu vào và đầu ra không cần phải tương ứng chặt chẽ và không cần duy trì cùng một độ dài. Ví dụ trong dịch máy, đầu vào là chuỗi từ ngôn ngữ gốc, đầu ra là chuỗi từ ngôn ngữ đích.
GDM thường được sử dụng để học các tham số trong RNN. Các phương pháp BPTT và RTRL sử dụng để tính toán độ dốc. Chức năng của BPTT là truyền thông tin lỗi từng bước một theo thứ tự ngược của trình tự thời gian. Bởi vì kích cỡ đầu của RNN thường nhỏ hơn kích cỡ đầu vào nên BPTT có đặc tính tính toán ít nhưng phức tạp hơn theo không gian. Phương pháp RTRL không cần phản hồi độ dốc nên phù hợp cho các tác vụ yêu cầu học trực tuyến.
Một chuỗi đầu vào tương đối dài sẽ gây ra vấn đề về bùng nổ hoặc biến mất về độ dốc [20][21] được gọi là vấn đề phụ thuộc dài hạn. Các cải tiến cho RNN, chẳng hạn như như cơ chế cổng được phát triển để giảm thiểu vấn đề này.
8.4.9.3 Ứng dụng điển hình
Mạng nơ-ron hồi quy được áp dụng rộng rãi trong nhận dạng tiếng nói, mô hình hóa ngôn ngữ, tạo ngôn ngữ tự nhiên.
8.4.10 Mạng bộ nhớ ngắn - dài hạn
8.4.10.1 Lý thuyết và kỹ thuật
Mạng LSTM là một loại RNN đặc biệt có thể học thông tin phụ thuộc dài hạn [22], Các cổng đầu vào (input gates), cổng quên (forget gates) và cổng đầu ra (output gates) được sử dụng trong mạng LSTM để điều khiển luồng thông tin. Các cổng đầu vào được chọn lọc để "nhớ" thông tin. cổng quên chọn lọc để quên thông tin từ nút trước đó. cổng đầu ra xác định đầu ra nào được coi là trạng thái hiện tại.
8.4.10.2 Đặc điểm chính
Mạng LSTM có thể học được sự phụ thuộc dài hạn nhờ cơ chế cổng, đây là đặc điểm quan trọng nhất để kiểm soát sự lưu thông và mất mát các đặc trưng. Tỷ lệ thu hồi của mạng LSTM cao vì có độ phụ thuộc khoảng xa mạnh mẽ và xử lý được lượng dữ liệu lớn. Mạng LSTM sử dụng như một dạng của "trạng thái trung gian" để mô tả chuỗi và kết quả có thể dùng làm đặc trưng sử dụng cho bước kế tiếp.
Mạng LSTM giảm thiểu vấn đề về độ dốc bùng nổ hoặc biến mất trong các RNN đơn giản. Hiện tại mạng LSTM có thể xử lý các chuỗi với cỡ 100 mức kích cỡ của chiều dữ liệu, nhưng vấn đề độ dốc biến mất vẫn có thể tồn tại cho các chuỗi có cỡ 1.000 mức hoặc lớn hơn.
Mỗi ô LSTM trong mạng có bốn lớp kết nối đầy đủ, nếu khoảng thời gian của mạng LSTM lớn và mạng sâu, khối lượng tính toán có thể rất lớn và tốn thời gian.
Về lý thuyết, mạng LSTM cũng có khả năng khớp các hàm tùy ý với các bài toán có các giả định và ràng buộc lỏng.
8.4.10.3 Ứng dụng điển hình
Các ứng dụng của mạng LSTM bao gồm dịch máy, mô hình ngôn ngữ [23] và nhận dạng tiếng nói.
8.4.11 Mạng nơ-ron tích chập
8.4.11.1 Lý thuyết và kỹ thuật
CNN là một loại mạng nơ-ron chuyển tiếp. CNN là các tri giác (perceptron) đa tầng, lấy cảm hứng từ cách thức tư duy của con người. CNN bao gồm lớp đầu vào, tổ hợp các lớp tích chập, lớp kích hoạt, lớp tổng hợp, lớp kết nối đầy đủ và lớp chuẩn hóa. Một ví dụ về cấu trúc CNN dưới dạng mô hình học máy LeNet-5 [24] được thể hiện trong Hình 7.

Hình 7 - Ví dụ về cấu trúc mô hình học máy CNN: Mạng LeNet-5
8.4.11.2 Đặc điểm chính
Một CNN về cơ bản là một ánh xạ từ đầu vào tới đầu ra. Nó có thể học một số lượng lớn các mối quan hệ ánh xạ giữa đầu vào và đầu ra mà không cần bất kỳ biểu thức toán học chính xác nào giữa đầu vào và đầu ra. Khi CNN được huấn luyện theo một cách thức nào đó, nó sẽ có khả năng ánh xạ giữa các cặp đầu vào và đầu ra [25],
Một trong những đặc điểm quan trọng nhất của CNN là nó có hình dạng tam giác nghịch đảo để giới hạn mất mát độ dốc quá mức trong mạng nơ-ron lan truyền ngược.
Trong sử dụng học máy để xử lý hình ảnh, lõi tích chập trượt trên một hình ảnh (hoặc một đặc trưng nào đó) để thu được một tập trung mới thông qua các phép tích chập. Lớp tích chập được sử dụng để trích xuất các đặc trưng cục bộ, trong đó các lõi tích chập hoạt động như bộ trích xuất đặc trưng. CNN có hai đặc điểm quan trọng:
- kết nối cục bộ, trong đó mỗi nơ-ron trong lớp tích chập chỉ được kết nối với nơ-ron trong một cửa sổ cục bộ nhất định của lớp tiếp theo để thành mạng kết nối cục bộ;
- chia sẻ trọng số, trong đó bộ lọc của mọi nơ-ron trong một lớp là giống nhau.
Trường hợp này mạng có thể học song song, đây cũng là một trong những lợi thế của CNN so với mạng nơ-ron liên kết.
Các CNN chia sẻ một lõi tích chập nên nhu cầu xử lý dữ liệu nhiều chiều giảm đi. Để tối ưu hiệu năng (ví dụ: dự đoán chính xác các lớp hình ảnh) có thể cần nhiều nỗ lực thực hiện một số công đoạn mang tính thủ công như trích chọn đặc trưng, huấn luyện trọng số và điều chỉnh tham số. Mô hình này thường yêu cầu bộ dữ liệu huấn luyện lớn, đòi hỏi sử dụng GPU, CPU đa lõi hoặc bộ vi xử lý chuyên dụng. Không phải lúc nào CNN cũng có khả năng giải thích, vì vậy có thể không rõ những khía cạnh nào của dữ liệu đầu vào được ánh xạ tới đầu ra.
8.4.11.3 Các ứng dụng điển hình
CNN được sử dụng rộng rãi trong nhận dạng và phân loại hình ảnh, ví dụ như ứng dụng nhận dạng khuôn mặt.
8.4.12 Mạng đối nghịch tạo sinh
8.4.12.1 Lý thuyết và kỹ thuật
GAN sử dụng huấn luyện đối nghịch và mô hình tạo sinh để tạo ra các mẫu phù hợp với phân phối dữ liệu thực [26], Mạng tạo sinh của GAN tạo ra các mẫu nhằm gây sự phân loại sai trên một phần của mạng phân biệt. Đồng thời GAN cũng huấn luyện các mạng phân biệt cố gắng xác định xem liệu một mẫu nào đó có phải là dữ liệu thực hay được tạo ra bởi mạng tạo sinh. Theo cách này, hai mạng đối lập được huấn luyện liên tục. Quá trình hội tụ xảy ra khi mạng phân biệt không còn phân loại chính xác các mẫu là dữ liệu thực hay giả nữa, tức là mạng tạo sinh tạo ra các mẫu phù hợp với phân phối dữ liệu thực.
8.4.12.2 Đặc điểm chính
GAN có thể biểu diễn các chiều tiềm ẩn và mối quan hệ ẩn của dữ liệu. So với tác vụ tối ưu hóa mục tiêu đơn, các mục tiêu tối ưu hóa của mạng tạo sinh và mạng phân biệt trong GAN là đối nghịch nhau. Do đó quá trình huấn luyện GAN có thể khó khăn và không ổn định và cần cân bằng khả năng của cả hai mạng. Nếu mạng phân biệt quá mạnh trong các giai đoạn đối nghịch khởi đầu thì không thể cải thiện được hiệu năng của mạng tạo sinh, cần tối ưu siêu tham số trong quá trình huấn luyện sao cho trong mỗi lần lặp, mạng phân biệt mạnh hơn một chút so với mạng tạo sinh.
8.4.12.3 Các ứng dụng điển hình
GAN thường được sử dụng trong các tác vụ xử lý hình ảnh như tạo hình ảnh từ văn bản, phiên dịch hình ảnh sang hình ảnh, sửa và phục hồi ảnh.
8.4.13 Học chuyển giao
8.4.13.1 Lý thuyết và kỹ thuật
Phương pháp học chuyển giao lưu trữ và trừu tượng hóa tri thức có được từ dữ liệu huấn luyện của một vấn đề này để áp dụng nó cho một vấn đề hoặc lĩnh vực khác. Tri thức dưới dạng một mô hình học máy có thể được điều chỉnh dựa trên các tình huống nhất định để phù hợp với một tác vụ hoặc lĩnh vực mới.
Điều này đặc biệt hữu ích khi gặp khó khăn hoặc không thể có được dữ liệu huấn luyện đã được gán nhãn cho tác vụ hoặc lĩnh vực mới.
8.4.13.2 Đặc điểm chính
Học chuyển giao dựa trên việc nhận biết cơ hội áp dụng tri thức hiện có vào một lĩnh vực mới, chuyển giao dữ liệu đã được gán nhãn hoặc cấu trúc tri thức (ví dụ: mô hình học máy) sử dụng trong lĩnh vực mới, điều chỉnh hoặc tối ưu hóa tri thức được chuyển giao cho lĩnh vực hoặc tác vụ mới.
Học chuyển giao được thiết kế để giảm sự phụ thuộc vào lượng lớn dữ liệu đã được gán nhãn đối với một lĩnh vực cụ thể. Tuy nhiên dữ liệu không phải lúc nào cũng phù hợp với lĩnh vực mới, cũng như tri thức chuyển giao không phản ánh đầy đủ các đặc điểm của dữ liệu trong lĩnh vực mới.
Tùy thuộc vào những gì được chuyển giao, các phương pháp học chuyển giao có thể dựa trên chuyển giao thực thể, chuyển giao đặc trưng hoặc chia sẻ tham số. Học chuyển giao có thể phân loại là chuyển giao quy nạp hoặc chuyển giao chuyển đổi. về mặt tổng quát, trong học chuyển giao suy luận, các lĩnh vực nguồn và lĩnh vực đích liên quan với nhau và miền nguồn dựa vào số lượng lớn mẫu huấn luyện. Trong học chuyển giao chuyển đổi, quá trình chuyển giao xảy ra bằng cách sử dụng dữ liệu từ các lĩnh vực nhau.
8.4.13.3 Các ứng dụng điển hình
Các ứng dụng học chuyển giao điển hình bao gồm nhận dạng hình ảnh và NLP [30], trong đó các mô hình được huấn luyện để dịch văn bản giữa hai ngôn ngữ được sử dụng để dịch văn bản sang một ngôn ngữ thứ ba.
8.4.14 Biểu diễn mã hóa hai chiều từ bộ biến đổi
8.4.14.1 Lý thuyết và kỹ thuật
BERT là một loại mô hình ngôn ngữ sử dụng dữ liệu huấn luyện không được gán nhãn để thu được một biểu diễn ngữ nghĩa phong phú của văn bản. Biểu diễn đó được học thông qua một tác vụ NLP cụ thể, có thể tái sử dụng để có được các tác vụ NLP khác, thường là sau khi tinh chỉnh hoặc áp dụng các thuật toán ở đường xuống. BERT là một bộ mã hóa chuyển đổi hai chiều sâu [31]. Đầu vào của nó gồm chuỗi các vec-tơ tổng hợp như ký tự, văn bản và thông tin vị trí. Đầu ra của nó là một véc-tơ ngữ nghĩa.
Một cấu trúc thông thường cho mô hình BERT [32] được hiển thị trong Hình 8. E1,E2 vàENlà biểu diễn nhúng. T1, T2 và TN là đầu ra cuối. Trm là các biểu diễn trung gian của một mã thông báo cụ thể.

Hình 8 - Ví dụ về cấu trúc mô hình BERT
8.4.14.2 Đặc điểm chính
BERT được thiết kế để xử lý từ bằng cách sử dụng thông tin theo cả hai hướng. Khác với các phương pháp huấn luyện mô hình ngôn ngữ khác (ví dụ: nhúng từ mô hình ngôn ngữ, GPT), BERT không dự đoán từ dựa trên tất cả các từ trước đó. Thay vào đó, nó che giấu một số từ một cách ngẫu nhiên và sử dụng các từ không che giấu để đưa ra dự đoán.
BERT giảm bớt ràng buộc một chiều bằng cách sử dụng quá trình tiền huấn luyện MLM. Với một câu cho trước, MLM xóa một cách ngẫu nhiên một hoặc vài từ và cố gắng dự đoán các từ đã bị xóa dựa trên các từ còn lại. Điều này làm cho mô hình phụ thuộc nhiều hơn vào thông tin ngữ cảnh để dự đoán và mang lại cho mô hình khả năng sửa lỗi. BERT cũng sử dụng NSP để xác định xem liệu câu thứ hai có liên hệ gần gũi với câu thứ nhất trong văn bản không.
Bằng cách huấn luyện kết hợp với các tác vụ MLP và NLP, mô hình học máy sẽ tạo đầu ra biểu diễn véc-tơ của mỗi từ để mô tả toàn diện và chính xác thông tin tổng quát của văn bản đầu vào (dù là câu đơn hay câu ghép). Các tác vụ tinh chỉnh kế tiếp cung cấp giá trị ban đầu tốt hơn cho các tham số mô hình học máy. Tuy nhiên, bất kỳ sự không nhất quán nào trong quá trình tiền huấn luyện và sinh ra sẽ làm giảm hiệu quả của các tác vụ tạo ngôn ngữ tự nhiên.
BERT có các bước tiền huấn luyện và tinh chỉnh. Thuật toán được huấn luyện trên dữ liệu chưa được gắn nhãn thông qua các tác vụ khác nhau trong quá trình tiền huấn luyện. Các tham số của thuật toán sau đó được điều chỉnh lại bằng sử dụng dữ liệu gắn nhãn từ các tác vụ cụ thể. Các tham số tinh chỉnh thông thường bao gồm kích thước batch, tốc độ học và số vòng lặp điều chỉnh. BERT huấn luyện biểu diễn song hướng sâu thông qua đồng điều chỉnh các biến đổi song hướng ở tất cả các tầng. Do đó nó chỉ cần một tầng đầu ra bổ sung để điều chỉnh lại mô hình học máy đã được tiền huấn luyện cho các tác vụ khác nhau, và cho một số tác vụ cụ thể không cần phải thiết kế kiến trúc. Việc sử dụng quá nhiều mặt lạ trong quá trình huấn luyện có thể ảnh hưởng đến hiệu năng dự đoán của mô hình học máy.
8.4.14.3 Ứng dụng điển hình
BERT đóng góp vào những tiến bộ của các tác vụ NLP như lập kho về câu và thành ngữ (CoLA), kho nghiên cứu về cầu và thành ngữ của Microsoft (MRPC), suy luận ngôn ngữ tự nhiên đa thể loại (MultiNLI), suy luận ngôn ngữ tự nhiên của câu hỏi (QNLI), cặp câu hỏi trên Quora (QQP), suy luận văn bản nhận diện (RTE), bộ đánh giá độ tương đồng văn bản ngữ nghĩa (STS-B) và cơ sở dữ liệu cây cảm xúc Stanford (SST-2).
8.4.15 XLNet
8.4.15.1 Lý thuyết và kỹ thuật
XLNet là một mô hình ngôn ngữ hoán vị tự hồi quy [37] để cải tiến hơn nữa cho GPT và BERT. XLNet liên tục dự đoán từ tiếp theo từ trái qua phải, không theo bản chất trình tự của các câu mà theo trình tự dự đoán. Cơ chế tự chú ý luồng kép được triển khai, "luồng kép" này đại diện bằng hai bộ biến đổi cho mỗi lớp trong mô hình, một luồng truy vấn và một luồng ngữ cảnh.
8.4.15.2 Đặc điểm chính
Để giải quyết vấn đề ngữ cảnh song hướng, mô hình ngôn ngữ hoán vị sử dụng thông tin vị trí của mục tiêu khi thực hiện dự đoán. Luồng nội dung mã hóa toàn bộ nội dung tại thời điểm hiện tại, trong khi đó luồng truy vấn tham chiếu đến lịch sử trước đây và vị trí hiện tại cần dự đoán. XLNet cố gắng học thông tin ngữ cảnh song hướng bằng cách tối đa hóa hàm log-likelihood của mọi trình tự phân rã có thể.
XLNet là mô hình tự hồi quy, trong khi BERT thì không phải vậy. Đặc tính này cho phép sự nhất quán hơn trong cách dữ liệu xuất hiện trong mô hình giữa các bước tiền huấn luyện và tinh chỉnh. Đặc tính này cũng tránh phải giả định sự độc lập của các token trong BERT.
XLNet thường tốn nhiều thời gian tính toán để thực thi.
8.4.15.3 Ứng dụng điển hình
Các ứng dụng điển hình của XLNet bao gồm đọc hiểu, xếp hạng tài liệu, các tác vụ QA, phân loại văn bản và NLU.
8.5 Siêu tối ưu
8.5.1 Tổng quan
Siêu tối ưu hóa đề cập đến một lớp các thuật toán tối ưu cung cấp các giải pháp khá tốt cho các vấn đề tối ưu hóa. Thông thường, chúng không xác định được giải pháp tối ưu nhưng có thể nhanh chóng tìm ra một giải pháp hợp lý bằng cách sử dụng heuristics hoặc quy tắc để tìm kiếm không gian giải pháp. Thông thường, chúng không đưa ra giả định mạnh về vấn đề đang giải quyết, điều này có nghĩa là chúng có thể sử dụng cho tập rộng các vấn đề, đặc biệt là những vấn đề có tính ngẫu nhiên hoặc không khả vi. Tuy nhiên, vì chúng không đưa ra giả định mạnh cho vấn đề nên thường hoạt động kém hơn so với các thuật toán tùy chỉnh được thiết kế cho các vấn đề cụ thể. Siêu tối ưu hóa thường dựa trên quần thể, tìm kiếm nhiều điểm trong không gian tìm kiếm cùng một lúc, điều này cho phép tìm kiếm được thực hiện song song và tránh được vấn đề tối ưu cục bộ. Chúng thường là các thuật toán ngẫu nhiêu. Các thuật toán siêu tối ưu hóa thường được sử dụng bằng cách thức tính toán tiến hóa, điển hình là giải thuật di truyền; lập trình di truyền hoặc chiến lược tiến hóa, mô phỏng luyện thép và thuật toán bầy đàn thông minh, lấy cảm hứng từ cuộc sống và trong tự nhiên, điển hình là tối ưu hóa bầy đàn hoặc tối ưu hóa theo đàn kiến.
8.5.2 Giải thuật di truyền
8.5.2.1 Lý thuyết và kỹ thuật
Giải thuật di truyền là một trong những cách thức tính toán tiến xuất hiện sớm nhất và nổi tiếng nhất. Chúng hoạt động dựa trên nguyên tắc di truyền và lựa chọn các cá thể phù hợp nhất. Chúng được giới thiệu và phổ biến từ khoảng những năm 1990 [38],[39].
Có một vài lý thuyết khác nhau đặt nền móng cho các giải thuật di truyền. Lý thuyết phổ biến nhất là giả thuyết tạo khối [39], giả định về cách thức giải thuật di truyền tập hợp các khối (building block) ngắn, phù hợp nhất cho tập các cá thế để tạo các thể tốt hơn.
8.5.2.2 Đặc điểm chính:
Giải quyết một vấn đề tối ưu bằng cách sử dụng giải thuật di truyền đòi hỏi khả năng thể hiện các cá thể tiềm năng dựa trên bộ gen và khả năng đánh giá bộ gen bằng hàm thích nghi, chấm điểm bộ gen dựa trên khả năng giải quyết vấn đề tốt như thế nào. Một bộ gen thông thường bao gồm một danh sách đơn giản của các bit, số thập phân hoặc các ký hiệu khác để thể hiện các tham số trong vấn đề cần tối ưu. Nhiều bộ gen cũng có thể được thể hiện nhưng phức tạp hơn, chẳng hạn như như cây, ma trận hoặc chuỗi cần được biên dịch bằng một ngôn ngữ máy tính.
Giải thuật bao gồm bốn bước: khởi tạo, lựa chọn, các toán tử di truyền và điều kiện kết thúc. Giải thuật tạo ra các thế hệ bộ gen kế tiếp, các thế hệ sau giải quyết vấn đề tốt hơn thế hệ trước.
Bước khởi tạo tạo ra một quần thể bộ gen. Thông thường, cách thức tạo ngẫu nhiên được sử dụng nhưng cũng có thể khởi tạo quần thể với các cá thể yếu. Tuy nhiên, điều quan trọng là có sự đa dạng của các bộ gen ban đầu trong quần thể.
Sau khởi tạo là bước lựa chọn. Bộ gen trong quần thể được chấm điểm bằng hàm thích nghi và được lựa chọn ngẫu nhiên để sinh sản với xác suất lựa chọn tỷ lệ với độ thích nghi. Nói cách khác, bộ gen có độ thích nghi cao là bộ gen giải quyết vấn đề tốt hơn và có khả năng được chọn để sinh sản. Các phương pháp lựa chọn phổ biến bao gồm lựa chọn bằng bánh xe quay và lựa chọn đấu loại.
Khi các cặp bộ gen được lựa chọn để sinh sản, các toán tử di truyền được áp dụng. Có nhiều toán tử di truyền, phổ biến nhất là sự giao nhau (hoặc tái kết hợp) và đột biến.
Sự giao nhau kết hợp các phần của hai bộ gen cha mẹ để tạo ra con cái. Biến thể giao nhau phổ biến là giao nhau một điểm hoặc giao nhau hai điểm, về thực chất, một hoặc hai điểm cắt được đặt ngẫu nhiên dọc theo chiều dài của bộ gen. Bộ gen con bao gồm phần đầu của một bộ gen cha trước điểm cắt và phần thứ hai của bộ gen mẹ ở sau điểm cắt. Đối với biến thể hai điểm, phần đầu và phần thứ ba của bộ gen lấy bộ gen cha và phần thứ hai lấy từ bộ gen mẹ. Mục đích của sự giao nhau là chia sẻ các phần của các cá thể tốt để tạo ra con cái mạnh mê hơn. Các con cái yếu bị loại bỏ trong các thế hệ kế tiếp thông qua lựa chọn.
Dạng khác của toán tử di truyền là đột biến, trong đó các ký hiệu trong bộ gen được thay đổi ngẫu nhiên. Mục đích của đột biến là tránh sự hội tụ sớm bằng cách đưa sự đa dạng trở lại trong quần thể. Sự giao nhau được áp dụng với xác suất cao, thường khoảng từ 0,6 đến 0,9 và đột biến ở mức rất thấp, thường là 0,1 hoặc thấp hơn.
Các thế hệ kế tiếp của quần thể được tạo ra theo cách này cho đến khi giải thuật kết thúc bằng cách sử dụng tiêu chí kết thúc, có thể đơn giản như tạo số lượng thế hệ đã định trước hoặc tạo các thế hệ kế tiếp cho đến khi thành viên tốt nhất trong quần thể đáp ứng một số tiêu chí định trước.
8.5.2.3 Ứng dụng điền hình
Giải thuật di truyền sử dụng cho nhiều ứng dụng khác nhau. Chúng hoạt động tốt ở những nơi mà các bài toán đặt ra không khả vi, hàm thích nghi không thể viết dưới dạng toán học và bài toán liên quan đến lĩnh vực ngẫu nhiên.
Thư mục tài liệu tham khảo
[1] Russell Stuart J., Norvig Peter Artificial Intelligence: A Modern Approach. Essex: Pearson
[2] ISO/IEC 2382:2015, Information technology-Vocabulary
[3] ISO/IEC/IEEE 26513:2017, Systems and software engineering - Requirements for testers and reviewers of information for users
[4] ISO/IEC/TR 24030, Information technology - Artificial intelligence (Al) - Use cases
[5] Jiao Jian Application and prospect of artificial intelligence in smart grid. IOP conference series: Earth and Environmental Science. IWRED 2020, 2020
[6] RDF Schema 1.1 - W3C Recommendation 25 February 2014. Available from: http://www.w3.org/TR/2014/REC-rdf-schema-20140225/
[7] OWL 2 Web Ontology Language Document Overview (Second Edition) - W3C Recommendation 11 December 2012. Available from: http://www.w3.org/TR/2012/REC-owl2- overview-20121211/
[8] Hu L., Jiang Y., Li Y. Optimization Design of Internet Fraud Case Based on Knowledge Graph and Case Teaching. Proceedings of the 2019 7th International Conference on Information and Education Technology. ICIET 2019, 2019
[9] SPARQL 1.1 Query Language - W3C Recommendation 21 March 2013. Available from: http://www.w3.org/TR/2013/REC -sparqll 1-query -20130321/
[10] ISO/lEC 9075 (all parts), Information technology - Database languages - SQL
[11] Shapes Constraint Language (SHACL) - W3C Recommendation 20 July 2017. Available from: https://www.w3 .org/TR/ 2017/REC-shacl-20170720/
[12] Copi Irving M., Cohen Carl, McMahon Kenneth Introduction to Logic 14th edition. Essex: Pearson Education Limited
[13] Quinlan J. R. Induction of Decision Tree. Machine Learning, 1986, 1, 81-106
[14] Quinlan J. R. C4.5: Programs for Machine Learning. San Francisco: Morgan Kaufmann Publishers Inc, 1993.
[15] Quinlan J.R. Data Mining Tools See5 and C5.0. RuleQuest Research [online], St. Ives NSW, Australia, October 2020 [viewed 21 November 2020]. Available from: https://www.rulequest.com/see5-info.html
[16] Breiman Leo, Friedman Jerome, stone Charles J., Olshen R.A. Classification and Regression Trees. Monterey, CA: Wadsworth & Brooks/Cole Advanced Books & Software, 1984
[17] Breiman L. Random Forests. Machine Learning. 2001, 45(1), 5-32
[18] Li Bin, Zhuang Xiaoying Multiscale computation on feedforward neural network and recurrent neural network. Frontiers of structural and Civil Engineering. 2021
[19] Haykin Simon Neural networks and learning machines, volume 3. Upper Saddle River, NJ: Pearson, 2009
[20] Bengio Yoshua, Simard Patrice, Frasconi Paolo Learning long-term dependencies with gradient descent is difficult. Neural Networks, IEEE Transactions on. 1994, 5(2), 157-166
[21] Hochreiter Sepp, Bengio Yoshua, Frasconi Paolo, Schmidhuber Jurgen Gradient flow in recurrent nets: the difficulty of learning long-term dependencies. Wiley -IEEE Press, 2001, 237-243
[22] Hochreiter Sepp, Schmidhuber Jurgen Long short-term memory. Neural computation. 1997, 9(8), 1735-1780
[23] Dai A., Le Q. Semi-supervised Sequence Learning. arXivpreprint. 2015. arXiv: 1511.01432
[24] LeCun Y., Bottou L., Bengio Y., Haffner p. Gradient-based learning applied to document recognition. Proceedings of the IEEE. 1998, 11
[25] Hu Zhenlong, Zhao Qiang, Wang Jun The prediction model of worsted yarn quality based on CNN-GRNN neural network. Neural Computing and Applications. 2018
[26] Goodfellow Ian, Pouget-Abadie Jean, Mirza Mehdi, Xu Bing David Warde- Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. Generative adversarial nets. Advances in Neural Information Processing Systems. 2014, 2672-2680
[27] Xu T., Zhang P., Huang Q., Zhang H., Gan Z., Huang X. et al. AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks. arXiv preprint. 2017. arXiv: 1711.10485V1
[28] Zhu J.- Y., Park T., Isola p., Efros A.A. Unpaired lmage-to-lmage Translation using CycleConsistent Adversarial Networks. arXiv preprint. 2020. arXiv: 1703.10593v7
[29] Liu G., Reda F.A., Shih K.J., Wang T.-C., Tao A., Catanzaro B. Image Inpainting for Irregular Holes Using Partial Convolutions. arXiv preprint. 2018. arXiv: 1804.07723v2
[30] Jeremy H., Sebastian R. Universal Language Model Fine-tuning for Text Classification. arXivpreprint. 2018. arXiv: 1801.06146v5
[31] Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Jones L., Gomez A.N. et al. Attention is all you need. arXivpreprint. 2017. arXiv: 1706, 03762v5
[32] Devlin J., Chang M.-W., Lee K., Toutanova K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXivpreprint. 2019. arXiv: 1810.04805v2
[33] Peters M.E., Neumann M., lyyer M., Gardner M., Clark C., Lee K. et al. Deep contextualized word representations. arXivpreprint. 2018. arXiv: 1802.05365v2
[34] Radford A., Narasimhan K., Salimans T., Sutskever I., Improving language understanding by generative pre-training. OpenAI [online]. San Francisco, USA, 11 June 2018 [viewed 23 November 2020], Available from: https://openai.com/blog/language-unsupervised
[35] Song z., Xie Y., Huang W., Wang H. Classification of Traditional Chinese Medicine Cases based on Character-level Bert and Deep Learning. IEEE 8th Joint International Information Technology and Artificial Intelligence Conference (ITAIC). 2019
[36] Parcheta Zuzanna, Sanchis- Trilles Germa n, Casacuberta Francisco, Rendahl Robin Combining Embeddings of Input Data for Text Classification. Neural Processing Letters. 2020
[37] Yang Z., Dai Z., Yang Y., Carbonell J., Salakhutdinov R., Le Q.V. XLNet: Generalized Autoregressive Pretraining for Language Understanding. arXiv preprint. 2020. arXiv: 1906.08237V2
[38] Goldberg David Genetic Algorithms in Search, Optimization and Machine Learning. Reading, MA: Addison-Wesley Professional, 1989
[39] Holland John Adaptation in Natural and Artificial Systems. Cambridge, MA: MIT Press, 1992
Mục lục
Mục lục
Lời nói đầu
Lời giới thiệu
1 Phạm vi áp dụng
2 Tài liệu viện dẫn
3 Thuật ngữ và định nghĩa
4 Chữ viết tắt
5 Tổng quan
6 Đặc điểm chính của hệ thống AI
6.1 Khái quát chung
6.2 Đặc điểm chính của hệ thống Al
6.2.1 Có thể thích ứng
6.2.2 Tính xây dựng
6.2.3 Tính phối hợp
6.2.4 Tính động
6.2.5 Tính có thể giải thích được
6.2.6 Tính phân biệt hoặc tạo sinh
6.2.7 Tính tự suy
6.2.8 Được huấn luyện hoặc có thể huấn luyện
6.2.9 Đáp ứng sự đa dạng của dữ liệu
6.3 Đặc điểm tính toán của hệ thống AI
6.3.1 Dựa trên dữ liệu hoặc dựa trên tri thức
6.3.2 Dựa trên cơ sở hạ tầng
6.3.3 Phụ thuộc vào thuật toán
6.3.4 Dựa vào học đa bước hoặc học từ đầu cuối đến đầu cuối
7 Các loại hình phương pháp tính toán AI
7.1 Tổng quan
7.2 Phương pháp dựa trên tri thức
7.3 Phương pháp dựa trên dữ liệu
8 Các thuật toán và phương pháp được chọn sử dụng trong các hệ thống AI
8.1 Khái quát chung
8.2 Kỹ thuật và biểu diễn tri thức
8.2.1 Tổng quan
8.2.2 Bản thể luận
8.2.3 Đồ thị tri thức
8.2.4 Web ngữ nghĩa
8.3 Logic và suy luận
8.3.1 Khái quát chung
8.3.2 Suy luận quy nạp
8.3.3 Suy luận diễn giải
8.3.4 Suy luận giả định
8.3.5 Phương pháp suy luận Bayes
8.4 Học máy
8.4.1 Khái quát chung
8.4.2 Cây quyết định
8.4.3 Rừng ngẫu nhiên
8.4.4 Hồi quy tuyến tính
8.4.5 Hồi quy logistic
8.4.6 K - láng giềng gần nhất
8.4.7 Thuật toán Naïve Bayes
8.4.8 Mạng nơ-ron tiến
8.4.9 Mạng nơ-ron hồi quy (RNN)
8.4.10 Mạng bộ nhớ ngắn - dài hạn
8.4.11 Mạng nơ-ron tích chập
8.4.12 Mạng đối nghịch tạo sinh
8.4.13 Học chuyển giao
8.4.14 Biểu diễn mã hóa hai chiều từ bộ biến đổi
8.4.15 XLNet
8.5 Siêu tối ưu
8.5.1 Tổng quan
8.5.2 Giải thuật di truyền
Thư mục tài liệu tham khảo
1) Suy luận chẩn đoán: bác sĩ thường lấy một nhóm các triệu chứng để chỉ ra sự thể hiện tình trạng bệnh lý cụ thể và đưa ra chuẩn đoán "các triệu chứng X, Y và Z phù hợp với tình trạng bệnh C". Về mặt kỹ thuật, đây là "khẳng định hậu quả": bác sĩ chẩn đoán đang giả định rằng không có lời giải thích nào khác có thể có cho các triệu chứng. Xem 8.3.5.
2) Đánh giá một chứng minh toán học có hợp lệ hay không là một bài tập thú vị vì nó dựa trên khả năng suy luận toán học của một người. Nói chung, nếu một chứng minh là hợp lệ thì tất cả các nhà toán học có trình độ phù hợp đều có thể đồng ý rằng nó đúng. Trong một số lĩnh vực, chẳng hạn như lý thuyết số, có những giả thiết đưa ra dự đoán có thể kiểm chứng về cách thức các con số hoạt động, nhưng trong hầu hết các lĩnh vực toán học thuần túy, không thể kiểm chứng bằng thực nghiệm như một phép kiểm tra chéo các chứng minh. Xem 8.3.4
Bạn chưa Đăng nhập thành viên.
Đây là tiện ích dành cho tài khoản thành viên. Vui lòng Đăng nhập để xem chi tiết. Nếu chưa có tài khoản, vui lòng Đăng ký tại đây!