Tiêu chuẩn Quốc gia TCVN 12892-3:2020 ISO/IEC 11172-3:1993/Cor.1:1996 Công nghệ thông tin - Mã hóa hình ảnh động và âm thanh kết hợp cho phương tiện lưu trữ số lên tới 1,5 mbit/s - Phần 3: Âm thanh

  • Thuộc tính
  • Nội dung
  • Tiêu chuẩn liên quan
  • Lược đồ
  • Tải về
Mục lục Đặt mua toàn văn TCVN
Lưu
Theo dõi văn bản

Đây là tiện ích dành cho thành viên đăng ký phần mềm.

Quý khách vui lòng Đăng nhập tài khoản LuatVietnam và đăng ký sử dụng Phần mềm tra cứu văn bản.

Báo lỗi
  • Báo lỗi
  • Gửi liên kết tới Email
  • Chia sẻ:
  • Chế độ xem: Sáng | Tối
  • Thay đổi cỡ chữ:
    17
Ghi chú

Tiêu chuẩn Việt Nam TCVN 12892-3:2020

Tiêu chuẩn Quốc gia TCVN 12892-3:2020 ISO/IEC 11172-3:1993/Cor.1:1996 Công nghệ thông tin - Mã hóa hình ảnh động và âm thanh kết hợp cho phương tiện lưu trữ số lên tới 1,5 mbit/s - Phần 3: Âm thanh
Số hiệu:TCVN 12892-3:2020Loại văn bản:Tiêu chuẩn Việt Nam
Cơ quan ban hành: Bộ Khoa học và Công nghệLĩnh vực: Thông tin-Truyền thông
Năm ban hành:2020Hiệu lực:
Người ký:Tình trạng hiệu lực:
Đã biết

Vui lòng đăng nhập tài khoản gói Tiêu chuẩn hoặc Nâng cao để xem Tình trạng hiệu lực. Nếu chưa có tài khoản Quý khách đăng ký tại đây!

Tình trạng hiệu lực: Đã biết
Ghi chú
Ghi chú: Thêm ghi chú cá nhân cho văn bản bạn đang xem.
Hiệu lực: Đã biết
Tình trạng: Đã biết

TIÊU CHUẨN QUỐC GIA

TCVN 12892-3 : 2020

ISO/IEC 11172 - 3: 1993/Cor.1:1996

CÔNG NGHỆ THÔNG TIN - MÃ HÓA HÌNH ẢNH ĐỘNG VÀ ÂM THANH KẾT HỢP CHO PHƯƠNG TIỆN LƯU TRỮ SỐ LÊN TỚI 1,5 MBIT/S - PHẦN 3: ÂM THANH

Information technology - Coding of moving pictures and associated audio for digital storage media at up to about 1,5 Mbit/s - Part 3: Audio

 

MỤC LỤC

1  Phạm vi áp dụng

2  Tài liệu viện dẫn

3  Thuật ngữ và định nghĩa

4  Ký hiệu và từ ngữ viết tắt

4.1  Toán tử số học

4.2  Các toán tử logic

4.3  Các toán tử quan hệ

4.4  Các phép toán thao tác bít

4.5  Phép gán

4.6  Phép nhớ

4.7  Hằng số

5  Phương pháp mô tả cú pháp dòng bít

6  Các yêu cầu của cấu trúc mã hóa và tham số

6.1  Hàm chuỗi âm thanh

6.2  Hàm khung âm thanh

6.3  Hàm tiêu đề

6.4  Hàm kiểm tra lỗi

6.5  Hàm dữ liệu âm thanh, lớp I

6.6  Hàm dữ liệu âm thanh, lớp II

6.7  Hàm dữ liệu âm thanh lớp III

6.8  Hàm dữ liệu phụ trợ

7  Ngữ nghĩa cho cú pháp dòng bít âm thanh

7.1  Chuỗi âm thanh chung

7.2  Khung âm thanh

7.3  Tiêu đề

7.4  Kiểm tra lỗi

7.5  Dữ liệu âm thanh, lớp I

7.6  Dữ liệu âm thanh lớp II

7.7  Dữ liệu âm thanh, lớp III

7.8  Dữ liệu phụ trợ

8  Quá trình giải mã âm thanh

8.1  Tổng quan

8.2  Lớp I

8.2.1  Tái lượng tử hóa các mẫu băng tần con

8.2.2  Giàn bộ lọc tần con tổng hợp

8.3  Lớp II

8.3.1  Giải mã phản bổ bit

8.3.2  Giải mã thông tin lựa chọn hệ số tỷ lệ

8.3.3  Giải mã hệ số tỷ lệ

8.3.4  Tái lượng tử các mẫu băng tần con

8.3.5  Giàn bộ lọc tần tổng hợp

8.4  Lớp III

8.4.1  Giải mã

8.4.2  Thông tin phụ

8.4.3  Khởi đầu dữ liệu chính

8.4.4  Xem xét bộ đệm

8.4.5  Hệ số tỷ lệ

8.4.6  Giải mã Huffman

8.4.7  Lượng tử hóa

8.4.8  Công thức tính toán lượng tử và tất cả các hệ số tỷ lệ.

8.4.9  Sắp xếp lại thứ tự

8.4.10  Quá trình xử lý âm thanh nổi

Phụ lục A (Quy định) Sơ đồ mã hóa, giải mã

Phụ lục B (Quy định) Các bảng biểu

Phụ lục C (Tham khảo) Quá trình mã hóa

C.1  Mã hóa

Phụ lục D (Tham khảo) Mô hình tâm thính học

D.1. Mô hình tâm thính học 1

D.2. Mô hình tâm thính học 2

Phụ lục E (Tham khảo) Độ nhạy bít với lỗi

E.1  Tổng quan

E.2  Lớp I và II

E.3  Lớp III

Phụ lục F (Tham khảo) Giấu lỗi

Phụ lục G (Tham khảo) Mã hóa phối kết âm thanh nổi

G.1. Mã hóa cường độ âm thanh nổi cho lớp I, II

G.2. MS Stereo và mã hóa cường độ âm thanh nổi cho lớp III

Phụ lục H (Tham khảo) Danh sách chủ sở hữu bằng sáng chế

Thư mục tài liệu tham khảo

 

Lời nói đầu

TCVN 12892-3: 2020 hoàn toàn tương đương ISO/IEC 11172 - 3: 1993 và đính chính kỹ thuật ISO/IEC 11172-3:1993/ Cor.1:1996.

TCVN 12892-3 : 2020 do Viện Khoa học kỹ thuật Bưu điện - Học viện Công nghệ Bưu chính Viễn thông biên soạn, Bộ Thông tin và Truyền thông đề nghị, Tổng cục Tiêu chuẩn Đo lường Chất lượng thẩm định, Bộ Khoa học và Công nghệ công bố.

 

CÔNG NGHỆ THÔNG TIN - MÃ HÓA HÌNH ẢNH ĐỘNG VÀ ÂM THANH KẾT HỢP CHO PHƯƠNG TIỆN LƯU TRỮ SỐ LÊN TỚI 1,5 MBIT/S - PHẦN 3: ÂM THANH.

Information technology - Coding of moving pictures and associated audio for digital
storage media at up to about 1,5 Mbit/s
- Part 3: Audio

1  Phạm vi áp dụng

Tiêu chuẩn này quy định phương pháp mã hóa, giải mã tín hiệu âm thanh chất lượng cao. Tín hiệu đầu vào của bộ mã hóa và đầu ra của bộ giải mã tương thích với các tiêu chuẩn PCM hiện tại như chuẩn đĩa quang (CD) và băng từ âm thanh số (Digital Audio Tape).

Tiêu chuẩn này áp dụng cho các thiết bị lưu trữ số với tốc độ truyền liên tục lên tới 1,5 Mbit/s đối với cả dòng bít cả âm thanh và video, như CD, DAT, VCD, DVD, băng từ âm thanh số, ổ cứng thể rắn (SSD) và đĩa cứng từ (HDD). Các thiết bị lưu trữ được kết nối trực tiếp với bộ giải mã, hoặc kết nối thông qua các phương tiện khác như đường truyền thông và dòng tín hiệu ISO/IEC 11172 đã ghép kênh được định nghĩa trong phần 1 của tiêu chuẩn ISO/IEC 11172. Tiêu chuẩn này được xây dựng để thực hiện mã hóa ở tốc độ lấy mẫu tần số 32 kHz; 44,1 kHz và 48 kHz.

2  Tài liệu viện dẫn

Tài liệu viện dẫn sau là cần thiết cho việc áp dụng tiêu chuẩn này. Đối với các tài liệu viện dẫn ghi năm công bố thì áp dụng phiên bản được nêu. Đối với các tài liệu viện dẫn không ghi năm công bố thì áp dụng phiên bản mới nhất, bao gồm cả sửa đổi, bổ sung (nếu có).

ISO/IEC 11172-1:1993, Information technology - Coding of moving pictures and associated audio for digital storage media at up to about 1,5 Mbit/s - Part 1: System (Công nghệ thông tin - Mã hóa hình ảnh động và âm thanh kết hợp cho phương tiện lưu trữ số lên tới 1,5 Mbit/s - Phần 1: Hệ thống).

ISO/IEC 11172-2:1993, Information technology - Coding of moving pictures and associated audio for digital storage media at up to about 1,5 Mbit/s - Part 2: Video (Công nghệ thông tin - Mã hóa hình ảnh động và âm thanh kết hợp cho phương tiện lưu trữ số lên tới 1,5 Mbit/s - Phần 2: Video).

CCIR Recommendation 601-2, Encoding parameters of digital television for studios (Khuyến nghị CCIR 601-2 Các thông số mã hóa truyền hình số cho phòng thu).

CCIR Report 624-4, Characteristics of systems for monochrome and colour television (Báo cáo CCIR 624-4 Các đặc tính của hệ thống cho truyền hình màu và đơn sắc).

CCIR Recommendation 648, Recoding of audio signals. (Khuyến nghị CCIR 648 Ghi tín hiệu âm thanh).

CCIR Report 955-2, Sound broadcasting by satellite for portable and mobile receivers, including Annex IV Summry description of Advanced Digital System II (Báo cáo CCIR 955-2 Phát thanh quảng bá qua vệ tinh cho các máy cầm tay và các bộ thu di động, bao gồm Phụ lục IV Mô tả khái quát về Hệ thống số cải tiến II).

CCIIT Recommendation J. 17, Pre-emphasis used on Sound-Programme Circuits (Khuyến nghị CCIIT J.17 Kỹ thuật tăng chỉnh được sử dụng trong các mạch chương trình âm thanh).

IEEE Draft Standard PIIWD2 1990, Specification for the implementation of 8x 8 inverse discrete cosine transform” (Dự thảo chuẩn IEEE PIIWD2 1990 Kỹ thuật cho việc thực hiện chuyển đổi Cosin rời rạc ngược 8x8).

IEC publication 908:1987, CD Digital Audio System (IEC 908:1987 Hệ thống âm thanh số CD).

3  Thuật ngữ và định nghĩa

Tiêu chuẩn này sử dụng các thuật ngữ và định nghĩa sau:

3.1

Hệ số AC [video] (AC coefficient [video])

Bất kỳ hệ số DCT nào mà có tần số nằm trong một hoặc cả hai chiều có giá trị khác không.

3.2

Đơn vị truy cập [hệ thống] (access unit [system])

Trong trường hợp âm thanh nén thì đơn vị truy cập chính là đơn vị truy cập âm thanh. Trong trường hợp video nén thì đơn vị truy cập là sự biểu diễn một bức ảnh được mã hóa.

3.3

Phân đoạn thích ứng [âm thanh] (Adaptive segmentation [audio])

Việc phân nhỏ việc trình diễn kỹ thuật số của tín hiệu âm thanh trong các khoảng thời gian thay đổi.

3.4

Phân bổ bít thích ứng [âm thanh] (adaptive bít allocation [audio])

Việc phân chia các bít cho các băng tần con theo thời gian và theo tần số biến đổi kiểu cách theo mô hình tâm thính học.

3.5

Phân bổ nhiễu thích ứng [âm thanh] (adaptive noise allocation [audio])

Việc phân chia nhiễu mã hóa cho các băng tần theo thời gian và tần số biến đổi kiểu cách theo mô hình tâm thính học.

3.6

Bí danh [âm thanh] (alias [audio])

Một thành phần tín hiệu được phản chiếu do việc lấy mẫu Nyquist.

3.7

Giàn bộ lọc phân tích [âm thanh] (Analysis filterbank [audio])

Giàn bộ lọc trong bộ mã hóa chuyển đổi tín hiệu âm thanh PCM băng thông rộng thành một tập hợp các mẫu băng tần con được lấy mẫu.

3.8

Đơn vị truy cập âm thanh [âm thanh] (Audio Access Unit [audio])

Với Lớp I và II, một đơn vị truy cập âm thanh được định nghĩa là một phần nhỏ nhất của dòng bít được mã hóa mà có thể được giải mã bởi chính nó, trong đó được mã hóa nghĩa là “âm thanh được tái tạo hoàn toàn”. Đối với Lớp III, một đơn vị truy cập âm thanh là một phần của dòng bít mà có thể được giải mã bằng việc sử dụng thông tin chính đã yêu cầu trước đó.

3.9

Bộ đệm âm thanh [âm thanh] (audio buffer [audio])

Một bộ đệm trong các bộ giải mã hệ thống dùng để lưu trữ dữ liệu âm thanh được nén.

3.10

Chuỗi âm thanh [âm thanh] (audio sequence [audio])

Một loạt các khung âm thanh không bị gián đoạn trong đó các tham số sau đây không thay đổi:

- ID

- Lớp

- Tần số lấy mẫu

- Đối với lớp I và II: chỉ số tốc độ bít.

3.11

Véc tơ chuyển động ngược [video] (backward motion vector [video])

Một véc tơ chuyển động được sử dụng để bù chuyển động từ một hình ảnh tham chiếu vào một thời điểm sau đó theo thứ tự hiển thị.

3.12

Bark [âm thanh] [audio]

Đơn vị đo tốc độ dải tới hạn. Thang đo Bark là ánh xạ phi tuyến tính của thang đo tần số trên dải âm thanh tương ứng chặt chẽ với độ chọn lọc tần số của tai người trên toàn dải.

3.13

Hình ảnh được mã hóa dự đoán hai chiều; ảnh B [video] (bidirectionally predictive-coded picture; B-picture [video])

Một hình ảnh được mã hóa sử dụng bù chuyển động dự đoán từ một hình ảnh tham chiếu trong quá khứ và / hoặc tương lai.

3.14

Tốc độ bít (bitrate)

Tốc độ mà dòng bít bị nén được phân phối từ các phương tiện lưu trữ tới đầu vào của một bộ giải mã.

3.15

Khối nén giãn [âm thanh] (Block companding [audio])

Tiêu chuẩn hóa việc trình diễn tín hiệu âm thanh số trong một khoảng thời gian nhất định.

3.16

Khối [video] (block [video])

Một khối pixel trực giao gồm 8 hàng x 8 cột

3.17

Phạm vi [âm thanh] (Bound [audio])

Băng tần con thấp nhất trong đó mã hóa âm thanh nổi được sử dụng.

3.18

Căn chỉnh theo byte (byte aligned)

Một bit trong dòng bit được mã hóa được căn chỉnh theo byte nếu vị trí của nó là bội số của 8 bit tính từ bit đầu tiên trong luồng.

3.19

Byte

Chuỗi 8 bít

3.20

Kênh (Channel)

Là một phương tiện kỹ thuật số lưu trữ hoặc truyền tải trong dòng tín hiệu ISO/IEC 11172.

3.21

Kênh [âm thanh] (chanel [audio])

Các kênh trái và kênh phải của tín hiệu âm thanh nổi stereo.

3.22

Màu (thành phần) [video]

Một ma trận, một khối hoặc một pixel đơn trình diễn một trong hai tín hiệu màu sắc khác nhau liên quan đến các màu cơ bản theo định nghĩa được quy định trong CCIR rec 601. Các ký hiệu sử dụng cho tín hiệu màu sắc khác nhau là Cr và Cb.

3.23

Dòng bít mã hóa âm thanh [âm thanh] (coded audio bitstream [audio])

Việc trình diễn tín hiệu âm thanh mã hóa được định nghĩa theo tiêu chuẩn ISO/IEC 11172.

3.24

Dòng bít mã hóa video [video] (coded video bitstream [video])

Việc trình diễn một chuỗi gồm một hoặc nhiều hình ảnh được mã hóa theo tiêu chuẩn ISO/IEC 11172.

3.25

Thứ tự mã hóa [video] (coded order [video])

Thứ tự trong đó các hình ảnh được lưu trữ hoặc được giải mã. Thứ tự này không nhất thiết giống như thứ tự hiển thị.

3.26

Trình diễn mã hóa (coded representation)

Thành phần dữ liệu được trình diễn theo dạng mã hóa của nó.

3.27

Các thông số mã hóa [video] (coding parameters [video])

Tập hợp các thông số do người dùng định nghĩa mà đặc trưng cho một dòng bít video được mã hóa. Dòng bít được đặc trưng bởi các thông số mã hóa. Bộ giải mã dược đặc trưng bởi các dòng bit mà chúng có khả năng giải mã.

3.28

Thành phần màu [video] (component [video])

Một ma trận, một khối hoặc một pixel từ một trong số 3 ma trận (độ chói và 2 độ màu) để tạo nên một bức ảnh.

3.29

Nén (compression)

Kỹ thuật làm giảm số lượng các bít được sử dụng để trình diễn một mục dữ liệu.

3.30

Video được mã hóa với tốc độ bit không đổi [video] (constant bitrate coded video[video])

Một dòng video được nén với tốc độ bít trung bình không đổi.

3.31

Tốc độ bit không đổi (constant bitrate)

Hoạt động trong đó tốc độ bit không đổi từ đầu đến cuối của dòng bit được nén.

3.32

Các thông số bắt buộc [video] (constrained parameters[video])

Các giá trị của một tập các thông số mã hóa được quy định tại khoản 2.4.3.2 của tiêu chuẩn ISO/IEC 11172-2.

3.33

Dòng thông số hệ thống bắt buộc [hệ thống] - constrained system parameter stream (CSPS)

Một dòng tín hiệu tiêu chuẩn ISO/IEC 11172 được ghép kênh mà tuân thủ những ràng buộc được quy định tại khoản 2.4.6 tiêu chuẩn ISO/IEC 11172-1.

3.34

CRC

Mã dự phòng theo chu kỳ.

3.35

Tốc độ băng tới hạn [âm thanh] (critical band rate [audio])

Chức năng tâm thính học của tần số. Tại một tần số âm thanh cho trước, nó tỷ lệ với số dải tần tới hạn nằm dưới tần số đó. Các đơn vị của thang đo tốc độ băng tần tới hạn là Bark.

3.36

Băng tới hạn [âm thanh] (critical band [audio])

Phép đo tâm thính học trong miền phổ tương ứng với độ chọn lọc tần số của tai người. Độ chọn lọc này được biểu diễn bằng đơn vị Bark.

3.37

Phần t dữ liệu (data element)

Một mục dữ liệu được trình diễn trước khi mã hóa và sau khi giải mã.

3.38

Hệ số DC [video] (DC-coefficient)

Hệ số biến đổi Cosine rời rạc DCT mà tần số bằng không trong cả hai chiều.

3.39

Hình ảnh mã hóa DC; ảnh D [video] (DC - coded picture; D - picture [video])

Một bức ảnh được mã hóa chỉ sử dụng thông tin từ chính nó. Trong số các hệ số DCT trong nhóm đại diện được mã hóa, chỉ có hệ số khử DC được biểu thị.

3.40

Hệ số biến đổi cosin rời rạc DCT (DCT coefficient [video])

Biên độ của hàm cosin cụ thể.

3.41

Dòng giải mã (decoded stream)

Quá trình giải mã được khôi phục từ một dòng bít nén.

3.42

Bộ đệm đầu vào bộ giải mã [video] (decoder input buffer [video])

Bộ đệm kiểu vào trước ra trước (FIFO) được xác thực trong bộ đệm video.

3.43

Tốc độ đầu vào bộ giải mã [video] (decoder input rate [video])

Tốc độ dữ liệu quy định xác minh trong bộ đệm video và mã hóa trong dòng bít của video.

3.44

Bộ giải mã (decoder)

Hiện thân của quá trình giải mã.

3.45

Quá trình giải mã (decoding process)

Quá trình được định nghĩa trong ISO / IEC 11172, đọc dòng bít được mã hóa đầu vào và tạo ra các mẫu hình ảnh hoặc mẫu âm thanh đã được giải mã.

3.46

Nhãn thời gian giải mã DTS [hệ thống] (decoding time-stamp; DTS [system])

Một trường có thể xuất hiện trong tiêu đề gói cho biết thời gian một đơn vị truy cập được giải mã trong bộ giải mã mục tiêu hệ thống.

3.47

Mạch giảm âm [âm thanh] (De-emphasis [audio])

Quá trình lọc được áp dụng cho tín hiệu âm thanh sau khi lưu trữ hoặc truyền tải để hoàn tác hiện tượng độ méo tuyến tính do giảm âm.

3.48

Tái lượng tử [video] (dequantization [video])

Quá trình biến đổi lại thang tỷ lệ của các hệ số DCT đã định lượng sau khi trình diễn chúng dưới dạng dòng bít đã giải mã và trước khi thực hiện biến đổi DCT nghịch đảo.

3.49

Phương tiện lưu trữ kỹ thuật số; DSM (digital storage media; DSM)

Một thiết bị lưu trữ, thiết bị truyền hay hệ thống kỹ thuật số.

3.50

Biến đổi cosin rời rạc DCT [video] (discrete cosine transtorm; DCT [video])

Biến đổi cosin rời rạc thuận hoặc biến đổi cosin rời rạc nghịch đảo. DCT là một phép biến đổi trực giao rời rạc, khả nghịch. DCT nghịch đảo được định nghĩa trong phụ lục A của tiêu chuẩn ISO/IEC 11172-2.

3.51

Thứ tự hiển thị [video] (display order [video])

Thứ tự các hình ảnh được giải mã sẽ được hiển thị. Thông thường thứ tự này giống với thứ tự được trình diễn tại đầu vào của bộ mã hóa.

3.52

Chế độ song kênh [âm thanh] (dual channel mode [audio])

Một chế độ, trong đó hai kênh âm thanh có nội dung chương trình độc lập (ví dụ: song ngữ) được mã hóa trong một dòng bit. Quá trình mã hóa giống như đối với chế độ âm thanh nổi.

3.53

Thực hiện nén (editing)

Quá trình mà một hoặc nhiều dòng bit nén được thao tác để tạo ra một dòng bit nén mới. Các dòng bit đã chỉnh sửa phù hợp phải đáp ứng các yêu cầu được quy định trong tiêu chuẩn ISO/ IEC 11172 này.

3.54

Dòng cơ sở [hệ thống] (elementary stream [system])

Thuật ngữ chung cho một trong các video, âm thanh được mã hóa hoặc các dòng bit được mã hóa khác.

3.55

Mạch tăng âm [âm thanh] (Emphasis [audio])

Quá trình lọc được áp dụng cho tín hiệu âm thanh trước khi lưu trữ hoặc truyền để cải thiện tỷ lệ tín hiệu trên nhiễu ở tần số cao.

3.56

Bộ mã hóa (encoder)

Hiện thân của một quá trình mã hóa.

3.57

Quá trình mã hóa (encoding process)

Một quá trình, không được quy định trong tiêu chuẩn này, đọc một luồng hình ảnh hoặc mẫu âm thanh đầu vào và tạo ra một dòng bit được mã hóa hợp lệ như được định nghĩa trong tiêu chuẩn này.

3.58

Mã hóa entropy (entropy coding)

Mã hóa đặc trưng của một tín hiệu số có độ dài biến đổi nhằm làm giảm độ dư thừa trong các phần tử được mã hóa để truyền đi.

3.59

Tua nhanh [video] (fast forward playback [video])

Quá trình hiển thị một chuỗi hoặc các phần của một chuỗi, các phần của hình ảnh theo thứ tự hiển thị nhanh hơn so với thời gian thực.

3.60

FFT

Phép Biến đổi Fourier nhanh. Một thuật toán biến đổi nhanh để thực hiện một biến đổi Fourier rời rạc (một biến đổi trực giao).

3.61

Giàn bộ lọc [âm thanh] (Filter bank [audio])

Một tập hợp các bộ lọc thông dải bao gồm toàn bộ dải tần âm thanh.

3.62

Phân đoạn cố định (Fixed segmentation)

Một sự chia nhỏ việc trình diễn kỹ thuật số của tín hiệu âm thanh thành các phân đoạn thời gian cố định.

3.63

Khoảng cấm (forbidden)

Thuật ngữ “bị cấm” được sử dụng trong các điều khoản khi định nghĩa dòng bít được mã hóa để chỉ ra rằng giá trị này sẽ không bao giờ được sử dụng. Nó thường dùng để tránh các mã bắt đầu.

3.64

Cập nhật bắt buộc [video] (forced updating [video])

Quá trình mà các khối macro được mã hóa theo dạng thời gian - thời gian để đảm bảo rằng các lỗi trong quá trình biến đổi DCT nghịch đảo trong các bộ mã hóa và bộ giải mã hóa không phát sinh quá mức.

3.65

Vector chuyển động thuận [video] (forward motion vector [video])

Một vector chuyển động được sử dụng để bù chuyển động từ một hình ảnh mẫu tại thời điểm trước theo thứ tự hiển thị.

3.66

Khung [âm thanh] (frame [audio])

Một phần của tín hiệu âm thanh tương ứng với các mẫu PCM âm thanh xuất phát từ bộ truy cập âm thanh.

3.67

Định dạng tự do [âm thanh] (Free format [audio])

Bất kỳ tốc độ bít nào khác so với tốc độ bít cố định đều phải nhỏ hơn tốc độ bít hợp lệ lớn nhất trong mỗi lớp.

3.68

Hình ảnh mẫu dự đoán [video] (furure reference picture [video])

Hình ảnh mẫu dự đoán là hình ảnh tham chiếu xảy ra tại một thời điểm muộn hơn hình ảnh hiện tại theo thứ tự hiển thị.

3.69

Hạt nhỏ [lớp II] [âm thanh] (granules [layer II] [audio])

Một tập hợp gồm 3 mẫu băng tần con liên tiếp từ 32 băng tần con được xem xét cùng nhau trước khi lượng tử. Chúng tương ứng với 96 mẫu PCM.

3.70

Hạt nhỏ [lớp III] [âm thanh] (granules [layer III] [audio])

576 vạch tần số mang thông tin riêng của chúng.

3.71

Nhóm các hình ảnh [video] (group of pictures [video])

Một loạt của một hoặc nhiều hình ảnh được mã hóa để hỗ trợ truy cập ngẫu nhiên. Nhóm các hình ảnh là một lớp của các lớp trong cú pháp mã hóa được định nghĩa trong phần tiêu chuẩn ISO/IEC 11172-2.

3.72

Cửa sổ Hann [âm thanh] (Hann window [audio])

Một hàm thời gian áp dụng từng mẫu một cho một khối mẫu âm thanh trước khi biến đổi Fourier.

3.73

Mã hóa Huffman (Huffman coding)

Một phương pháp cụ thể của mã hóa entropy.

3.74

Giàn bộ lọc âm thanh lai [âm thanh] (Hybrid filter bank [audio])

Một sự kết hợp của giàn giàn bộ lọc tần con và MDCT.

3.75

IMDCT [âm thanh] (IDMCT [audio])

Biến đổi cosin rời rạc biến đổi nghịch đảo.

3.76

Cường độ âm thanh nổi [âm thanh] (intensity stereo [audio])

Một phương pháp vận dụng lượng phân bố hoặc tính dư thừa trong âm thanh nổi trong các chương trình xử lý âm thanh dựa vào việc duy trì tại tần số cao mà chỉ có năng lượng bao quanh các kênh phải và kênh trái.

3.77

Đan xen [video] (interlace [video])

Thuộc tính của hình ảnh truyền hình thông thường là các dòng hình ảnh được trình diễn liên tục đan xen trong khoảng thời gian khác nhau.

3.78

Mã hóa intra [video] (intra coding [video])

Mã hóa của một khối macro hoặc hình ảnh chỉ sử dụng thông tin từ chính khối macro hoặc hình ảnh đó.

3.79

Hình ảnh mã hóa intra; ảnh I [video] (intra-coded picture; I-picture [video])

Một hình ảnh được mã hóa chỉ sử dụng thông tin từ chính nó.

3.80

Dòng ISO/IEC 11172 đã ghép kênh (ISO/IEC 11172 (multiplexed) stream [system])

Một dòng bít gồm có 0 hoặc nhiều dòng bít cơ bản được kết hợp theo cách thức được quy định tiêu chuẩn ISO/IEC 11172-1.

3.81

Phương pháp ghép nối mã hóa âm thanh nổi [âm thanh] (Joint stereo coding [audio])

Phương pháp mã hóa tận dụng đặc tính bất thường hay sự dư thừa của âm thanh nổi.

3.82

Chế độ ghép nối âm thanh nổi [âm thanh] (Joint stereo mode [audio])

Một chế độ mã hóa âm thanh sử dụng thuật toán mã hóa ghép nối âm thanh nổi.

3.83

Lớp [âm thanh] (layer [audio])

Một trong những cấp độ trong hệ thống phân cấp mã hóa của hệ thống âm thanh được quy định trong tiêu chuẩn này.

3.84

Lớp [video và hệ thống] (layer [video and systems])

Một trong những cấp độ trong phân cấp dữ liệu của video và thông số kỹ thuật hệ thống được quy định trong tiêu chuẩn ISO/IEC 11172-1 và ISO/IEC 11172-2.

3.85

Độ chói (thành phần) (luminance (component))

Một ma trận, khối hoặc mẫu pixel trình diễn cho một tín hiệu đơn sắc và liên quan đến các mà cơ bản theo định nghĩa của CCIR rec 601. Độ chói được kí hiệu là Y.

3.86

Khối Macro

Bốn khối 8x8 của dữ liệu độ chói và hai khối 8x8 tương ứng độ màu được tạo bởi từ khối 16x16 thành phân độ chói của hình ảnh. Khối macro thường được dùng để chỉ các dữ liệu pixel và được sử dụng cho các giá trị mã pixel và các thành phần dữ liệu khác được xác định trong lớp khối macro được định nghĩa trong phần 2 của tiêu chuẩn ISO/IEC 11172-2.

3.87

Ánh xạ [âm thanh] (Mapping [audio])

Chuyển đổi tín hiệu âm thanh từ miền thời gian sang miền tần số bằng cách sử dụng bộ lọc băng tần con và/hoặc bằng phép biến đổi cosin rời rạc hiệu chỉnh MDCT.

3.88

Mặt nạ (Masking)

Một thuộc tính của hệ thống thính giác của con người mà không thể nhận được tín hiệu âm thanh khi có sự hiện diện của một tín hiệu âm thanh khác.

3.89

Ngưỡng mặt nạ [âm thanh] (Masking threshold [audio])

Phần phía dưới của hàm trong miền tần số và thời gian mà tín hiệu âm thanh không thể được cảm nhận bằng hệ thống thính giác của con người.

3.90

MDCT [âm thanh] (MDCT [audio])

Biến đổi cosin rời rạc hiệu chỉnh.

3.91

Bù chuyển động [video ] (motion compensation [video])

Việc sử dụng các vectơ chuyển động để nâng cao hiệu quả của việc dự đoán các giá trị pixel. Việc dự đoán có sử dụng vectơ chuyển động để bù cho các hình ảnh tham chiếu trong quá khứ và/ hoặc tương lai mà chứa các giá trị pixel đã được giải mã trước đó được sử dụng để tạo tín hiệu dự đoán lôi.

3.92

Ước lượng chuyển động [video] (motion estimation [video])

Quá trình ước lượng vector chuyển động trong suốt quá trình mã hóa.

3.93

Vector chuyển động [video] (motion vector [video])

Một vectơ hai chiều được sử dụng để bù chuyển động, nó cho biết độ lệch từ vị trí tọa độ trong hình ảnh hiện tại đến vị trí tọa độ trong hình ảnh tham chiếu.

3.94

Âm thanh nổi MS [âm thanh] (MS stereo [audio])

Một phương pháp khai thác tính năng khác nhau, phần thừa của âm thanh nổi trong các chương trình âm thanh nổi dựa trên việc mã hóa tín hiệu tổng, tín hiệu sai khác thay vì mã hóa các kênh âm thanh trái và phải.

3.95

Mã hóa phi nội [video] (non-intra coding [video])

Mã hóa của một khối macro hoặc của hình ảnh mà sử dụng thông tin cả từ chính nó và cả từ khối macro và những hình ảnh xuất hiện vào những thời điểm khác.

3.96

Thành phần âm câm [âm thanh] (Non-tonal component [audio])

Một thành phần giống như tiếng ồn của tín hiệu âm thanh.

3.97

Lấy mẫu Nyquist (Nyquist sampling)

Lấy mẫu bằng hoặc cao hơn gấp đôi so với băng thông tối đa của một tín hiệu.

3.98

Gói tiêu đề [hệ thống] (pack [system])

Một gói bao gồm một tiêu đề gói, theo sau là một hoặc nhiều gói tin. Nó là một lớp trong hệ thống cú pháp mã hóa được mô tả trong tiêu chuẩn ISO/IEC 11172-1.

3.99

Dữ liệu gói [hệ thống] (packet data [system])

Các byte dữ liệu liên tiếp từ một dòng bít cơ sở có trong một gói dữ liệu.

3.100

Mào đầu gói dữ liệu [hệ thống] (packet header [system])

Cấu trúc dữ liệu được sử dụng để truyền tải thông tin về dữ liệu dòng cơ sở dữ được chứa trong gói dữ liệu.

3.101

Gói [hệ thống] (packet [system])

Một gói tin bao gồm một tiêu đề theo sau là một số byte liên tiếp từ một luồng dữ liệu cơ sở. Nó là một lớp trong cú pháp mã hóa hệ thống được mô tả trong tiêu chuẩn ISO/IEC 11172-1.

3.102

Phương pháp đệm (Padding [audio])

Một phương pháp để điều chỉnh độ dài trung bình theo thời gian của một khung âm thanh trong một khoảng thời gian tương ứng lấy mẫu PCM, bằng cách thêm một khe vào khung âm thanh.

3.103

Hình ảnh tham chiếu trước [video] (past reference picture [video])

Hình ảnh tham chiếu trước là hình ảnh tham chiếu xuất hiện tại một thời điểm sớm hơn so với hình ảnh hiện tại theo thứ tự hiển thị.

3.104

Tỷ lệ pixel [video] (pel aspect ratio [video])

Tỷ lệ giữa chiều cao của điểm ảnh trên màn hình với tỷ lệ chiều rộng quy định của nó.

3.105

Pixel (pel [video])

Phần tử ảnh

3.106

Chu kỳ ảnh [video] (picture period [video])

Nghịch đảo của thông số tốc độ hình ảnh.

3.107

Tốc độ ảnh [video] (picture rate [video])

Tốc độ danh định mà tại đó hình ảnh sẽ được xuất ra từ quá trình giải mã.

3.108

Hình ảnh [video] (picture [video])

Dữ liệu ảnh nguồn, được mã hóa hoặc ảnh tái tạo lại. Hình ảnh nguồn, hay ảnh tái tạo lại bao gồm ba ma trận hình chữ nhật trình diễn bằng 8 bít tương ứng với độ chói và 2 tín hiệu màu. Lớp hình ảnh là một trong những lớp có cú pháp mã hóa được định nghĩa trong tiêu chuẩn ISO/IEC 11172-2.

3.109

Giàn bộ lọc nhiều pha [âm thanh] (Polyphase filterbank [audio])

Một tập hợp các giàn bộ lọc thông bằng nhau có các mối quan hệ tương quan biệt về pha với nhau, cho phép giàn bộ lọc thực hiện hiệu quả.

3.110

Dự đoán [video] (prediction [video])

Việc sử dụng công cụ dự đoán để ước tính giá trị pixel hoặc phần tử dữ liệu hiện đang được giải mã.

3.111

Hình ảnh mã hóa dự đoán; ảnh P (prediction-coded picture; P-picture)

Một hình ảnh được mã hóa bằng cách sử dụng tính năng dự đoán bù chuyển động từ hình ảnh tham chiếu trước đó.

3.112

Lỗi dự đoán [video] (prediction error [video])

Sự khác nhau giữa giá trị thực tế của một điểm ảnh hoặc phần tử dữ liệu và dự đoán của nó.

3.113

Dự đoán [video] (predictor [video])

Một sự kết hợp tuyến tính của các giá trị pixel được giải mã hoặc các phần tử dữ liệu trước đây.

3.114

Mốc thời gian trình diễn; PTS [hệ thống] (presentation time-stamp; PTS [system])

Một trường mà có thể xuất hiện trong mào đầu gói tin cho biết thời gian mà một đơn vị trình diễn được trình diễn trong bộ giải mã đích của hệ thống.

3.115

Đơn vị trình diễn [hệ thống] (presentation unit [system])

Một đơn vị truy cập âm thanh hoặc một hình ảnh được giải mã.

3.116

Mô hình tâm thính học [âm thanh] (Psychoacoustic model [audio])

Một mô hình toán học tương ứng với mặt nạ hệ thống thính giác của con người.

3.117

Ma trận lượng tử hóa [video] (quantization matrix [video])

Một tập hợp gồm sáu mươi tư giá trị 8 bít được sử dụng bởi bộ giải lượng tử.

3.118

Hệ số DCT lượng tử [video] (quantized DCT coefficients [video])

Hệ số DCT trước khi giải lượng tử. Một mã có chiều dài thay đổi được trình diễn bởi hệ số DCT được lưu trữ như một phần của dòng bít video nén.

3.119

Hệ số tỷ lệ lượng tử [video] (quantizer scale factor [video])

Một phần tử dữ liệu được trình diễn trong dòng bít và được sử dụng bởi quá trình giải mã để chia tỷ lệ giải lượng tử.

3.120

Truy cập ngẫu nhiên (random access)

Quá trình bắt đầu đọc và giải mã dòng bit được mã hóa tại một điểm tùy ý.

3.121

Ảnh mẫu [video] (reference picture [video])

Ảnh mẫu là những ảnh ảnh I hoặc ảnh P gần nhất với ảnh hiện tại theo thứ tự hiển thị.

3.122

Bộ đệm sắp xếp lại [video] (reoder butter [video])

Một bộ đệm trong các bộ giải mã hệ thống dùng để lưu trữ ảnh I hoặc ảnh P đã được tái tạo lại.

3.123

Quá trình tái lượng tử hóa [âm thanh] (Requantization [audio])

Giải mã các mẫu băng tần con được mã hóa để khôi phục các giá trị lượng tử hóa ban đầu.

3.124

Bảo lưu (reserved)

Thuật ngữ “bảo lưu” được sử dụng trong các điều khoản quy định dòng bit được mã hóa, cho biết các giá trị có thể được sử dụng trong tương lai dùng cho các phần mở rộng được quy định trong tiêu chuẩn ISO/IEC.

3.125

Tua lại [video] (reverse play [video])

Quá trình hiển thị chuỗi hình ảnh ngược với thứ tự hiển thị.

3.126

Băng điều chỉnh hệ số tỷ lệ [âm thanh] (Scalefactor band [audio])

Một tập hợp các đường tần số trong Lớp III được chia tỷ lệ theo một hệ số tỷ lệ.

3.127

Chỉ số hệ số tỷ lệ [âm thanh] (scalefactor index [audio])

Một mã số dùng cho hệ số tỷ lệ.

3.128

Hệ số tỷ lệ [âm thanh] (Scalefactor [audio])

Hệ số mà một tập giá trị được chia tỷ lệ trước khi lượng tử.

3.129

Tiêu đề trình tự [hình ảnh ] (sequence header [video])

Một khối dữ liệu trong dòng bit được mã hóa lưu trữ việc trình diễn mã hóa của một số phần tử dữ liệu. Đây là một trong các lớp của một cú pháp mã hóa được định nghĩa trong tiêu chuẩn ISO/IEC 11172-2.

3.130

Thông tin phụ (Side information)

Thông tin cần thiết trong dòng bít để kiểm soát bộ giải mã.

3.131

Khối macro nhảy cách [video] (skipped macroblock [video])

Một khối macro mà không có dữ liệu nào được lưu trữ.

3.132

Lát cắt ảnh [video] (slice [video])

Một loạt các khối macro. Đây là một trong các lớp của cú pháp mã hóa được xác định trong tiêu chuẩn ISO/IEC 11172-2.

3.133

Khe [âm thanh] (slot [audio])

Khe là một phần cơ bản trong dòng bít. Trong lớp I, một khe bằng bốn byte, trong lớp II và III là một byte.

3.134

Dòng nguồn (source stream)

Một dòng không ghép kênh đơn của các mẫu trước khi mã hóa nén.

3.135

Hàm phân bố [âm thanh] (spreading function [audio])

Một hàm mô tả tần số lan truyền của mặt nạ.

3.136

Các mã khởi đầu [hệ thống và video] (start codes [system anh video])

Các mã 32 bit được nhúng trong dòng bit được mã hóa là duy nhất. Chúng được sử dụng cho một số mục đích kể cả việc xác định số lớp trong cú pháp mã hóa.

3.137

Bộ đệm đầu vào STD [hệ thống] (STD input buffer [system])

Bộ đệm vào trước ra trước tại đầu vào của bộ giải mã đích hệ thống dùng để lưu trữ dữ liệu nén từ các luồng sơ cấp trước khi giải mã.

3.138

Chế độ âm thanh nổi [âm thanh] (Stereo mode [audio])

Chế độ, trong đó hai kênh âm thanh tạo thành một cặp kênh âm thanh nổi (trái và phải) được mã hóa trong một dòng bit. Quá trình mã hóa giống như đối với chế độ song kênh.

3.139

Nhồi (bit); nhồi (byte) (Stuffing (bits); stuffing (bytes))

Các từ mã có thể được chèn vào dòng bit nén sẽ bị loại bỏ trong quá trình giải mã. Mục đích của chúng là làm tăng tốc độ bit của dòng bit.

3.140

Băng tần con [âm thanh] (subband [audio])

Phần nhánh của băng tần số âm thanh.

3.141

Giàn giàn bộ lọc tần con [âm thanh] (subband filterbank [audio])

Một tập hợp các giàn bộ lọc tần bao phủ toàn bộ dải tần âm thanh. Trong tiêu chuẩn này, giàn giàn bộ lọc tần con là một giàn bộ lọc nhiều pha.

3.142

Mu băng tần con [âm thanh] (subband samples [audio])

Giàn giàn bộ lọc tần con trong bộ mã hóa âm thanh tạo ra một trình diễn được lọc và được lấy mẫu của dòng âm thanh đầu vào. Các mẫu được lọc được gọi là các mẫu băng tần con. Từ 384 mẫu âm thanh đầu vào liên tiếp theo thời gian, 12 mẫu băng tần con liên tiếp theo thời gian được tạo ra trong mỗi 32 băng tần con.

3.143

Từ đồng bộ [audio] (syncword [audio])

Một mã 12 bit được nhúng trong dòng bit âm thanh xác định thời điểm bắt đầu của khung.

3.144

Giàn bộ lọc tổng hợp [âm thanh] (Synthesis filterbank [audio])

Giàn bộ lọc trong bộ giải mã mà tái tạo lại tín hiệu âm thanh PCM từ các mẫu băng tần con.

3.145

Tiêu đề hệ thống [hệ thống] (system header [system])

Tiêu đề hệ thống là một cấu trúc dữ liệu được định nghĩa trong tiêu chuẩn này mang thông tin tổng hợp các đặc tính hệ thống của dòng đã ghép kênh ISO/IEC 11172.

3.146

Bộ giải mã hệ thống đích; STD [hệ thống] (system target decoder; STD [system])

Mô hình tham chiếu giả định của quá trình giải mã được sử dụng để mô tả ngữ nghĩa của dòng bit ghép kênh ISO/IEC 11172.

3.147

Mốc thời gian [hệ thống] (time-stamp [system])

Một thuật ngữ cho biết thời gian của sự kiện.

3.148

Bộ ba [âm thanh] (Triplet [audio])

Một bộ 3 mẫu băng tần con liên tiếp từ một băng tần con. Một bộ ba mẫu băng tần con từ một trong số 32 băng tần con tạo thành một hạt.

3.149

Thành phần âm [âm thanh] (tonal component [audio])

Một thành phần giống như hình sin của một tín hiệu âm thanh.

3.150

Tốc độ bít thay đổi (variable bitrate)

Hoạt động trong đó tốc độ bit thay đổi theo thời gian trong quá trình giải mã dòng bit nén.

3.151

Mã hóa độ dài thay đổi; VLC (variable length coding; VLC)

Một thủ tục thuận nghịch dùng để mã hóa để gán các từ mã ngắn hơn cho những trường thường xuyên xảy ra và các từ mã dài hơn cho những trường hợp ít có khả năng xảy ra.

3.152

Bộ kim định bộ đệm video; VBV [video] (video buffering verifier; VBV [video])

Một bộ giải mã giả định được kết nối về mặt khái niệm với đầu ra của bộ mã hóa. Mục đích của nó là hạn chế sự thay đổi tốc độ dữ liệu mà bộ mã hóa hoặc quá trình chỉnh sửa có thể gây ra.

3.153

Tuần tự video [video] (video sequence [video])

Một loạt một hoặc nhiều nhóm hình ảnh. Nó là một trong các lớp của cú pháp mã hóa được định nghĩa trong tiêu chuẩn ISO/IEC 11172-2.

3.154

Thứ tự quét zig-zag [video] (zig-zag scanning order [video])

Thứ tự tuần tự cụ thể của các hệ số DCT từ (xấp xỉ) tần số không gian thấp nhất đến cao nhất.

4  Ký hiệu và từ ngữ viết tắt

Các toán tử số học được sử dụng để mô tả tiêu chuẩn này tương tự như các toán tử được sử dụng trong ngôn ngữ lập trình C. Tuy nhiên, phân số nguyên được làm tròn tới một giá trị cụ thể. Các toán tử phân theo bít được định nghĩa giả định của hai phần bù nhau là đặc trưng của số nguyên. Số và vòng đếm thường bắt đầu từ số không.

4.1  Toán tử số học

+

Phép cộng.

-

Phép trừ (như một toán tử nhị phân) hoặc phủ định (như một toán tử một ngôi).

++

Tăng.

--

Giảm.

*

Phép nhân.

^

Lũy thừa.

/

Phân số nguyên với kết qu làm tròn tới không. Ví dụ, 7/4 và -7/-4 được làm tròn thành 1 và -7/4 và 7/-4 được làm tròn thành -1.

//

Phân số nguyên với cách làm tròn tới số gần nhất. Giá trị của một nửa số nguyên được làm tròn tới không trừ các trường hợp khác. Ví dụ 3/2 được làm tròn thành 2, và -3/2 làm tròn thành -2.

DIV

Phép chia số nguyên với kết quả vào khoảng -8.

%

Toán tử giá trị tuyệt đối. Chỉ xác định cho số dương.

Sign()

Sign(x)

= 1

x>0

 

 

0

x==0

 

 

-1

x<0

NINT()

Toán tử số nguyên gần nhất. Trả lại giá trị số nguyên gần nhất cho đối số của giá trị thực. Một nửa giá trị của số nguyên được làm tròn tới không.

sin

Sin

cos

Cô sin

exp

Số mũ

 

Căn bậc hai

Log10

Logarithm cơ số 10

loge

Logarithm cơ s e

4.2  Các toán t logic

||

Phép hoặc.

&&

Phép và.

!

Phép phủ định.

4.3  Các toán tử quan hệ

Ln hơn.

>=

Lớn hơn hoặc bằng.

Nhỏ hơn.

<=

Nhỏ hơn hoặc bằng.

==

Ngang bằng.

!=

Không bằng.

Max [....]

Giá trị lớn nhất trong danh sách đối số.

Min [....]

Giá trị nhỏ nhất trong danh sách đối số.

4.4  Các phép toán thao tác bít

&

|

Hoặc

>> 

Phép dịch phải.

<< 

Phép dịch trái thêm số 0.

4.5  Phép gán

=

Toán tử gán

4.6  Phép nhớ

Các phép nhớ sau được dùng để mô tả các kiểu dữ liệu khác nhau sử dụng trong mã hóa dòng bit.

bslbf

Dòng bit, bít đầu tiên bên trái, trong đó “bên trái” là thứ tự trong dòng bít được viết trong tiêu chuẩn ISO/IEC 11172. Dòng bít được viết là một chuỗi của 1 và 0 trong dấu nháy đơn, ví dụ ‘1000 0001’. Khoảng trắng ở giữa dòng bít chỉ có tác dụng dễ đọc và không có ý nghĩa.

ch

Kênh. Nếu ch có giá trị 0, kênh bên trái cho biết là một tín hiệu stereo hoặc tín hiệu đầu tiên của hai tín hiệu độc lập.(âm thanh)

nch

Số lượng kênh; kết quả là 1 cho chế độ đơn kênh; 2 cho chế độ còn lại. (âm thanh)

gr

Hạt của 3*32 mẫu băng tần con trong lớp âm thanh II, 18*32 mẫu băng tần con trong lớp âm thanh III. (âm thanh)

main_data

Phần dữ liệu chính của dòng bít chứa hệ số tỷ lệ, mã hóa dữ liệu Huffman, và thông tin phụ thuộc, (âm thanh)

main_data_beg

Vị trí trong dòng bít của dữ liệu chính khởi đầu của một khung. Vị trí là kết quả của vị trí kết thúc trước khi thêm dữ liệu chính của khung trong một bít. Nó là quá trình tính từ giá trị dữ liệu kết thúc của khung trước. (âm thanh)

part2_legnth

Số lượng của bít dữ liệu chính sử dụng cho hệ số tỷ lệ. (âm thanh)

rpchof

Hệ số đa thức còn lại, bậc cao nhất trước tiên. (âm thanh)

sb

Băng tần con. (âm thanh)

sblimit

Số lượng của băng tần con ít nhất mà không có bít nào được phân bổ. (âm thanh)

scfsi

Hệ số tỷ lệ chọn lọc thông tin. (âm thanh)

switch_point_l

Số dải tần (khối dải tần dài) từ một điểm trên cửa sổ nguồn được sử dụng. (âm thanh)

switch_point_s

Số dải tần (khối dải tần ngắn) từ một điểm trên cửa sổ nguồn được sử dụng. (âm thanh)

uimsbf

kiểu unsigned int, bít đầu là quan trọng nhất.

vlclbf

Mã chiều dài biến, bít đầu tiên bên trái, trong đó “bên trái” dùng để chỉ thứ tự mà mã VLC được viết trong phụ lục B.

window

Số khe thời gian hiện tại của block_type==2,0 window ≤ 2. (âm thanh)

Thứ tự byte của các lệnh multi-byte là byte đầu tiên quan trọng nhất.

4.7  Hằng số

pi

3.14159265359...

e

2.71828182846...

5  Phương pháp mô tả cú pháp dòng bít

Dòng bít thu được từ bộ giải mã được mô tả trong mục 7. Mỗi mục dữ liệu trong dòng bít được in đậm. Nó được mô tả bằng tên, chiều dài của nó bằng các bít, và được lưu lại theo loại, thứ tự truyền của nó.

Căn nguyên của hành động giải mã một phần dữ liệu trong một dòng bít phụ thuộc vào giá trị của phần tử dữ liệu đó và các yếu tố dữ liệu được giải mã trước đây. Việc giải mã các phần tử dữ liệu và xác định các biến trạng thái được sử dụng trong bộ giải mã được mô tả trong mục 8. Các cấu trúc sau đây được sử dụng để diễn tả các điều kiện khi phần tử dữ liệu có mặt và là kiểu bình thường.

While (condition)

data_element

{Nếu điều kiện đúng, thì nhóm phần tử dữ liệu sẽ xuất hiện trong chuỗi dữ liệu  tiếp theo. Quá trình này lặp lại cho đến khi điều kiện sai

.......

 

}

 

Do {

 

data_element

Phần tử dữ liệu luôn luôn xảy ra ít nhất một lần...}

while (condition)

{Phần tử dữ liệu được lặp lại cho đến khi điều kiện sai.}

lf (condition)

{Nếu điều kiện đúng, thì nhóm dữ liệu đầu tiên sẽ xuất hiện tiếp theo trong
dòng dữ liệu}

data_element

else {

 

data_element

Nếu điều kiện sai, thì nhóm dữ liệu thứ hai của các phần tử dữ liệu sẽ xuất hiện trong dòng dữ liệu tiếp theo}

for (i=0 ; i < n ; i++)

{Nhóm các phần tử dữ liệu xuất hiện n lần. Cấu trúc có điều kiện trong nhóm

data_element

Các phần tử dữ liệu có thể phụ thuộc vào giá trị của vòng điều khiển biến i, được đặt bằng 0 cho lần xuất hiện đầu tiên, tăng lên 1 cho lần xuất hiện thứ hai, và vân vân. }

Như đã lưu ý, nhóm các phần tử dữ liệu có thể chứa các cấu trúc có điều kiện lồng nhau. Chính xác, {} được bỏ qua khi chỉ có một phần tử dữ liệu.

data_element [ ]

data_element [ ] là một mảng của dữ liệu. Số dữ liệu cơ bản chỉ ra trong từng ngữ cảnh.

data_element [n]

là phần tử thứ n + 1 của mảng dữ liệu.data_element [m] [n] data_element [m][n] thứ m+1, n+1 cơ bản của hai mảng thứ nguyên của dữ liệu data_element [l] [m] [n] data_element [l][m][n] là thứ l+1,m+1,n+1 cơ bản của ba thứ nguyên của dữ liệu

data_element [m..n]

là dải gồm các bít giữa bít m và bít n trong data_element.

Trong khi cú pháp được thể hiện bằng các thuật ngữ thủ tục, không nên cho rằng mục 8.4.3 thực hiện một thủ tục giải mã thỏa đáng. Mặc dù, nó xác định một dòng bit đầu vào chính xác và không có lỗi. Bộ giải mã thực tế phải bao gồm một phương tiện để tìm mã bắt đầu để bắt đầu giải mã một cách chính xác.

Định nghĩa hàm bytealigned

Hàm bytealigned () trả về 1 nếu vị trí hiện tại nằm trên ranh giới byte, bit tiếp theo trong dòng bit là bit đầu tiên trong byte. Nếu không, nó trả về 0.

Định nghĩa hàm nextbits

Hàm nextbits () cho phép so sánh một dòng bít với bít tiếp theo được giải mã trong dòng bít.

Định nghĩa hàm next_start_code

Chức năng next_start_code () loại bỏ bất kỳ bít 0 và nhồi thêm byte và xác định đúng vị trí của mã bắt đầu tiếp theo.

Cú pháp

Số bít

Nhận dạng

next_start_code () {

while (!bytealigned() )

 

 

zero_bit

1

‘0’

while ( nextbits() != '0000 0000 0000 0000 0000 0001' )

 

 

zero_byte

8

‘00000000’

 }

 

 

6  Các yêu cầu của cấu trúc mã hóa và tham số

6.1  Hàm chuỗi âm thanh

Cú pháp

Số bít

Nhận dạng

audio sequence ()

 

 

{

 

while (nextbits()==syncword) {

 

frame ()

 

}

}

6.2  Hàm khung âm thanh

Cú pháp

Số bít

Nhận dạng

frame ()

 

 

{

 

 

 

header()

 

 

 

error_check()

 

 

 

audio_data()

 

 

 

ancillary()

 

 

}

 

 

6.3  Hàm tiêu đề

Cú pháp

Số bít

Nhận dạng

Header ()

{

 

 

Syncword

12

Bslbf

ID

1

Bslbt

layer

2

Bslbf

protection_bit

1

Bslbf

bitrate_index

4

Bslbf

sampling_frequency

2

Bslbf

padding_bit

1

Bslbf

private_bit

1

Bslbf

mode

2

Bslbf

mode_extension

2

Bslbf

copyright

1

Bslbf

original/home

1

Bslbf

emphasis

2

Bslbf

}

 

 

6.4  Hàm kiểm tra lỗi

6.5  Hàm dữ liệu âm thanh, lớp I

6.6  Hàm dữ liệu âm thanh, lớp II

 

6.7  Hàm dữ liệu âm thanh lớp III

Dòng bít d liệu chính được định nghĩa dưới đây. Trường main_data trong cú pháp hàm audio_data() chứa các byte từ dòng bít dữ liệu chính. Tuy nhiên, do tính chất biến đổi của mã hóa Huffman được sử dụng trong lớp III, dữ liệu chính cho một khung thường theo sau thông tin tiêu đề và thông tin phụ cho khung đó. Trường main_data cho một khung bắt đầu tại một vị trí trong dòng bít đang xử lý tiêu đề của khung tại một bù giá trị âm được cho bởi giá trị main_data_begin. (Xem định nghĩa main_data_beginHình A.7.a).

 

6.8  Hàm dữ liệu phụ trợ

7  Ngữ nghĩa cho cú pháp dòng bít âm thanh

7.1  Chuỗi âm thanh chung

Frame

- Lớp I và lớp II:

Một phần của dòng bít có thể tự giải mã được. Trong lớp I chứa thông tin cho 384 mẫu và trong lớp II là 1152 mẫu. Nó bắt đầu với một từ đồng bộ hóa và kết thúc bằng từ mã đồng bộ hóa tiếp theo. Nó bao gồm một số nguyên các khe (bốn byte trong lớp I, một byte trong lớp II).

 

- Lớp III:

Một phần của chuỗi bít có khả năng giải mã với việc sử dụng các thông tin chính đã dùng trước đây. Trong lớp III nó chứa thông tin của 1152 mẫu. Mặc dù khoảng cách giữa hai từ mã đồng bộ hóa liên tiếp là một số nguyên các khe (một byte trong lớp III), các thông tin âm thanh thuộc một khung thường không được chứa giữa hai từ mã đồng bộ liên tiếp.

7.2  Khung âm thanh

Header - một phần của dòng bít chứa thông tin đồng bộ hóa và trạng thái thông tin.

Error_check - một phần của dòng bít chứa thông tin để phát hiện lỗi.

Audio_data - một phần của dòng bít chứa thông tin trong các mẫu âm thanh.

Ancillary_data - một phần của dòng bít có thể được sử dụng cho dữ liệu phụ trợ.

7.3  Tiêu đề

32 bít đầu tiên (4 byte) chứa tiêu đề thông tin sử dụng chung cho tất cả các lớp.

Syncword (Từ mã đồng bộ) - là chuỗi bít ‘1111 1111 1111’.

ID - một bít để chỉ ID của thuật toán. Bằng ‘1’ cho âm thanh ISO/IEC 11172-3, ‘0’ là dự phòng
Layer - 2 bít để chỉ ra các lớp được sử dụng, theo bảng sau,

Lớp

 

“11”

Lớp I

“10”

Lớp II

“01”

Lớp III

“00”

Dành riêng

Khi lớp thay đổi, khôi phục lại bộ giải mã âm thanh được yêu cầu.

Bit_bảo vệ (protection_bit) - một bít được thêm vào dòng bít âm thanh để tạo điều kiện phát hiện lỗi và giấu lỗi. Bằng ‘1’ nếu không có sự dư thừa thêm vào, bằng ‘0’ nếu có sự dư thừa thêm vào.

bit_rate_index: cho biết tốc độ bít. Tất cả các giá trị zero cho biết vị trí “định dạng tự do”, trong đó có một tốc độ bít cố định không nhất thiết phải nằm trong danh sách sử dụng. Cố định có nghĩa là một khung có chứa khe N hoặc N+1, tùy thuộc vào giá trị của bít đệm. Các bit_rate_index là một chỉ số trong một bảng, giá trị khác nhau cho các lớp khác nhau. Bit_rate_index chỉ ra tổng tc độ bít không kể các chế độ (stereo, joint_stereo, dual_channel, single_channel).

Đối với lớp II, không phải tất cả sự kết hợp của tổng tốc độ bít và các chế độ đều cho phép. Xem ở mục 3 phụ lục B, bảng 3-B.2 “Bảng các bít được sử dụng trong lớp II”

tốc đ bít_index

tốc độ bít cụ thể (kbits/s)

Lớp I

Lớp II

Lớp III

‘0000’

tùy chọn

tùy chọn

tùy chọn

‘0001’

32

32

32

'0010’

64

48

40

‘0011’

96

56

48

‘0100’

128

64

56

‘0101’

160

80

64

‘0110’

192

96

80

‘0111’

224

112

96

‘1000’

256

128

112

‘1001’

288

160

128

‘1010’

320

192

160

‘1011’

352

224

192

‘1100’

384

256

224

‘1101’

416

320

256

‘1110’

448

384

320

‘1111’

Cấm

Cấm

Cấm

Để đáp ứng độ trễ và phức tạp nhất có thể, bộ giải mã không bắt buộc phải hỗ trợ tốc độ bít biến đổi liên tục khi ở lớp I hoặc II. Lớp III hỗ trợ tốc độ biến đổi bít bằng cách chuyển bit_rate_index. Tuy nhiên, trong định dạng tự do, tốc độ bít cố định là bắt buộc. Quá trình giải mã không yêu cầu tốc độ bít cao hơn 448 kbits/s, 384 kbits/s, 320 kbits/s trong quan hệ giữa các lớp I, II và III khi ở chế độ định dạng tự do.

Đối với lớp II, không phải tất cả sự phối hợp của tổng tốc độ bít và chế độ là được chấp thuận. Xem bảng dưới đây.

Tốc độ bít (kbits/s)

Chế độ cho phép

free format

all modes

32

single_chanel

48

single_chanel

56

single_chanel

64

all modes

80

single_chanel

96

all modes

112

all modes

128

all modes

160

all modes

192

all modes

224

stereo, intensity stereo, dual chanel

256

stereo, intensity stereo, dual chanel

320

stereo, intensity stereo, dual chanel

384

stereo, intensity stereo, dual chanel

Tần số lấy mẫu (sampling_frequency) - cho biết tần số lấy mẫu, theo bảng dưới đây.

Tần số lấy mẫu

Tần số bắt buộc (kHz)

‘00’

44,1

‘01’

48

‘10’

32

‘11’

Dự phòng

Việc thiết lập lại bộ giải mã có thể đòi hỏi phải thay đổi tốc độ lấy mẫu.

Bit đệm (padding_bit) - nếu bít này bằng ‘1’ thì khung sẽ thêm một khe cắm để điều chỉnh tốc độ trung bình với tần số lấy mẫu, nếu không bít này sẽ nhận giá trị ‘0’. Padding là chỉ sự cần thiết với tần số lấy mẫu của 44,1 kHz. Padding cho phép yêu cầu trong định dạng tự do.

Padding yêu cầu áp dụng cho dòng bít như tích chiều dài của khung mã hóa, sau một số nào đó của khung tín hiệu không đi sai đường thêm nữa (khe +0,-1) từ giá trị được tính như sau:

ở frame_size =

384 cho lớp I

 

1152 cho lớp II hoặc III

Phương pháp sau có thể sử dụng để xác định có hoặc không sử dụng padding:

để được khung âm thanh đầu tiên:

rest=0;

padding=no;

mỗi khung âm thanh sau:

private_bit - là bít được sử dụng cho cá nhân. Bít này sẽ không được ISO sử dụng về sau.

mode - chỉ ra các chế độ theo bảng sau. Trong lớp I và II, chế độ joint_stereo là intensity_stereo, trong lớp III là intensity_stereo và ms_stereo.

Chế độ

Chế độ bắt buộc

‘00’

Âm thanh nổi stereo

‘01’

joint_stereo (intensity_stereo và/hoặc ms_stereo)

‘10’

dual_channel

‘11’

single_channel

Trong lớp I, tất cả các chế độ trừ chế độ stereo, cho giá trị giới hạn bằng 32. Trong lớp II, tất cả các
chế độ trừ chế độ joint_stereo, cho giá trị giới hạn là sblimit. Giới hạn trong chế độ joint_stereo là
xác định bởi chế độ mở rộng.

Chế độ mở rộng (mode_extension) - các bít này được sử dụng trong chế độ joint_stereo. Lớp I
và II chỉ ra các dải băng tần con nằm trong intensity_stereo. Các giải băng tần con khác được mã
hóa trong âm thanh nổi.

mode_extension

(Chế độ m rộng)

 

 

‘00’

băng tần con 4-31 trong intensity_stereo, giới hạn =4

‘01’

băng tần con 8-31 trong intensity_stereo, giới hạn =8

‘10’

băng tần con 12-31 trong intensity_stereo, giới hạn =12

‘11’

băng tần con 16-31 trong intensity stereo, giới hạn =16

Trong lớp III, chúng cho biết loại phương pháp mã hóa âm thanh chung được áp dụng. Các dải tần
mà các chế độ intensity_stereo và ms_stereo được áp dụng là ẩn trong thuật toán. Tham khảo thêm
thông tin tại 8.4.

mode_extension

intensity_stereo

ms_stereo

‘00’

off

off

‘01’

on

off

‘10’

off

on

‘11’

on

on

Trường copyright - nếu bít này bằng ‘0’ thì không có bản quyền trên chuỗi mã hóa bít, ‘1’ nghĩa là bản quyền.

Trường original/home - bít này bằng ‘0’ nếu dòng bít là một bản sao, ‘1’ nếu nó là một bản gốc.

Trường emphasis - chỉ ra loại nhấn mạnh lại sẽ được sử dụng.

emphasis

emphasis specified

‘00’

Không dùng

‘01’

50/15 μs

‘10’

Dàn riêng

‘11’

CCITT J.17

7.4  Kiểm tra lỗi

Trường crc_check - 16 bít ký tự chẵn lẻ được sử dụng trong tùy chọn phát hiện lỗi trong dòng bít được mã hóa.

7.5  Dữ liệu âm thanh, lớp I

allocation[ch] [sb] - chỉ thị số lượng các bít được sử dụng để mã hóa mẫu trong băng tần con sb của kênh ch. Để được băng tần con trong chế độ intensity thì dòng bít phải có một phân bổ dữ liệu cơ sở cho mỗi băng tần con.

allocation [ch][sb]

Số bít cho mỗi mẫu

0

0

1

2

2

3

3

4

4

5

5

6

6

7

7

8

8

9

9

10

10

11

11

12

12

13

13

14

14

15

15

Cấm

CHÚ THÍCH: Đối với mã ‘0000’ thì không mẫu nào được truyền đi.

scalefactor[ch] [sb]: chỉ ra các yếu tố của băng tần con sb của kênh ch bằng cách lấy các mẫu đã được yêu cầu của băng tần con. Sáu bít tạo thành một số nguyên unsigned, chỉ số được ghi trong mục 3 phụ lục B, bảng 3 - B.1 “Hệ số tỷ lệ Lớp I, II”. Có giá trị cho chế độ đơn kênh.

sample[ch] [sb] [s]: trình diễn mã của mẫu thứ s trong băng tần con sb của kênh ch. Phù hợp với các băng tần con đơn kênh và cho các băng tần con ở chế độ intensity_stereo. Trường hợp còn lại có giá trị cho cả hai kênh.

7.6  Dữ liệu âm thanh lớp II

allocation[ch] [sb]: chứa thông tin liên quan đến bộ lượng tử hóa sử dụng cho các mẫu trong băng tần con sb của kênh ch, mặc dù thông tin của ba mẫu liên tiếp được nhóm lại thành một mã số và số lượng bít được sử dụng để mã hóa mẫu. Ý nghĩa và chiều dài của trường này phụ thuộc vào số lượng bảng tần con, tốc độ bít, và tần số lấy mẫu. Các bít trong trường này tạo thành một số nguyên unsigned được sử dụng như là một chỉ mục cho bảng có liên quan trong mục 3 phụ lục B, bảng 3-B.2 “Bảng phân bổ bít lớp II”, cho biết số lượng mức độ được sử dụng để định lượng. 3 - phụ lục B, bảng 3-B.4 “Các lớp của quá trình lượng tử hóa trong lớp II” cung cấp thông tin bổ sung liên quan đến từng lượng tử có thể: hệ số thu hồi, cho dù nhóm đã được sử dụng, số lượng mẫu trên mỗi mã, và số bít trên mỗi mã. Một số bảng khác cho các kết hợp giữa tốc độ bít và tần số lấy mẫu khác nhau, xem 3 - phụ lục B, Bảng 3-B.2 “Bảng phân bổ bít lớp II”. Điều này có giá trị cho các băng tần con đơn kênh hoặc các băng tần con ở chế độ hiệu ứng _stereo. Trong trường hợp sau, phân bổ có giá trị cho cả hai kênh.

scfsi[ch] [sb] - thông tin lựa chọn hệ số tỷ lệ. Điều này cho biết thông tin về số lượng các hệ số tỷ lệ được chuyển cho băng tần con sb và các phần của tín hiệu trong khung này là hợp lệ. Khung được chia thành ba phần bằng nhau của 12 mẫu băng tần cho mỗi băng tần con.

Scfsi [sb]

 

'00'

ba hệ số tỷ lệ được truyền đi, đối với các phần 0,1,2 tương ứng.

'01'

hai hệ số tỷ lệ được truyền đi, hệ số thứ 1 có giá trị đối với các phần 0 và 1, thứ hai cho phần 2.

‘10’

một hệ số tỷ lệ được truyền đi, có giá trị đối với cả ba phần.

'11'

hai hệ số tỷ lệ truyền được truyền đi, hệ số thứ 1 có giá trị đối với phần 0, hệ số thứ hai có giá trị đối với phần 1 và 2.

scalefactor[ch] [sb] [p]: chỉ ra hệ số tỷ lệ mà các mẫu lượng tử hóa của băng tần con sb của kênh ch và một phần p của khung được nhân lên sáu bít tạo thành số nguyên không dấu, chỉ dẫn trong 3-phụ lục B, bảng 3-B.1 “Hệ số tỷ lệ lớp I, II”. Phù hợp ở chế độ đơn kênh.

grouping[ch][sb]: là hàm mà dùng để xác định xem liệu rằng việc nhóm có ảnh hưởng cho việc mã hóa các mẫu trong băng tần con sb của kênh ch. Việc nhóm có nghĩa rằng ba mẫu liên tục của băng tần con sb hiện tại trong kênh ch trong hạt (granule) gr được mã hóa và được truyền đi sử dụng một từ mã chung và không sử dụng ba từ mã riêng biệt. Grouping[ch] [sb] là đúng nếu trong bảng bít Allocation hiện tại được sử dụng (xem Phụ lục B.2) giá trị tìm thấy ở dưới sb (row) và hàm allocation[sb] (column) là 3, 5 hay 9. Ngược lại là sai. Đối với các băng tần con trong chế độ intensity_stereo thì việc nhóm là phù hợp cho cả hai kênh.

samplecode[ch] [sb] [gr]: trình diễn ba mẫu liên tiếp được mã hóa trong hạt gr trong băng tần con sb của kênh ch. Đối với các băng tần con ở chế độ intensity_stereo thì việc trình diễn mã mẫu được mã hóa có giá trị đối với cả hai kênh.

Sample[ch] [sb] [s]: trình diễn mẫu thứ s được mã hóa trong băng tần con sb của kênh ch. Đối với các băng tần con ở chế độ intensity_stereo thì việc trình diễn mã được mã hóa có giá trị cho cả hai kênh.

7.7  Dữ liệu âm thanh, lớp III

main_data_begin - Giá trị của main_data_begin được sử dụng để xác định vị trí của bít đầu tiên của dữ liệu chính của một khung.

Giá trị main_data_begin xác định vị trí là một độ lệch âm tính bằng byte từ byte đầu tiên của từ đồng bộ hóa âm thanh. Số lượng byte thuộc thông tin tiêu đề và thông tin phụ không được tính đến. Ví dụ: nếu main_data_begin == 0, thì dữ liệu chính bắt đầu từ sau thông tin phụ. Các ví dụ được thể hiện trên Hình A.7.a và Hình A.7.b

main_data_end - giá trị main_data_end được sử dụng để xác định vị trí trong dòng bít của các bít cuối cùng của dữ liệu chính của một khung.

private_bits - các bít dùng để sử dụng riêng. Các bít này sẽ không sử dụng trong tương lai bởi ISO/IEC. Số lượng private_bits phụ thuộc vào số lượng kênh. Số lượng bít được chỉ định cho private_bits được xác định bằng tổng số bít được sử dụng cho thông tin phụ.

main_data _beg - được sử dụng để xác định vị trí trong dòng bít khởi đầu của khung main_data. Vị trí là kết quả từ vị trí kết thúc của khung main_data trước cộng với một bít. Nó được tính từ giá trị main_data_end của khung trước đó.

main_data - Phần main_data của dòng bít chứa hệ số tỷ lệ, mã hóa dữ liệu Huffman và thông tin phụ trợ.

scfsi[ch] [scfsi_band] - Trong lớp III, thông tin lựa chọn thang đo hệ số tỷ lệ hoạt động tương tự như các lớp I và II. Sự khác biệt chính là việc sử dụng các biến scfsi_band để áp dụng scfsi cho các nhóm hệ số tỷ lệ thay vì hệ số tỷ lệ đơn lẻ. Việc áp dụng các hệ số tỷ lệ cho các hạt được kiểm soát bởi scifsi.

Scfsi [scfsi_band]

 

‘0’

‘1’

hệ số tỷ lệ được truyền cho mỗi hạt.

hệ số tỷ lệ lớn truyền cho hạt 0 cũng phù hợp cho hạt 1.

Nếu cửa sổ ngắn được bật, tức là block_type==2 đối với một trong các hạt, thì scfsi luôn luôn là 0 cho khung này.

scfsi [scfsi_band] [ch] - giống như scfsi [scfsi_band] nhưng để sử dụng trong chế độ âm thanh nổi, joint_stereo hoặc dual_channel.

scfsi_band - scfsi_band kiểm soát việc sử dụng các thông tin lựa chọn hệ số tỷ lệ cho các nhóm hệ số tỷ lệ (scfsi_bands).

Scfsi_band

Các băng hệ số tỷ lệ (xem Bảng B.8)

0

0,1,2,3,4,5,

1

6,7,8,9,10

2

11....15

3

16....20

part2_3_length [gr] [ch] - giá trị này chứa số bít main_data được sử dụng cho các hệ số tỷ lệ và dữ liệu mã Huffman. Bởi vì độ dài của thông tin phụ luôn bằng nhau, nên giá trị này có thể được sử dụng để tính toán vị trí của thông tin chính khởi đầu cho từng hạt và vị trí của thông tin bổ sung (nếu sử dụng).

big_values [gr] [ch] - các giá trị phổ của mỗi hạt được mã hóa với các bảng mã Huffman khác. Dải tần số từ số không đến tần số Nyquist được chia thành nhiều khu vực, sau đó được mã hóa sử dụng các bảng khác nhau. Việc phân vùng được thực hiện theo các giá trị lượng tử hóa tối đa. Việc này được thực hiện với giả thiết rằng các giá trị tại các tần số cao hơn được mong đợi có biên độ thấp hơn hoặc không được mã hóa toàn bộ. Bắt đầu tại các tần số cao, có thể đếm được các cặp giá trị được lượng tử bằng 0. Số này được đặt tên là “rzero”. Sau đó, tăng gấp bốn lần các giá trị được lượng tử với giá trị tuyệt đối không vượt quá 1 (tức là chỉ có 3 mức lượng tử hóa có thể). Số này được đặt tên là “count 1”. Ngoài ra vẫn còn một một số giá trị chẵn. Cuối cùng, số cặp giá trị trong vùng phổ mở rộng xuống còn 0 được đặt tên là “big_value”. Giá trị tuyệt đối tối đa trong phạm vi này bị hạn chế đến 8191, Hình dưới đây trình bày việc phản vùng:

Các giá trị 000 là zero tất. Số của chúng là một bội số của 2.

Các giá trị --- là -1,0 hoặc +1. Số của chúng là một bội số của 4.

Các giá trị xxx không bị ràng buộc. Số của chúng là một bội số của 2.

iblen là 576.

global_gain [gr] [ch] - thông tin kích thước bước lượng tử được truyền đi trong các biến thông tin global_gain. Nó được lượng tử hóa theo logarit. Nếu áp dụng global_gain, tham khảo công thức 8.4, “Công thức cho lượng tử hóa và tất cả các tỷ lệ”.

scalefac_compress [gr] [ch] - chọn số bít được sử dụng để truyền các hệ số tỷ lệ theo bảng sau:

Nếu block type là 0,1 hoặc 3:

Slen1: chiều dài của các thang đo tỷ lệ cho các băng tần tỷ lệ từ 0 đến 10

Slen2: chiều dài của các thang đo tỷ lệ cho các băng tần tỷ lệ từ 11 đến 20

Nếu block_type là 2 và switch_point là 0:

Slen1: chiều dài của các thang đo tỷ lệ cho các băng tần tỷ lệ từ 0 đến 5

Slen2: chiều dài của các thang đo tỷ lệ cho các băng tần tỷ lệ từ 6 đến 11

Nếu block_type là 2 và switch_point là 1:

Slen1: chiều dài của các thang đo tỷ lệ cho các dải tần số của thang đo từ 0 đến 7 (dải tần thang đo tỷ lệ cửa số dài) và 4 đến 5 (dải tần thang đo tỷ lệ cửa số ngắn) Lưu ý: Dải tần thang đo tỷ lệ từ 0 đến 7 lấy từ bảng “băng điều chỉnh hệ số tỷ lệ cửa số dài” và dải tần thang đo tỷ lệ từ 3 -11 lấy từ bảng “băng điều chỉnh hệ số tỷ lệ cửa số ngắn”. Sự kết hợp các phân vùng này tiếp giáp và kéo dài toàn bộ dải tần số.

Slen2: chiều dài của các hệ số tỷ lệ tỷ lệ cho các băng điều chỉnh hệ số tỷ lệ từ 6 đến 11

Scalefac_compress [gr]

slen1

Slen2

0

0

0

1

0

1

2

0

2

3

0

3

4

3

0

5

1

1

6

1

2

7

1

3

8

2

1

9

2

2

10

2

3

11

3

1

12

3

2

13

3

3

14

4

2

15

4

3

window_switching_flag[gr][ch] - Báo hiệu rằng khối sử dụng một cửa sổ khác với cửa sổ bình thường (loại 0).

Nếu window_switching_flag được thiết lập, một số biến khác được thiết lập mặc định:

region0_count = 7 (trong trường hợp block_type==1 hoặc block_type==3 hoặc block_type==2mixed_block_flag)

region0_count = 8 (trong trường hợp block_type==2 và không có mixed_block_flag)

region1_count = 36 tất cả các giá trị còn lại trong khoảng big_value là chứa trong vùng 1.

scalefac_compress[gr][ch] - giống như Scalefac_compress[gr] nhưng sử dụng trong âm thanh nổi, chế độ joint_stereo hoặc dual_channel.

blocksplit_flag[gr][ch] - tín hiệu cho thấy khối sử dụng khác (loại 0) cửa sổ bình thường. Nếu bocksplit_flag được thiết lập, một số biến khác được đặt mặc định:

Region_address1= 8 (trong trường hợp block_type ==1 hoặc block_type ==3)

Region_address1 = 9 (trong trường hợp block_type ==2)

Region_address1 = 0 Trong trường hợp này độ dài của vùng 2 là zero.

Nếu blockplit_flag không được đặt, thì giá trị của block_type bằng không.

blocksplit_flag[gr][ch] - giống như blocksplit_flag [gr] nhưng để sử dụng trong âm thanh nổi, chế độ joint_stereo hoặc dual_channel

block_type[gr][ch] - cho biết loại cửa sổ dùng cho các lõi thực tế (xem mô tả về giàn bộ lọc, lớp III).

Block_type [gr]

 

0

Dự phòng

1

khởi đầu khối

2

3 cửa sổ nhỏ

3

kết thúc khối

Block_type và mixed_block_flag cung cấp thông tin về việc thiết lập các giá trị trong khối, chiều dài và số lượng các biến (xem Phụ lục A, hình A.4 về sơ đồ mạch, Phụ lục C về mô tả phân tích). Nếu block_type = 2 điểm switch_point thì mixed-block_flag cho biết các băng tần con của bộ lọc nhiều pha được mã hóa bằng cách sử dụng loại cửa số thông thường. Bộ lọc nhiều pha được mô tả trong mục 8.2.

Trong trường hợp khối dài (block_type không bằng 2 hoặc nằm trong các băng tần con dưới của block_type2 nếu mixed_block_flag được thiết lập) thì IMDCT tạo ra một đầu ra 36 giá trị với mỗi 18 giá trị đầu vào. Các đầu ra được tạo cửa sổ thùy thuộc vào block_type và một nửa đầu của khối được chồng lên nửa thứ hai của khối trước. Véc tơ kết quả là đầu vào của một phần tổng hợp của giàn bộ lọc của một băng.

Trong trường hợp các khối ngắn (trong các băng tần con phía trên của khối loại 2 nếu mixed_block_flag được thiết lập hoặc trong tất cả các băng tần con của khối loại 2 nếu mixed_block_flag không được thiết lập), ba biến đổi được thực hiện với 12 giá trị đầu ra. Ba véc tơ được tạo cửa sổ và chồng lên nhau. Ghép 6 số 0 trên cả hai đầu của véc tơ sẽ tạo ra một véc tơ có độ dài 36, được xử lý như đầu ra của một quá trình biến đổi lâu dài.

Mixed_block_flag [gr][ch] - Cho biết các tần số thấp hơn được biến đổi bằng một loại cửa sổ khác với loại được sử dụng ở tần số cao hơn. Nếu mix_block_flag bằng 0, thì tất cả các khối được biến đổi như được biểu thị bằng block_type [gr] [ch]. Nếu Mixed_block_flag bằng 1 thì các đường tần số tương ứng với hai băng tần con nhiều pha tần số thấp nhất được biến đổi bằng cửa sổ thông thường (block_type == 0), trong khi 30 băng tần con còn lại được biến đổi thành block_type [gr] [ch]

block_type[gr][ch] - giống như block_type[gr] nhưng để sử dụng trong âm thanh nổi, chế độ joint_stereo hoặc dual_channel

switch_point[gr] - cho biết điểm chia của biến đổi ngắn/dài. Bảng dưới đây cho thấy số dải tần số trên mã chuyển mạch cửa sổ (tức là block_type khác với 0 được sử dụng.

switch_point[gr][ch] - giống như Switch_point[gr] nhưng để sử dụng trong âm thanh nổi, chế độ joint_stereo hoặc dual_channel

switch_point_1 - Số băng tần hệ số tỷ lệ (băng tần tỷ lệ khối dài) từ điểm trên cửa sổ chuyển mạch được sử dụng.

switch_point_s - Số băng tần hệ số tỷ lệ (băng tần tỷ lệ khối ngắn) từ điểm trên cửa sổ chuyển mạch được sử dụng.

cb_limit - Số băng tần cho các khối dài (block_type! =2). Đây là một hằng số, 21, cho lớp III ở tất cả các chế độ và tại tất cả các tần số lấy mẫu.

cb_limit_short - Số băng tần cho các khối ngắn (block_type =2). Đây là một hằng số, 12, cho lớp
III ở tất cả các chế độ và tại tất cả các tần số lấy mẫu.

window - cửa sổ khe thời gian thực tế trong trường hợp block_type ==2, 0 = window = 2.

table_select [gr] [ch] [region] - Các bảng mã Huffman khác nhau được sử dụng tùy thuộc vào giá trị lượng tử hóa tối đa và thống kê tín hiệu cục bộ. Có tổng cộng 32 bảng mã hóa Huffman được đưa ra trong bảng B.7

subblock_gain[gr][ch][window] - chỉ ra mức tăng bù (lượng tử hóa: hệ số 4) từ mức tăng chung cho một khối con. Chỉ được sử dụng với loại khối 2 (cửa sổ ngắn). Các giá trị của khối con phải được chia cho 4(subbtock_gain [window]) trong bộ giải mã.

region0_count[gr] [ch] - một phân vùng nữa của phổ được sử dụng để nâng cao hiệu suất của bộ mã hóa Huffman. Đây là một sự chia nhỏ vùng được mô tả bởi big_values. Mục đích của việc chia nhỏ này là để phát hiện lỗi tốt hơn và hiệu quả mã hóa tốt hơn. Có 3 vùng được sử dụng, chúng được đặt tên là vùng 0, vùng 1 và vùng 2. Mỗi vùng được mã hóa bằng cách sử dụng một bảng mã Huffman khác nhau tùy thuộc vào giá trị lượng tử hóa tối đa và các số liệu thống kê tín hiệu cục bộ.

Các giá trị region0_countregion1_count được sử dụng để chỉ ranh giới của các vùng. Các ranh giới vùng được sắp xếp theo sự phân chia phổ thành các dải hệ số tỷ lệ.

field region0_count chứa ít hơn một số lượng dải hệ số tỷ lệ trong vùng 0. Trong trường hợp các khối ngắn, mỗi dải hệ số tỷ lệ được tính ba lần, một lần cho mỗi cửa sổ ngắn, do đó giá trị region0_count là 8 cho biết vùng 1 bắt đầu tại dải hệ số tỷ lệ số 3.

Nếu block_type ==2 và mixed_block_flag==0, tổng số dải hệ số tỷ lệ cho hạt trong trường hợp này là 12*3=36. Nếu block_type ==2 và mixed_block_flag ==1, tổng số dải hệ số tỷ lệ là 8+9*3 =35. Nếu block_type! =2, tổng số dải hệ số tỷ lệ là 21.

region1_count [gr] [ch] - region 1_count đếm ít hơn một số với số lượng dải hệ số tỷ lệ trong vùng 1. Mặt khác, nếu block_type == 2, các dải hệ số tỷ lệ đại diện cho các khe thời gian khác nhau được tính riêng.

preflag [gr] [ch] - đây là một phím tắt cho khuếch đại tần số cao của các giá trị lượng tử hóa. Nếu preflag được thiết lập, các giá trị của một bảng sẽ được thêm vào các hệ số tỷ lệ (xem Phụ lục B, bảng B.6). Điều này tương đương với việc nhân các hệ số tỷ lệ đã được giải lượng tử với các giá trị bảng. Nếu block_type ==2 (các khối ngắn) thì preflag không bao giờ được sử dụng.

scalefac_scale[gr][ch] - các hệ số tỷ lệ được lượng tử hóa logarith với kích thước bước là 2 hoặc (√2) tùy thuộc vào scalefac_scale. Bảng dưới đây chỉ ra hệ số nhân của hệ số tỷ lệ được sử dụng trong cân bằng tái lượng tử hóa cho từng kích thước bước.

Scalefac_scale [gr]

Scalefac_multiplier

0

0,5

1

1

count1table_select[gr][ch] - Cờ này chọn một trong hai bảng mã Huffman có thể có cho vùng gấp bốn giá trị lượng tử hóa với độ lớn không vượt quá 1.

Count1table_select[gr]

 

0

Bảng B.7-A

1

Bảng B.7-A

scalefac_l[gr][ch][sfb], scalefac_s[gr][ch][sfb][window], is_post[sfb] - các hệ số tỷ lệ được sử dụng để tô màu cho nhiễu lượng tử. Nếu nhiễu lượng tử được tô màu với hình dạng phù hợp, nó sẽ được ẩn hoàn toàn. Không giống như lớp I và II, các hệ số tỷ lệ lớp 3 không cho biết về mức tối đa của tín hiệu lượng tử hóa. Trong lớp III, các hệ số tỷ lệ được sử dụng trong bộ giải mã để có được các hệ số phân chia cho các nhóm giá trị. Trong trường hợp của lớp III, các nhóm tín hiệu trải dài trên một vài đường tần số. Các nhóm này được gọi là các dải hệ số tỷ lệ và được lựa chọn để giống với các băng tần tới hạn càng nhiều càng tốt.

Bảng scalefac_compress cho thấy các hệ số tỷ lệ 0…10 có phạm vi từ 0 đến 15 (chiều dài tối đa là 4 bít) và các hệ số tỷ lệ từ 11...21 có phạm vi từ 0 đến 7 (chiều dài tối đa là 3 bit).

Nếu intensity_compress được kích hoạt (modebit_extension), các hệ số tỷ lệ của “zero_part” của kênh (bên phải) khác nhau được sử dụng làm các vị trí intensity_compress, is_post[sfb] (xem mục 8.4. MS_stereo). is_post[sfb] là vị trí cường độ âm thanh nổi dùng cho dải hệ số tỷ lệ sfb.

Phân chia của phổ thành các dải hệ số tỷ lệ được cố định cho từng độ dài và tần số lấy mẫu của khối và được lưu trong các bảng trong bộ mã hóa và bộ giải mã (xem Bảng B.8).

Các yếu tố hệ số tỷ lệ được định lượng logarit. Bước lượng tử được thiết lập với scalefac_scale.

huffman_code_bits() -- Dữ liệu mã hóa Huffman

Cú pháp Huffmancodebits() cho thấy các giá trị được lượng tử hóa mã hóa như thế nào. Trong phân vùng big_values, các cặp giá trị được định lượng có giá trị tuyệt đối dưới 15 được mã hóa trực tiếp sử dụng mã Huffman. Các mã được chọn từ bảng thông số từ 0 đến 31 trong bảng B.7. Luôn luôn có cặp giá trị (x.y) được mã hóa. Nếu các giá trị đã được lượng tử hóa có độ lớn hơn hoặc bằng 15 được mã hóa, các giá trị được mã hóa bằng một trường riêng sau mã Huffman. Nếu một hoặc cả hai giá trị của một cặp không phải là không, một hoặc hai dấu bít được nối vào từ mã.

Các bảng Huffman cho phân vùng big_values bao gồm ba tham số:

hcod [|x|] [|y|]

là mục nhập bảng mã Huffman cho giá trị x,y.

hlen [|x|] [|y|]

là mục nhập bảng chiều dài Huffman cho giá trị x,y.

linbits

là chiều dài của linbitsx hoặc linbitsy khi chúng được mã hóa.

Cú pháp cho huffmancodebits chứa các trường và tham số sau:

sign v

là tín hiệu của v (0 nếu dương, 1 nếu âm).

sign w

là tín hiệu của w (0 nếu dương, 1 nếu âm).

signx

là tín hiệu của vx (0 nếu dương, 1 nếu âm).

signy

là tín hiệu của y (0 nếu dương 1, nếu âm).

linbitsx

được sử dụng để mã hóa giá trị của x nếu cường độ x lớn hơn hoặc bằng 15. Trường này chỉ được mã hóa nếu Ixl trong heod bằng 15. Nếu linbits là 0, vì thế không có bít nào được mã hóa khi Ixl == 15, thì giá trị linbitsx được xác định bằng 0.

linbitsy

cũng giống như linbitsx nhưng đối với giá trị y.

is[l]

là giá trị được lượng tử hóa cho đường tần số số I.

Các trường linbitsx hoặc linbitsy chỉ được sử dụng nếu giá trị lớn hơn hoặc bằng 15 cần được mã hóa. Các trường này được hiểu là các số nguyên không dấu và được thêm vào 15 để lấy giá trị được mã hóa. Các trường linbitsx và linbitsy không bao giờ được sử dụng nếu bảng được chọn là một đối với các khối có giá trị lượng tử tối đa nhỏ hơn 15. Chú ý rằng giá trị 15 có thể vẫn được mã hóa bằng bảng mã hóa huffman mà linbits bằng không. Trong trường hợp này, các trường linbitsx và linbitsy thực tế không được mã hóa vì linbits bằng không.

Đối với các phần count1, bộ 4 giá trị với biên độ nhỏ hơn hay bằng 1 được mã hóa. Còn lại các giá trị biên độ còn lại được mã hóa sử dụng mã Huffman từ bảng A hoặc B trong Bảng B.7. Còn lại, đối với mỗi giá trị khác không, một bít dấu được thêm vào sau ký hiệu mã huffman.

Các bảng Huffman cho phần count1 bao gồm các thông số sau:

hcod[|v|] [|w|][|x|] [|y|])

là mục nhập bảng mã Huffman cho giá trị v,w,x,y.

hlen[|v|] [|w|][|x|] [|y|]

là mục nhập bảng chiều dài Huffman cho giá trị v,w,x,y.

Bảng mã hóa Huffman không thực sự là mã mã 4 chiều, bởi vì nó được cấu trúc từ mã thông thường: 0 được mã bằng 1, và 1 được mã bằng 0.

Các giá trị lượng tử hóa ở trên phân vùng count1 đều là 0 nên chúng không được mã hóa.

Để rõ ràng, thông số “count1” được sử dụng trong tiêu chuẩn này để chỉ số lượng các mã Huffman trong vùng count1. Tuy nhiên, không giống như phân vùng bigvalues, số lượng các giá trị trong phân vùng count1 không được mã rõ ràng bởi một trường trong cú pháp. Chỉ biết được phần cuối của phân vùng count1 khi tất cả các bit cho phần hạt (như được chỉ định bởi part2_3_length) đã hết và giá trị của count1 được ngầm xác định sau khi giải mã vùng count1.

Thứ tự dữ liệu Huffman phụ thuộc vào block_type của lõi. Nếu block_type là 0,1 hoặc 3, dữ liệu mã hóa Huffman được sắp xếp theo thứ tự tần suất ngày càng tăng.

Nếu block_type là 2 (khối ngắn) thì dữ liệu được mã hóa Huffman được sắp xếp theo thứ tự giống như các giá trị hệ số tỷ lệ đối với hạt đó (xem mục 7.7).

Dữ liệu được mã hóa Huffman được cung cấp cho các dải hệ số tỷ lệ liên tiếp, bắt đầu với dải hệ số tỷ lệ 0. Trong mỗi băng tần hệ số tỷ lệ, dữ liệu được cung cấp cho các cửa sổ thời gian liên tiếp, bắt đầu bằng cửa sổ 0 và kết thúc bằng cửa sổ 2. Các giá trị dữ liệu trong mỗi cửa sổ được sắp xếp theo thứ tự tần suất ngày càng tăng.

7.8  Dữ liệu phụ trợ

Ancillary_bit - người dùng có thể xác định.

Số lượng bít phụ trợ (no_of_ancillary_bits) bằng số lượng bít khả dụng trong một khung âm thanh trừ đi số bít thực tế sử dụng cho dữ liệu mào đầu, dữ liệu kiểm tra lỗi và dữ liệu âm thanh. Trong lớp I và II, no_of_ancillary_bits tương ứng với khoảng cách giữa phần cuối của dữ liệu âm thanh và phần đầu của mào đầu tiếp theo. Trong lớp III, no_of_ancillary_bits tương ứng với khoảng cách giữa phần cuối của bít mã hóa Huffman và vị trí trong dòng bit nơi con trỏ main_data_begin của khung tiếp theo trỏ đến.

8  Quá trình giải mã âm thanh

8.1  Tổng quan

Việc đầu tiên là đồng bộ hóa bộ giải mã với dòng bit đến. Ngay sau khi khởi động, có thể thực hiện bằng cách tìm kiếm từ đồng bộ 12 bit trong dòng bit. Trong một số ứng dụng, ID’ lớp và trạng thái bảo vệ đã được biết đến, do đó 16 bit đầu tiên của tiêu đề nên được coi là một từ đồng bộ 16 bit, do đó giúp việc đồng bộ hóa đáng tin cậy hơn. Vị trí của các từ đồng bộ liên tiếp có thể được tính toán từ thông tin được cung cấp bởi bảy bit chỉ sau protectton_bit: dòng bit được chia nhỏ trong các khe. Khoảng cách giữa điểm bắt đầu của hai từ đồng nghĩa liên tiếp bằng các khe “N” hoặc "N + 1". Giá trị của 'N” phụ thuộc vào lớp:

Đối với lớp I, phương trình sau là hợp lệ:

Đối với các lớp II và III phương trình sẽ trở thành:

Nếu phép tính này không cho số nguyên thì kết quả sẽ bị cắt bớt và cần có 'padding'. Trong trường hợp này, số lượng khe trong khung sẽ thay đổi giữa N và N + 1. Bít padding được đặt là ‘0’ nếu số khe bằng N và là ‘1’ nếu ngược lại. Việc hiểu biết về vị trí của các từ đồng bộ liên tiếp tạo điều kiện thuận lợi cho việc đồng bộ hóa rất nhiều.

Nếu chỉ số tốc độ bít bằng ‘0000’, tốc độ bít chính xác không được xác định. N có thể được xác định từ khoảng cách giữa từ đồng bộ liên tiếp và giá trị của bít padding.

Sẽ biết được các bít mode trong dòng bít nếu giá trị của chúng là ‘01’ thì cũng sẽ biết được các bít mode_extension. Các bít mode_extension thiết lập “biên” như được trình trong mục 7.3 và do đó cho biết các băng tần con nào được mã hóa trong chế độ joint_stereo.

Nếu bít bảo vệ trong tiêu đề bằng ‘0’ thì một từ CRC-check được chèn vào trong dòng bít ngay sau tiêu đề. Phương pháp phát hiện lỗi được sử dụng là 'CRC-16' có đa thức tạo là

G(X) = X16 + X15 + X2 + 1

Các bít bao gồm trong một từ CRC-check được lấy từ Bảng B.5.

Phương pháp được mô tả trong hình A.9 “Sơ đồ khối CRC-check”. Trạng thái ban đầu của thanh ghi dịch chuyển là ‘1111 1111 1111 1111’. Sau đó, tất cả các bít được đưa vào CRC-check được đưa vào mạch điện trong hình A.9 “Sơ đồ khối CRC-check”. Sau mỗi bít được đưa vào, thanh ghi dịch chuyển sẽ được dịch chuyển một bít. Sau thao tác dịch chuyển cuối cùng, các đầu ra b15... b0 tạo thành một từ được so sánh với từ CRC-check trong dòng bit. Nếu các từ không đồng nhất, lỗi truyền tải sẽ xảy ra trong trường được bảo vệ của dòng bit. Để tránh các độ méo gây khó chịu, hãy áp dụng kỹ thuật che giấu, chẳng hạn như tắt tiếng của khung hình thực tế hoặc lặp lại khung hình trước đó

8.2  Lớp I

Sau phần giải mã chung cho tất cả các lớp (xem 8.1), thông tin phân bố bít phải được đọc cho tất cả các băng tần con, các hệ số tỷ lệ đọc cho tất cả các băng tần con có phân bổ bít nonezero. Lưu đồ bộ giải mã được trình bày trong Hình A.1 “Lưu đồ bộ giải mã lớp I và II”

8.2.1  Tái lượng tử hóa các mẫu băng tần con

Từ việc phân bổ bit, biết được số lượng bít nb phải đọc cho các mẫu trong từng băng tàn con được. Thứ tự của các mẫu được trình bày trong mục 6.5 dùng cho từng chế độ. Sau khi các bít cho một mẫu đã được tập hợp từ dòng bit thì bít đầu tiên phải được đảo ngược. Số kết quả có thể được coi như là số phân số bù của 2, trong đó MSB đại diện cho giá trị -1. Có thể tính được giá trị tái lượng tử hóa bằng cách áp dụng công thức tuyến tính dưới đây:

Trong đó:

s’’’ là số phân số

 

s’’ là giá trị tái lượng tử hóa

 

nb là số bít được phân bổ cho các mẫu trong băng tần con

Các mẫu trong các băng tần con ở chế độ intensity_stereo phải được sao chép vào cả hai kênh. Giá trị tái lượng tử hóa phải được định lại. Hệ số nhân có thể được tìm thấy trong bảng B.1 “hệ số tỷ lệ lớp I và II”. Giá trị được chia tỷ lệ lại s’ được tính như sau:

s’ = factor*s”

8.2.2  Giàn bộ lọc tần con tổng hợp

Nếu một băng tần con không có bít được phân bổ cho nó, các mẫu trong băng tần con đó được đặt là 0. Mỗi lần tính các mẫu băng tần con cho tất cả 32 băng tần con của một kênh, các mẫu có thể áp dụng giàn bộ lọc tần con và có thể tính toán được 32 mẫu âm thanh liên tiếp. Các bước thực hiện trong lưu đồ Hình A.2 “Lưu đồ giàn bộ lọc tần con tổng hợp” cho thấy hoạt động tái cấu trúc. Các hệ số cho phép toán ma trận được tính bởi công thức sau:

0 ≤ i ≤ 63,0 ≤ k ≤ 31

Các hệ số Di cho phép toán tạo cửa sổ có thể được tìm thấy trong Bảng B.3 “Hệ số Di của cửa sổ tổng hợp”. Các hệ số đã được suy ra bằng cách tối ưu hóa số. Một khung chứa 12 * 32 = 384 mẫu băng tần con, kết quả sau khi lọc trong 384 mẫu âm thanh.

8.3  Lớp II

Lớp II hiệu quả hơn nhưng lược đồ mã hóa phức tạp hơn lớp I. Lưu đồ trong Hình A.1 “Lưu đồ bộ giải mã lớp I và II” áp dụng cho cả lớp I và II. Bước đầu tiên là thực hiện việc giải mã chung cho cả ba lớp (xem mục 8.1)

8.3.1  Giải mã phân bổ bit

Với những kết hợp khác nhau của tốc độ bít và tần số lấy mẫu, sẽ có các bảng phân bổ bít khác nhau (Bảng B.2 “bảng phân bổ bít lớp II”). Chú ý rằng các tốc độ bít cho trong các tiêu đề bảng trên mỗi kênh Nếu chế độ không phải là single_channel, nên chia tốc độ bít cho hai sẽ tính được tốc độ bít cho mỗi kênh. Việc giải mã bảng phân bổ bít được thực hiện theo cách tiếp cận ba bước. Bước đầu tiên bao gồm đọc “nbal” (2,3 hoặc 4) bít thông tin cho một băng tần con con từ dòng bit. Giá trị của ‘nbal’ được đưa ra trong cột thứ hai của bảng B.2 “bảng phân bổ bít lớp II”. Các bít này sẽ được hiểu là một số nguyên không dấu. Bước thứ hai là sử dụng số này và số lượng các băng tần con làm chỉ số để trỏ đến một giá trị trong bảng. Giá trị này biểu diễn số lượng các cấp độ 'nlevels' được sử dụng để lượng tử các mẫu trong băng tần con. Bước thứ ba là sử dụng Bảng B.4 “Lớp II phân lớp lượng tử”, số bít được sử dụng để mã hóa các mẫu được lượng tử hóa, các hệ số tái lượng tử và dữ liệu các mã cho ba mẫu băng tần con liên tiếp được nhóm thành một mã có thể được xác định. Nó có thể được tìm thấy trong các bảng phân bổ bít mà một số các băng tần con lớn nhất sẽ không bao giờ có bít được phân bổ. Số băng tần con thấp nhất mà không có bít được phân bổ cho nó được gán cho bộ nhận diện ‘sblimit’.

8.3.2  Giải mã thông tin lựa chọn hệ số tỷ lệ

36 mẫu trong một băng tần con trong một khung được chia thành ba phần bằng nhau của 12 mẫu băng tần con. Mỗi phần có thể có hệ số tỷ lệ riêng của nó. Số lượng các hệ số tỷ lệ được đọc từ dòng bít phụ thuộc vào scfsi [sb]. Thông tin lựa chọn về hệ số tỷ lệ scfsi [sb] được đọc từ dòng bít có phân bổ bít none-zero. Nếu scfsi [sb] bằng ‘00’ ba hệ số tỷ lệ được truyền đi, cho các phần 0,1,2 tương ứng. Nếu scfsi [sb] bằng ‘01’ hai hệ số tỷ lệ được truyền đi, số đầu tiên hợp lệ cho các phần 0 và 1, mmột số thứ hai của phần 2. Nếu scfsi [sb] bằng ‘10’ một hệ số tỷ lệ được truyền đi, hợp lệ cho cả ba phần. Nếu scfsi [sb] bằng ‘11’ hai hệ số tỷ lệ được truyền đi, số đầu tiên hợp lệ cho phần 0, số thứ hai cho phần 1 và 2.

8.3.3  Giải mã hệ số tỷ lệ

Đối với mỗi băng tần con với một phân bổ bít khác không, hệ số tỷ lệ đã được mã hóa cho băng tần con đó được đọc từ dòng bít. Số lượng các hệ số tỷ lệ đã được mã hóa và một phần của các mẫu băng tần con mà chúng tham chiếu được xác định bởi scfsi [sb]. 6 bít của một tập hợp hệ số tỷ lệ được mã hóa được hiểu như là một chỉ số số nguyên không dấu chỉ đến phụ lục B, Bảng B.1 “hệ số tỷ lệ lớp I,II”. Bảng này cung cấp cho hệ số tỷ lệ mà theo đó các mẫu băng tần phụ có liên quan nên được nhân lên sau tái lượng tử hóa.

8.3.4  Tái lượng tử các mẫu băng tần con

Tiếp theo các mẫu được mã hóa sẽ được đọc. Như trình bày trong mục 6.6, các mẫu được mã hóa xuất hiện bộ ba, mã có chứa ba mẫu liên tiếp tại một thời điểm. Từ phụ lục B, Bảng B.4 “Lớp II phân lớp lượng tử” sẽ được có bao nhiêu bít sẽ được đọc cho một bộ ba từ dòng bít cho mỗi băng tần con. Cũng từ phụ lục B, Bảng B.4 “Lớp II phân lớp lượng tử”, được biết liệu mã này bao gồm ba mã liên tiếp có thể tách riêng cho mỗi mẫu hoặc của một mã kết hợp cho ba mẫu (nhóm). Trong trường hợp cuối cùng tách nhóm phải được thực hiện. Mã kết hợp được coi là một số nguyên không dấu, được gọi là ‘c’. Thuật toán sau sẽ cung cấp ba mã riêng biệt s[0], s[1], s[2].

For (i=0;i<3;i++){

s[i]=c%nlevels

c=c DIV nlevels

}

Trong đó nlevels là số bước cho thấy trong phụ lục B, Bảng B.2 “bảng phân bổ bít lớp II”.

Bít đầu tiên của mỗi mã phải được đảo ngược, và các con số kết quả nên được coi là hai số phân số bổ sung, trong đó MSB trình diễn cho giá trị -1. Các giá trị được yêu cầu có thể thu được bằng cách áp dụng một công thức tuyến tính:

s’’ = C * (s’’’ + D)

Ở đây: s’’’ là số phân số

s’’ là giá trị tái lượng tử.

Các giá trị của hằng số C và D được cho trong phụ lục B, bảng B.4 “Lớp II phân lớp lượng tử”. Các giá trị tái lượng tử được yêu cầu phải được chia tỷ lệ lại. Các yếu tố nhân lên có thể được tìm thấy trong phụ lục B, bảng B.1 “hệ số tỷ lệ lớp I,II” như mô tả ở trên, giá trị chia tỷ lệ lại. ‘s’ được tính như sau:

s’ = factor * s’’

8.3.5  Giàn bộ lọc tần tổng hợp

Nếu một băng tần con không có bít được phân bổ cho nó, các mẫu trong băng tần con đó được đặt là 0. Mỗi lần lấy mẫu băng tần con cho tất cả 32 băng tần con của một kênh đã được tính, chúng có thể được áp dụng cho giàn bộ lọc tần tổng hợp và có thể tính được 32 mẫu âm thanh liên tiếp. Với mục đích đó, các bước trong lưu đồ được thể hiện trong Phụ lục A, Hình A.2 “lưu đồ giàn bộ lọc tần con tổng hợp” phải được thực hiện. Các hệ số cho phép toán ma trận được tính bởi công thức sau:

0 ≤ i ≤ 63,0 ≤ k ≤ 31

Các hệ số Di cho phép toán tạo cửa sổ có thể được tìm thấy trong Phụ lục B, trong Bảng B.3. Các hệ số đã được suy ra bằng cách tối ưu hóa số. Một khung chứa 36 * 32 = 1152 mẫu băng tần con, kết quả sau khi lọc trong 1152 mẫu âm thanh.

8.4  Lớp III

Độ phân dải tần số bổ sung được xác định bằng việc sử dụng một giàn bộ lọc lai. Mỗi băng tần được chia thành 18 dòng tần số bằng việc sử dụng một bộ MDCT. Chiều dài cửa sổ của MDCT là 36. Thực hiện việc chuyển đổi cửa sổ thích ứng để kiểm soát thời gian (pre-echoes), xem mô tả trong Phụ lục C. Có thể lựa chọn tần số ở trên mà các khối ngắn (độ phân giải thời gian tốt hơn) được sử dụng. Các phần của các tín hiệu ở dưới tần số phụ thuộc vào “mixed_block_flag” được mã hóa với độ phân dải tần số tốt hơn, các phần của tín hiệu ở trên được mã hóa với độ phân giải thời gian tốt hơn.

Các thành phần tần số được lượng tử hóa sử dụng một bộ lượng tử không đồng dạng và được mã hóa sử dụng một bộ đệm mã hóa Huffman. Các mã Huffman sử dụng một trong 18 bảng khác nhau (xem phụ lục B.7). Một bộ đệm được sử dụng để giúp nâng cao hiệu quả của các mã Huffman và để trợ giúp trong trường hợp các điều kiện tiếng vọng trước (xem mô tả trong Phụ lục C). Kích thước của bộ đệm đầu vào là kích thước của một khung tại tốc độ bít là 160 kbit/s trên mỗi kênh đối với lớp III. Kỹ thuật đệm ngắn hạn được gọi là ‘bit reservior’ bởi vì nó có tốc độ bít thay đổi ngắn hạn với độ lệch tối đa từ tốc độ bít trung bình.

Mỗi khung chứa dữ liệu từ 2 lõi. Dữ liệu âm thanh trong một khung được phân bổ theo cách sau:

- Con trỏ main_data_begin

- Thông tin phụ cho cả hai lõi (scfsi)

- Thông tin phụ lõi 1

- Thông tin phụ lõi 2

Tiêu đề và phần dữ liệu âm thanh này tạo thành dòng thông tin phụ.

- Dữ liệu hệ số tỷ lệ và mã Huffman lõi 1

- Dữ liệu hệ số tỷ lệ và mã Huffman lõi 2

- Dữ liệu bổ sung.

Những dữ liệu này tạo thành luồng dữ liệu chính. Con trỏ main_data_begin chỉ định một độ lệch âm từ vị trí của byte đầu tiên của tiêu đề.

8.4.1  Giải mã

Hoạt động đầu tiên là đồng bộ hóa bộ giải mã với dòng bít đến. Điều này được thực hiện như trong các lớp khác. Thông tin tiêu đề (32 bít đầu tiên bao gồm các từ đồng bộ) được đọc giống như trong các lớp khác. Thông tin về tần số lấy mẫu được sử dụng để chọn bảng băng tần hệ số tỷ lệ (xem phụ lục B.8).

8.4.2  Thông tin phụ

Các thông tin phụ phải trích xuất từ dòng bít và được lưu trữ để sử dụng trong khi giải mã khung liên quan. Thông tin lựa chọn bảng được sử dụng để chọn bảng giải mã Huffman và số bít ESC (linbits) theo bảng B.7.

8.4.3  Khởi đầu dữ liệu chính

Các dữ liệu chính (main_data) (hệ số tỷ lệ, mã hóa dữ liệu Huffman và thông tin phụ trợ) không nhất thiết phải nằm tiếp giáp với các thông tin phụ. Điều này được mô tả trong hình A.7a và hình A.7b. Khởi đầu của phần dữ liệu chính được xác định đúng vị trí bằng cách sử dụng con trỏ main_data_begin của khung hiện hành. Việc phân bố dữ liệu chính được thực hiện theo cách mà tất cả dữ liệu chính đều nằm trong bộ đệm đầu vào khi tiêu đề của khung tiếp theo đang đến bộ đệm đầu vào. Bộ giải mã phải bỏ qua tiêu đề và thông tin phụ khi giải mã dữ liệu chính. Nó biết được vị trí của nó từ chỉ số tỷ lệ bít và padding_bit. Độ dài của tiêu đề luôn là 4 byte, độ dài của thông tin phụ là 17 byte ở chế độ đơn kênh và 32 byte ở các chế độ khác, dữ liệu chính có thể kéo dài nhiều hơn một khối thông tin tiêu đề và thông tin phụ (xem hình A.7b).

8.4.4  Những lưu ý về bộ đệm

Quy tắc sau có thể được sử dụng để quy ước số lượng bit tối đa được sử dụng cho một lõi:

Bộ đệm có độ dài là 7680 bit. Giá trị này được sử dụng như một bộ đệm lớn nhất ở mọi tốc độ bít. Ở tốc độ bít cao nhất có thể của lớp III (320 kbits/s trên mỗi tín hiệu âm thanh nổi) và tần số lấy mẫu 48 kHz cho khung có chiều dài là (320 000/48 000) * 1152= 7680 bit. Do đó, các khung phải có độ dài không đổi ở tốc độ bit và tần số lấy mẫu này. Ở tốc độ 64 kbits/s (128 kbits/s trên mỗi tín hiệu âm thanh nổi) thì độ dài của lõi là (64 000/48 000)* 576 * 768 bít ở tần số lấy mẫu 48 kHz. Nó có nghĩa là sẽ có độ lệch cực đại (thời gian ngắn nhất của bộ đệm) của 7 680 - 4*768 = 4 608 bits được được cho phép với tốc độ 64 kbits/s. Độ lệch thực tế bằng số byte được hiển thị bằng con trỏ main_data_begin. Độ lệch thực tế lớn nhất là 2**9*8= 4 096 bits. Đối với tốc độ bít trung gian thì độ trễ và chiều dài bộ đệm có thể được tính toán tương ứng. Việc trao đổi bộ đệm giữa kênh trái và phải trong một dòng bít âm thanh nổi được cho phép mà không có hạn chế. Do hạn chế về kích thước bộ đệm main_data_begin luôn được đặt là 0 trong trường hợp bitrate_index- = 14, nghĩa là tốc độ dữ liệu 320 kbits/s trên tín hiệu nổi. Trong trường hợp này tất cả dữ liệu được phân bổ giữa các từ tiêu đề liền kề.

Ở tần số lấy mẫu thấp hơn 48kHz, bộ đệm phải được hạn chế sao cho cùng kích thước bộ đệm vật lý là đủ như kích thước được tính cho trường hợp 48 kHz ở trên

8.4.5  Hệ số tỷ lệ

Các hệ số tỷ lệ được giải mã theo slen1 và slen2 mà bản thân chúng được xác định từ các giá trị scalefac_compress. Các giá trị được giải mã có thể được sử dụng như các mục nhập vào một bảng hoặc sử dụng để tính toán trực tiếp các hệ số cho mỗi dải hệ số tỷ lệ. Khi giải mã lõi thứ hai, phải lưu ý đến scfsi. Đối với các băng tần trong đó scfsi tương ứng được đặt là 1, các hệ số tỷ lệ của lõi đầu tiên cũng được sử dụng cho lõi thứ hai, do đó chúng không được truyền cho lõi thứ hai.

Số bít sử dụng để giải mã hệ số tỷ lệ được gọi là part2_lenght, và được tính toán như sau:

Cho block_type==0,1, hoặc 3 (khối dài):

Part2_lenght= 11*slen1 + 10*slen2.

Cho block_type==2 (khối ngắn) và mixed_block_flag==0:

Part2_lenght= 18*slen1+18*slen2.

Cho block_type==2 (khối ngắn) và mixed_block_flag==1:

Part2_lenght=17*slen1+18*slen2.

Các công thức này là hợp lệ nếu gr == 0 hoặc nếu gr = = 1 và scfsi [ch] [scfsi_band] = = 0 cho tất cả các scfsi_bands, tức là thông tin lựa chọn hệ số tỷ lệ không được sử dụng.

8.4.6  Giải mã Huffman

Tất cả các thông tin cần thiết bao gồm cả bảng mà thể hiện được cây mã Huffman có thể được tạo ra từ các bảng trong bảng B.7. Đầu tiên dữ liệu big_values được giải mã bằng cách sử dụng các bảng với số table_select[gr][ch][region]. Các đường tần số trong vùng 0, vùng 1 và vùng 2 là các mã Huffman được giải mã thành từng cặp cho tới khi số lượng big_values của cặp đường tần số được giải mã. Các bit mã Huffman còn lại được giải mã bằng cách sử dụng bảng theo countltable_sclectfgr) [chl. Việc giải mã được thực hiện cho đến khi tất cả các bit mã Huffman đã được giải mã hoặc cho đến khi các giá trị lượng tử hóa đại diện cho 576 đường tần số được giải mã, tùy điều kiện nào đến trước. Nếu có nhiều bit mã Huffman hơn mức cần thiết để giải mã 576 giá trị, chúng được coi là bit chèn và bị loại bỏ. Biến đếm 1 được được tạo ra một cách ngẫu nhiên là số gấp bốn lần giá trị được giải mã bằng cách sử dụng count1table_select.

8.4.7  Giải lượng tử hóa

Lượng tử không đồng nhất sử dụng luật lũy thừa. Đối với mỗi giá trị đầu ra “is” từ các bộ giải mã Huffman, tính toán được “lisl4/3”. Việc này có thể được thực hiện bằng cách tra cứu bảng hoặc bằng cách tính toán rõ ràng.

8.4.8  Công thức tính toán giải lượng tử và các hệ số tỷ lệ

Một công thức hoàn chỉnh mô tả tất cả quá trình xử lý từ các giá trị giải mã Huffman tới đầu vào của giàn bộ lọc tổng hợp. Tất cả các hệ số tỷ lệ cần thiết đều nằm trong công thức này. Dữ liệu đầu ra được tái tạo từ các mẫu lượng tử. Giá trị khuyếch đại chung và khuyếch đại khối con ảnh hưởng đến tất cả các giá trị trong một cửa sổ thời gian (trong trường hợp block_type == 2). Hệ số tỷ lệ và preflag tiếp tục điều chỉnh tăng trong mỗi băng tần hệ số tỷ lệ. Minh họa thể được trình bày trong hình A.8.

Sau đây là phương trình giải lượng tử cho cửa sổ ngắn. Các giá trị giải mã Huffman tại chỉ số bộ đệm i được gọi là isi, các đầu vào cho giàn bộ lọc tổng hợp tại chỉ số i được gọi là xri:

Đối với khối, công thức là:

Pretab[sfb] là giá trị được cho trong bảng B.6. Hằng số 210 trong các công thức trên là cần thiết để chia hệ số đầu ra một cách thích hợp. Nó là một hằng số hệ thống. Giàn bộ lọc tổng hợp được giả định được thực hiện theo các công thức dưới đây. Phạm vi của các giá trị đầu ra của bộ giải mã (các mẫu PCM) nằm giữa -1,0 và +1,0.

8.4.9  Sắp xếp lại thứ tự

Nếu sử dụng các khối ngắn (block_type==2), dữ liệu đã được thay đổi tỷ lệ xr[scf_band][window][freq_line] (được mô tả trong huffmancodebits() trong mục 6.7.1) sẽ được sắp xếp lại thứ tự theo thứ tự băng tần con, xr[subband[window][freq_line], trước hoạt động IMDCT.

8.4.10  Quá trình xử lý âm thanh nổi

Sau khi giải lượng tử, các giá trị được tái cấu trúc được xử lý cho MS hoặc các chế độ intensity_stereo hoặc cả hai, trước khi đi đến giàn bộ lọc tổng hợp. Trong chế độ MS_stereo, hai kênh của lõi bắt buộc phải tương đương block_type.

8.4.10.1  Chế độ MS stereo

Chế độ này (được tìm thấy trong tiêu đề: mode_extension) cho phép chuyển từ “chế độ âm thanh nổi độc lập” sang chế độ MS_stereo. Nếu chế độ MS_stereo được kích hoạt nhưng chế độ intensity_stereo chưa được kích hoạt thì toàn bộ phổ sẽ được giải mã trong MS_stereo. Nếu cả hai chế độ MS_stereointensity_stereo đều được kích hoạt thì giới hạn trên của các băng tần hệ số tỷ lệ được giải mã trong MS_stereo thu được từ “zero_part” kênh (phải) khác. Trong trường hợp này băng tần hệ số tỷ lệ mà trong đó dòng tần số kênh (phải) “none_zero” cuối cùng xuất hiện là băng tần hệ số tỷ lệ cuối cùng mà các phương trình MS_stereo áp dụng. Cường độ âm thanh nổi cao hơn giới hạn này có thể được áp dụng nếu được kích hoạt trong tiêu đề của kênh. Các “zero_part” của các kênh khác là một phần của phổ từ "bigvalues * 2 + count1 * 4" (xem mục 7.7) đến tốc độ Nyquist.

8.4.10.2  Ma trận MS

Trong chế độ MS_stereo, các giá trị trung bình của các kênh giữa/bên Mi/Si đã được chuẩn hóa được truyền đi thay vì các kênh trái/phải với giá trị Li/Ri. Do đó Li/Ri được tái sử dụng.

Các giá trị Mi được truyền trong kênh trái, các giá trị Si được truyền trong kênh phải.

Nếu xuất hiện việc chuyển đổi cửa sổ thì các kênh M và S phải được chuyển đổi đồng bộ.

8.4.10.3  Chế độ Intensity_stereo

Chế độ này (được tìm thấy trong tiêu đề: mode_extension) cho phép chuyển đổi từ “chế độ âm thanh nổi thông thường” sang chế độ intensity_stereo. Trong lớp III, chế độ intensity_stereo không sử dụng một cặp hệ số tỷ lệ như trong lớp I và II, nhưng bằng cách xác định độ lớn (thông qua hệ số tỷ lệ của kênh phải như thông thường) và một vị trí âm thanh nổi is_posSb[sfb], is_posSb[sfb] được truyền đi thay vì hệ các hệ số tỷ lệ cho kênh phải. Vị trí âm thanh nổi được sử dụng để lấy tín hiệu kênh trái và phải theo công thức bên dưới. Giới hạn thấp hơn của các băng tần hệ số tỷ lệ được mã hóa trong chế độ âm thanh nổi được bắt nguồn từ "zero_part" của kênh bên phải.

Cường độ âm thanh nổi cao hơn giới hạn này có thể được áp dụng bằng cách sử dụng các các hệ số tỷ lệ của kênh bên phải như các vị trí cường độ âm thanh nổi.

Ở trên giải mã này của âm thanh nổi được áp dụng bằng cách sử dụng hệ số tỷ lệ của kênh đúng như vị trí cường độ âm thanh nổi. Một vị trí cường độ âm thanh nổi của 7 trong 1 băng tần hệ số tỷ lệ cho biết rằng băng tần hệ số tỷ lệ này không được giải mã như cường độ âm thanh nổi.

Đối với từng dải hệ số tỷ lệ (sb) được mã hóa trong intensity_stereo, phải thực hiện các bước sau:

1) Độc vị trí cường độ âm thanh nổi is_possb từ hệ số tỷ lệ của kênh bên phải

2) Nếu (is_posSb==7) không được thực hiện các bước sau (is_pos không hợp lệ).

3)

4)  đối với tất cả các chỉ số i trong dải băng tần hệ số tỷ lệ sb.

5)  đối với tất cả các chỉ số i trong dải băng tần hệ số tỷ lệ sb.

8.4.10.4  Giàn bộ lọc tổng hợp

Hình A.4 cho thấy một sơ đồ khối trong đó có giàn bộ lọc tổng hợp. Các dòng tần số được xử lý trước bằng sơ đồ "giảm Alias" (xem sơ đồ khối trong trong Hình A.5 và trong Bảng B.9 đối với các hệ số) và đưa vào ma trận IMDCT, mỗi 18 dòng tần số tạo thành một khối chuyển đổi. Nửa đầu của các giá trị đầu ra được thêm vào các giá trị xếp chồng được lưu trữ vào khối cuối cùng. Những giá trị này là những giá trị đầu ra mới và là những giá trị đầu vào cho giàn bộ lọc nhiều pha. Nửa thứ hai của các giá trị đầu ra được lưu trữ xếp chồng với các dữ liệu lõi tiếp theo. Đối với mỗi băng tần con thứ hai của giàn bộ lọc nhiều pha, mỗi giá trị đầu vào thứ hai được nhân với -1 để điều chỉnh tần số nghịch đảo của giàn bộ lọc nhiều pha.

8.4.10.5  Giảm Alias

Đối với các lõi block_type dài (block_type!=2) thì đầu vào của bộ lọc tổng hợp sẽ được xử lý giảm alias (giảm tên hiệu) trước khi xử lý bởi IMDCT. Đoạn mã giả dưới đây mô tả phép tính giảm Alias:

Các chỉ số của mảng xar [] và xr [] gắn nhãn các dòng tần số trong một lõi, được sắp xếp theo thứ tự từ tần số thấp nhất đến tần số cao nhất, với 0 là chỉ số của dòng tần số thấp nhất và 575 là chỉ số của tần s cao nhất. Các hệ số: Cs [i] và Ca [i] có thể được tìm thấy trong bảng B.9. Hình A.5 và A.6 minh họa phép tính giảm Alias.

Việc giảm Alias không được áp dụng cho các lõi có block_type == 2 (khối ngắn).

8.4.10.6  IMDCT

Trong công thức dưới đây, n là số lượng các mẫu được tạo cửa sổ (đối với khối ngắn n là 12, đối với các khối dài n là 36). Trong trường hợp khối thuộc kiểu "ngắn”, mỗi khối trong ba khối ngắn được biến đổi riêng biệt, n/2 giá trị Xk được biến đổi thành n giá trị x. Biểu thức phân tích của IMDCT là:

8.4.10.7  Tạo cửa sổ

Tùy thuộc vào block_type, sử dụng các hình dạng khác nhau của các cửa sổ.

a) Block_type=0 (cửa sổ bình thường)

b) Block_type=1 (khối bắt đầu)

c) Block_type=3 (khối dừng)

d) Block_type=2 (khối ngắn)

Một trong ba khối ngắn được tạo cửa sổ riêng biệt.

Cửa sổ khối ngắn phải được xếp chồng và nối vào nhau.

8.4.10.8  Xếp chồng và thêm vào khối trước

36 giá trị nửa đầu của khối được xếp chồng với nửa thứ hai của khối trước. Nửa thứ hai của khối thực tế đã lưu trữ được sử dụng trong khối tiếp theo:

resulti = zi + si

i = 0....17

si = zi+18

i = 0....17

8.4.10.9  Bù cho quá trình đảo ngược tần số của giàn bộ lọc nhiều pha

Đầu ra của khối xếp chồng bao gồm 18 mẫu thời gian dùng cho mỗi 32 băng tần con nhiều pha. Nếu các mẫu thời gian được đánh nhãn từ 0 đến 17, với 0 là thời gian lấy mẫu sớm nhất và băng tần con được đánh nhãn từ 0 đến 31, với 0 là băng tần con thấp nhất, thì mỗi mẫu thời gian lẻ của mỗi băng tần con lẻ được nhân với -1 trước khi xử lý bởi các giàn bộ lọc nhiều pha.

 

Phụ lục A

(Quy định)

Sơ đồ mã hóa, giải mã

Hình A.1: Lưu đồ bộ giải mã lớp I và II

Hình A.2 - Lưu đồ tổng hợp giàn bộ lọc tần con

Hình A.3 - Sơ đồ giải mã lớp III

Hình A.4 - Sơ đồ bộ giải mã lớp III

Hình A.5 - Sơ đồ bộ giải mã giảm xáo trộn lớp III

Hình A.6 - Xáo trộn chéo lớp III, bộ giải mã

 

**) main_data_begin 4 == 0: biểu thị rằng dữ liệu chính bắt đầu ngay sau thông tin phụ đối với khung 4. Đây là giới hạn dưới cho main_data_begin, main_data không thể bắt đầu sau thời điểm này. Lưu ý rằng các byte dữ liệu được sử dụng bởi ‘sync’ và 'side info' không được đếm bởi con trỏ main_data_begin.

CHÚ THÍCH: 'info' có nghĩa là thông tin.

Hình A.7b - Sắp xếp dòng bít lớp III với yêu cầu đỉnh tại Thông tin chính 3 và yêu cầu nhỏ ở thông tin chính 2.

Hình A.8 - Minh họa lớp 3 của các lõi trong khung với block_type == 0 trong lõi đầu tiên và block_type == 2 trong lõi thứ hai

Hình A.9 - Sơ đồ kiểm tra CRC

 

Phụ lục B

(Quy định)

Các bảng biểu

Bảng B.1 - Hệ số tỷ lệ lớp I, II

Chỉ số

Hệ số tỷ lệ

Chỉ số

Hệ số tỷ lệ

0

200000000000000

32

0,00123039165029

1

1,58740105196820

33

0,00097656250000

2

2,25992104989487

34

0,00077509816991

3

1,25992104989487

35

0,00061519582514

4

1,00000000000000

36

0,00048828125000

5

0,79370052598410

37

0,00038754908495

6

0,62996052494744

38

0,00030759791257

7

0,50000000000000

39

0,00024414062500

8

0,39685026299205

40

0,00019377454248

9

0,31498026247372

41

0,00015379895629

10

0,25000000000000

42

0,00012207031250

11

0,19842513149602

43

0,00009688727124

12

0,15749013123686

44

0,00007689947814

13

0,12500000000000

45

0,00006103515625

14

0,09921256574801

46

0,00004844363562

15

0,07874506561843

47

0,00003844973907

16

0,06250000000000

48

0,00003051757813

17

0,04960628287401

49

0,00002422181781

18

0,03937253280921

50

0,00001922486954

19

0,03125000000000

51

0,00001525878906

20

0,02480313143700

52

0,00001211090890

21

0,01968626640461

53

0,00000961243477

22

0,01562500000000

54

0,00000762939453

23

0,01240157071850

55

0,00000605545445

24

0,00984313320230

56

0,00000480621738

25

0,00781250000000

57

0,00000381469727

26

0,00492156660115

58

0,00000302772723

27

0,00390625000000

59

0,00000240310869

28

0,00310039267963

60

0,00000190734863

29

0,00246078330058

61

0,00000151386361

30

0,00195312500000

62

0,00000120155435

31

0,00155019633981

 

 

Bảng B.2 - Các bảng phân bổ bít lớp II

Bảng B.2a - Lượng tử hóa có thể được cho mỗi băng tần con

Fs = 48 kHz

Tốc độ bít cho mỗi kênh = 56,64,80,96,112,128,160,192 kbits/s và định dạng tự do

Fs = 44,1 kHz

Tốc độ bít cho mỗi kênh = 56.64.80 kbits/s

Fs = 32 kHz

Tốc độ bít cho mỗi kênh = 56.64.80 kbits/s

Chỉ số

sb

nbal

0

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

0

4

-

3

7

15

31

63

127

255

511

1023

2047

4095

8191

16383

32767

65535

1

4

-

3

7

15

31

63

127

255

511

1023

2047

4095

8191

16383

32767

65535

2

4

-

3

7

15

31

63

127

255

511

1023

2047

4095

8191

16383

32767

65535

3

4

-

3

5

7

9

15

31

63

127

255

511

1023

2047

4095

8191

65535

4

4

-

3

5

7

9

15

31

63

127

255

511

1023

2047

4095

8191

65535

5

4

-

3

5

7

9

15

31

63

127

255

511

1023

2047

4095

8191

65535

6

4

-

3

5

7

9

15

31

63

127

255

511

1023

2047

4095

8191

65535

7

4

-

3

5

7

9

15

31

63

127

255

511

1023

2047

4095

8191

65535

8

4

-

3

5

7

9

15

31

63

127

255

511

1023

2047

4095

8191

65535

9

4

-

3

5

7

9

15

31

63

127

255

511

1023

2047

4095

8191

65535

10

4

-

3

5

7

9

15

31

63

127

255

511

1023

2047

4095

8191

65535

11

3

-

3

5

7

9

15

31

65535

 

 

 

 

 

 

 

 

12

3

-

3

5

7

9

15

31

65535

 

 

 

 

 

 

 

 

13

3

-

3

5

7

9

15

31

65535

 

 

 

 

 

 

 

 

14

3

-

3

5

7

9

15

31

65535

 

 

 

 

 

 

 

 

15

3

-

3

5

7

9

15

31

65535

 

 

 

 

 

 

 

 

16

3

-

3

5

7

9

15

31

65535

 

 

 

 

 

 

 

 

17

3

-

3

5

7

9

15

31

65535

 

 

 

 

 

 

 

 

18

3

-

3

5

7

9

15

31

65535

 

 

 

 

 

 

 

 

19

3

-

3

5

7

9

15

31

65535

 

 

 

 

 

 

 

 

20

3

-

3

5

7

9

15

31

65535

 

 

 

 

 

 

 

 

21

3

-

3

5

7

9

15

31

65535

 

 

 

 

 

 

 

 

22

3

-

3

5

7

9

15

31

65535

 

 

 

 

 

 

 

 

23

2

-

3

5

65535

 

 

 

 

 

 

 

 

 

 

 

 

24

2

-

3

5

65535

 

 

 

 

 

 

 

 

 

 

 

 

25

2

-

3

5

65535

 

 

 

 

 

 

 

 

 

 

 

 

26

2

-

3

5

65535

 

 

 

 

 

 

 

 

 

 

 

 

27

0

-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

28

0

-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

29

0

-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

30

0

-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

31

0

-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

sblimit =27

Tổng của nbal = 88

Bảng B2.b - Lượng tử hóa có thể được cho mỗi băng tần con

Fs = 48 kHZ

---------- không thích hợp -----------

Fs = 44,1 kHZ

Tốc độ bít cho mỗi kênh = 96,112,128,160,192 kbits/s và định dạng tự do

Fs = 32 kHz

Tốc độ bít cho mỗi kênh = 96,112,128,160,192 kbits/s và định dạng tự do

Chỉ số

sb

nbal

0

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

0

4

-

3

7

15

31

63

127

255

511

1023

2047

4095

8191

16383

32767

65535

1

4

-

3

7

15

31

63

127

255

511

1023

2047

4095

8191

16383

32767

65535

2

4

-

3

7

15

31

63

127

255

511

1023

2047

4095

8191

16383

32767

65535

3

4

-

3

5

7

9

15

31

63

127

255

511

1023

2047

4095

8191

65535

4

4

-

3

5

7

9

15

31

63

127

255

511

1023

2047

4095

8191

65535

5

4

-

3

5

7

9

15

31

63

127

255

511

1023

2047

4095

8191

65535

6

4

-

3

5

7

9

15

31

63

127

255

511

1023

2047

4095

8191

65535

7

4

-

3

5

7

9

15

31

63

127

255

511

1023

2047

4095

8191

65535

8

4

-

3

5

7

9

15

31

63

127

255

511

1023

2047

4095

8191

65535

9

4

-

3

5

7

9

15

31

63

127

255

511

1023

2047

4095

8191

65535

10

4

-

3

5

7

9

15

31

63

127

255

511

1023

2047

4095

8191

65535

11

3

-

3

5

7

9

15

31

65535

 

 

 

 

 

 

 

 

12

3

-

3

5

7

9

15

31

65535

 

 

 

 

 

 

 

 

13

3

-

3

5

7

9

15

31

65535

 

 

 

 

 

 

 

 

14

3

-

3

5

7

9

15

31

65535

 

 

 

 

 

 

 

 

15

3

-

3

5

7

9

15

31

65535

 

 

 

 

 

 

 

 

16

3

-

3

5

7

9

15

31

65535

 

 

 

 

 

 

 

 

17

3

-

3

5

7

9

15

31

65535

 

 

 

 

 

 

 

 

18

3

-

3

5

7

9

15

31

65535

 

 

 

 

 

 

 

 

19

3

-

3

5

7

9

15

31

65535

 

 

 

 

 

 

 

 

20

3

-

3

5

7

9

15

31

65535

 

 

 

 

 

 

 

 

21

3

-

3

5

7

9

15

31

65535

 

 

 

 

 

 

 

 

22

3

-

3

5

7

9

15

31

65535

 

 

 

 

 

 

 

 

23

2

-

3

5

65535

 

 

 

 

 

 

 

 

 

 

 

 

24

2

-

3

5

65535

 

 

 

 

 

 

 

 

 

 

 

 

25

2

-

3

5

65535

 

 

 

 

 

 

 

 

 

 

 

 

26

2

-

3

5

65535

 

 

 

 

 

 

 

 

 

 

 

 

27

2

-

3

5

65535

 

 

 

 

 

 

 

 

 

 

 

 

28

2

-

3

5

65535

 

 

 

 

 

 

 

 

 

 

 

 

29

2

-

3

5

65535

 

 

 

 

 

 

 

 

 

 

 

 

30

0

-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

31

0

-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

sblimit = 30

Tổng của nbal = 94

Bảng B.2c - Lượng tử hóa có thể được cho mỗi bits/s

Fs = 48 kHz

Tốc độ bít cho mỗi kênh = 32,48 kbits/s

Fs = 44,1 kHZ

Tốc độ bít cho mỗi kênh = 32,48 kbits/s

Fs = 32 kHz

.................. không thích hợp ......................

Chỉ số

sb

nbal

0

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

0

4

-

3

5

9

15

31

63

127

255

511

1023

2047

4095

8191

16383

32767

1

4

-

3

5

9

15

31

63

127

255

511

1023

2047

4095

8191

16383

32767

2

3

-

3

5

9

15

31

63

127

 

 

 

 

 

 

 

 

3

3

-

3

5

9

15

31

63

127

 

 

 

 

 

 

 

 

4

3

-

3

5

9

15

31

63

127

 

 

 

 

 

 

 

 

5

3

-

3

5

9

15

31

63

127

 

 

 

 

 

 

 

 

6

3

-

3

5

9

15

31

63

127

 

 

 

 

 

 

 

 

7

3

-

3

5

9

15

31

63

127

 

 

 

 

 

 

 

 

8

0

-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

9

0

-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

10

0

-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

11

0

-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

12

0

-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

13

0

-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

14

0

-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

15

0

-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

16

0

-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

17

0

-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

18

0

-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

19

0

-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

20

0

-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

21

0

-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

22

0

-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

23

0

-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

24

0

-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

25

0

-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

26

0

-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

27

0

-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

28

0

-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

29

0

-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

30

0

-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

31

0

-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

sblimit = 8

Tổng của nbal = 26

Bảng B.2d - Lượng tử hóa có thể được cho mỗi băng tần con

Fs = 48 kHz

.....................không thích hợp....................

Fs = 44,1 kHZ

.....................không thích hợp....................

Fs = 32 kHz

Tốc độ bít cho mỗi kênh = 32,48 kbits/s

Chỉ số

sb

nbal

0

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

0

4

-

3

5

9

15

31

63

127

255

511

1023

2047

4095

8491

16383

32767

1

4

-

3

5

9

15

31

63

127

255

511

1023

2047

4095

8191

16383

32767

2

3

-

3

5

9

15

31

63

127

 

 

 

 

 

 

 

 

3

3

-

3

5

9

15

31

63

127

 

 

 

 

 

 

 

 

4

3

-

3

5

9

15

31

63

127

 

 

 

 

 

 

 

 

5

3

-

3

5

9

15

31

63

127

 

 

 

 

 

 

 

 

6

3

 

3

5

9

15

31

63

127

 

 

 

 

 

 

 

 

7

3

-

3

5

9

15

31

63

127

 

 

 

 

 

 

 

 

8

3

-

3

5

9

15

31

63

127

 

 

 

 

 

 

 

 

9

3

-

3

5

9

15

31

63

127

 

 

 

 

 

 

 

 

10

3

-

3

5

9

15

31

63

127

 

 

 

 

 

 

 

 

11

3

-

3

5

9

15

31

63

127

 

 

 

 

 

 

 

 

12

0

-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

13

0

-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

14

0

-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

15

0

-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

16

0

-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

17

0

-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

18

0

-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

19

0

-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

20

0

-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

21

0

-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

22

0

-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

23

0

-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

24

0

-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

25

0

-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

26

0

-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

27

0

-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

28

0

-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

29

0

-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

30

0

-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

31

0

-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

sblimit = 12

Tổng của nbal = 38

 

 

Bảng B.4 - Các lớp lượng tử lớp II

Số bước

C

D

Nhóm

Số mẫu cho mỗi từ mã

Số bít cho mỗi từ mã

3

1,33333333333

0,50000000000

yes

3

5

5

1,60000000000

0,50000000000

yes

3

7

7

1,14285714286

0.25000000000

no

1

3

9

1,77777777777

0,50000000000

yes

3

10

15

1,06666666666

0,12500000000

no

1

4

31

1.03225806452

0,06250000000

no

1

5

63

1,01587301587

0,03125000000

no

1

6

127

1,00787401575

0,01562500000

no

1

7

255

1,00392156863

0,00781250000

no

1

8

511

1,00195694716

0,00390625000

no

1

9

1023

1,00097751711

0,00195312500

no

1

10

2047

1,00048851979

0,00097656250

no

1

11

4095

1,00024420024

0,00048828125

no

1

12

8494

1,00012208522

0,00024414063

no

1

13

16383

1,00006103888

0,00012207031

no

1

14

32767

1,00003051851

0,00006103516

no

1

15

65535

1,00001525902

0,00003051758

no

1

16

Bảng B.5 - Số bít dữ liệu âm thanh được bảo vệ

Lớp

Dải được bảo vệ

I

Các bít 16...31 của bít mào đầu được chấp thuận

II

Các bít 16...31 của bít mào đầu được chấp thuận

Lựa chọn thông tin hệ số tỷ lệ

III

Các bit 16...31 của mào đầu

Thông tin phụ:

Các bit 0...135 của d liệu âm thanh trong chế độ single_channel

Các bit 0...255 của dữ liệu âm thanh trong các chế độ khác

Bảng B.6 - Layer III preemphasis (pretab)

Dải hệ số tỷ lệ (cb)

0

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

pretab [cb]

0

0

0

0

0

0

0

0

0

0

0

1

1

1

1

2

2

3

3

3

2

Bảng B.7 - Mã hóa Huffman cho lớp III

 

 

Bảng mã hóa Huffman 8
linbits = 0

 

Bảng mã hóa Huffman 9
linbits = 0

 

Bảng mã hóa Huffman 10
linbits = 0

 

 

Bảng B.8 - Dải hệ số tỷ lệ lớp III

Các bảng này liệt kê chiều rộng của mỗi dải hệ số tỷ lệ. Tại đây là 21 dải cho mỗi tần số lấy mẫu thay cho chiều dài cửa sổ (kiểu 0,1 hoặc 3) và 12 mỗi dải cho cửa sổ ngắn.

Bảng B.8a - 32 kHz tốc độ lấy mẫu

Khối dài:

Dải hệ số tỷ lệ

Chiu rộng dải

Thông số khởi đầu

Thông số kết thúc

0

4

0

3

1

4

4

7

2

4

8

11

3

4

12

15

4

4

16

19

5

4

20

23

6

6

24

29

7

6

30

35

8

8

36

43

9

10

44

53

10

12

54

65

11

16

66

81

12

20

82

101

13

24

102

125

14

30

126

155

15

38

156

193

16

46

194

239

17

56

240

295

18

68

296

363

19

84

364

447

20

102

448

549

Khối ngắn:

Dải hệ số tỷ lệ

Chiều rộng của dải

Thông số khi đầu

Thông số kết thúc

0

4

0

3

1

4

4

7

2

4

8

11

3

4

12

15

4

6

16

21

5

8

22

29

6

12

30

41

7

16

42

57

8

20

58

77

9

26

78

103

10

34

104

137

11

42

138

179

Bảng B.8b - Tốc độ lấy mẫu 44,1 kHz

Khối dài:

Dải hệ số tỷ lệ

Chiều rộng của dải

Thông số khởi đầu

Thông số kết thúc

0

4

0

3

1

4

4

7

2

4

8

11

3

4

12

15

4

4

16

19

5

4

20

23

6

6

24

29

7

6

30

35

8

8

36

43

9

8

44

51

10

10

52

61

11

12

62

73

12

16

74

89

13

20

90

109

14

24

110

133

15

28

134

161

16

34

162

195

17

42

196

237

18

50

238

287

19

54

288

341

20

76

342

417

Khối ngắn:

Dải hệ số tỷ lệ

Chiều rộng của dải

Thông số khởi đầu

Thông số kết thúc

0

4

0

3

1

4

4

7

2

4

8

11

3

4

12

15

4

6

16

21

5

8

22

29

6

10

30

39

7

12

40

51

8

14

52

65

9

18

66

83

10

22

84

105

11

30

106

135

Bảng B.8c - Tốc độ lấy mẫu 48 kHz

Khối dài:

Dải hệ số tỷ lệ

Chiều rộng của dải

Thông số khởi đầu

Thông số kết thúc

0

4

0

3

1

4

4

7

2

4

8

11

3

4

12

15

4

4

16

19

5

4

20

23

6

6

24

29

7

6

30

35

8

8

36

41

9

8

42

49

10

10

50

59

11

12

60

71

12

16

72

87

13

18

88

105

14

22

106

127

15

28

128

155

16

34

156

189

17

40

190

229

18

46

230

275

19

54

276

329

20

54

330

383

Khối ngắn:

Dải hệ số tỷ lệ

Chiều rộng của dài

Thông số khởi đầu

Thông số kết thúc

0

4

0

3

1

4

4

7

2

4

8

11

3

4

12

15

4

6

16

21

5

6

22

27

6

10

28

37

7

12

38

49

8

14

50

63

9

16

64

79

10

20

80

99

11

26

100

125

Bảng B.9 - Hệ số làm giảm bớt sự rối loạn lớp III

(i)

ci

0

-0,6

1

-0,535

2

-0,33

3

-0,185

4

-0,095

5

-0,041

6

-0,0142

7

-030037

Hệ số csi và cai được tính bằng công thức sau:

 

Phụ lục C

(Tham khảo)

Quá trình mã hoá

C.1  Mã hoá

C.1.1  Tổng quan

Đối với mỗi lớp, một ví dụ của bộ mã hoá phù hợp với lưu đồ tương ứng được cho trong phụ lục này. Trong các điều mục tiếp theo, mô tả bộ lọc phân vùng băng tần con và các kỹ thuật mã hoá cụ thể cho từng lớp.Trong phụ lục D là hai ví dụ về mô hình tâm thính học, mô tả chung cho tất cả các lớp.

C.1.1.1  Giới thiệu

Thuật toán trong ISO 11172-3 (Mpeg-Audio) là thuật toán tâm thính học. Hình C.1 thể hiện rõ các phần cơ bản của thuật toán tâm thính học.

Hình C.1: ISO 11173-3 (Mpeg-audio) Sơ đồ khối mã hoá

Bốn phần cơ bản của mã hoá tâm thính học gồm:

C.1.1.1.1  Giàn bộ lọc

Các giàn bộ lọc tạo ra một khoảng thời gian để sắp xếp tần số. Có hai bộ lọc được sử dụng trong thuật toán ISO / IEC 11172-3 (MPEG-Audio), một giàn bộ lọc đa pha và một bộ ghép lai đa pha/ MDCT. Mỗi bộ lọc đưa ra một ánh xạ cụ thể về thời gian và tần số. Các giàn bộ lọc được lấy mẫu một cách chuẩn xác (tức là có nhiều mẫu trong miền được phân tích như có trong miền thời gian sử dụng). Các bộ lọc này phân tách tần số chính cho bộ mã hóa, và các bộ lọc tái thiết cho bộ giải mã. Các mẫu đầu ra của giàn bộ lọc được lượng tử hoá.

C.1.1.1.2  Mô hình tâm thính học

Mô hình tâm thính học tính toán một mức độ tiếng ồn cho mỗi băng trong bộ lọc. Mức độ tiếng ồn này được sử dụng trong phân bổ bít hoặc tiếng ồn để xác định lượng tử thực và các mức lượng tử. Có hai mô hình tâm thính học được trình bày trong phụ lục D. Chúng có thể được áp dụng cho bất kỳ lớp nào của thuật toán ISO / IEC 11172-3 (MPEG-Audio), trong thực tế mô hình 1 đã được sử dụng cho lớp I và II và mô hình 2 cho lớp III. Kết hợp cả hai mô hình, kết quả cuối cùng của mô hình là một tỷ lệ tín hiệu- mặt nạ (SMR) cho mỗi băng (lớp I và II) hoặc nhóm các băng (Lớp III).

C.1.1.1.3  Phân bổ bít hoặc tiếng ồn

Bộ phân bổ xem xét cả hai mẫu đầu ra từ giàn bộ lọc và SMR từ mô hình tâm thính học và điều chỉnh phân bổ bít (lớp I và II) hoặc phân bổ tiếng ồn (lớp III) theo thứ tự để đáp ứng cả yêu cầu tốc độ bít và các yêu cầu về mặt nạ. Ở tốc độ bít thấp, các phương pháp này cố gắng sử dụng các bít theo cách không gây khó chịu về mặt tâm lý khi chúng không thể đáp ứng nhu cầu về âm thanh ở tốc độ bít được yêu cầu

C.1.1.1.4  Bộ định dạng dòng bit

Bộ định dạng dòng bít lấy các đầu ra của giàn bộ lọc đã lượng tử, cùng với việc phân bổ bít (Lớp I và II) hoặc phân bổ tiếng ồn (lớp III) và các thông tin phụ cần thiết khác, mã hoá và định dạng thông tin một cách hiệu quả. Trong trường hợp của lớp III, các mã Huffman cũng được chèn vào tại điểm này

C.1.1.2  Giàn bộ lọc

Trong các lớp I và II, một giàn bộ lọc với 32 băng tần con được sử dụng. Trong mỗi băng tần con, 12 hoặc 36 mẫu được nhóm lại để xử lý. Trong lớp III, giàn bộ lọc có độ phân giải phụ thuộc vào tín hiệu, ở đó có các dải tần số 6x32 hoặc 18x32. Trong trường hợp có 6x32 tần số lấy mẫu, ba thiết lập của mỗi tần số đều được lượng tử riêng.

C.1.1.3  Phương pháp phân bổ bít hoặc tiếng ồn

Có hai phương pháp kiểm soát tốc độ bít khác nhau được giải thích trong phụ lục này. Trong các lớp I và II, phương pháp này là một quá trình phân bổ bít, nghĩa là một số bít được gán cho mỗi mẫu (hoặc nhóm các mẫu) trong mỗi băng tần con. Phương pháp cho lớp III là một vòng lặp phân bổ tiếng ồn, trong đó các lượng tử được thay đổi theo một cách cố tổ chức, và biến được kiểm soát thực sự là tiếng ồn được đưa vào. Trong cả hai trường hợp, kết quả là một tập các tham số lượng tử hóa và các mẫu đầu ra lượng tử được cung cấp cho bộ định dạng dòng bít.

C.1.1.4  Định dạng dòng bit

Bộ định dạng dòng bít thay đổi từ lớp này sang lớp khác. Trong các lớp I và II, một mã PCM cố định được sử dụng cho mỗi mẫu băng tần con, trừ trường hợp trong các mẫu định lượng II có thể được nhóm lại. Trong lớp III, mã Huffman được sử dụng để trình diễn cho các mẫu tần số lượng tử. Các mã Huffman này đã lấy mã số có thể hoạt động cho phép biểu diễn dòng bít hiệu quả hơn của các mẫu lượng tử hóa hiệu quả hơn nữa.

C.1.2  Bộ lọc thông cao đầu vào

Các thuật toán mã hóa cung cấp một đáp ứng tần số xuống thành d.c. Tuy nhiên, trong các ứng dụng mà không được yêu cầu, người ta khuyến nghị rằng phải có một bộ lọc thông cao ở đầu vào của bộ mã hóa. Tần số cắt phải nằm trong phạm vi từ 2 đến 10 Hz.

Việc áp dụng một bộ lọc thông cao như thế tránh được yêu cầu tốc độ bít cao không cần thiết cho các băng tần thấp nhất và làm tăng chất lượng âm thanh.

C.1.3  Bộ lọc phân tích băng tần

Một bộ lọc phân tích băng tần con được sử dụng đề phân chia các tín hiệu băng thông rộng với tần số lấy mẫu fs thành 32 băng tần con cách đều nhau với tần số lấy mẫu fs/32. Lưu đồ của quá trình này với các công thức thích hợp được đưa ra trong hình C.4 “Biểu đồ bộ lọc phân tích băng tần con”. Phân tích băng tần bao gồm các bước sau:

- 32 mẫu âm thanh đầu vào.

- Xây dựng một vector đầu vào mẫu X của 512 phần tử. 32 mẫu âm thanh được chuyển từ các vị trí 0 đến 31, vị trí gần đây nhất ở vị trí 0, và 32 phần tử cũ nhất được chuyển ra.

- Cửa sổ vector X bằng cửa sổ vector C. Các hệ số có thể được tìm thấy trong bảng C.1.

- Tính 64 giá trị Yj theo công thức được đưa ra trong biểu đồ lưu lượng.

- Tính 32 mẫu băng tần con Sj bằng ma trận. Các hệ số của ma trận có thể được tính theo công thức sau:

Mjk = cos[(2i + 1)(k - 16)π / 64]), với i = 0 đến 31, và k = 0 đến 63.

Bảng C.1 - Hệ số Cj của cửa sổ phân tích

C[ 0] = 0,000000000

C[ 1] =-0,000000477

C[ 2] =-0,000000477

C[ 3] =-0,000000477

C[ 4] = -0,000000477

C[ 5] =-0,000000477

C[ 6] =-0,000000477

C[ 7] = -0,00000954

C[ 8] =-0,000000954

C[ 9] =-0,000000954

C[ 10] =-0,000000954

C[ 11] = -0,000001431

C[12] = -0,000001431

C[13] = -0,000001907

C[14] = -0,000001907

C[15] = -0,000002384

C[16] = -0,000002384

C[17] =-0,000002861

C[18] = -0,000003338

C[19] =-0,000003338

C[20] = -0,000003815

C[21] = -0,000004292

C[22] = -0,0000004768

C[23] = -0,000005245

C[24] = -0,000006199

C[25] = -0,000006676

C[26] = -0,000007629

C[27] =-0,000008106

C[28] = -0,000009060

C[29] = -0,000010014

C[30] = -0,000011444

C[31] =-0,000012398

C[32] =-0,000013828

C[33] = -0,000014782

C[34] = -0,000016689

C[35] =-0,000018120

C[36] = -0,000019550

C[37] = -0,000021458

C[38] = -0,000023365

C[39] = -0,000025272

C[40] = -0,000027657

C[41] = -0,000030041

C[42] = -0,000032425

C[43] = -0,000034809

C[44] = -0,000037670

C[44] = -0,000040531

C[46] = -0,000043392

C[47] = -0,000046253

C[18] =-0,000049591

C[19] = -0,000052929

C[50] = -0,000055790

C[51] =-0,000059605

C[52] = -0,000062943

C[53] = -0,000066280

C[54] = -0,000070095

C[55] = -0,000073433

C[56] = -0,000076771

C[57] = -0,000080585

C[58] = -0,000083923

C[59] =-0,000087261

C[60] = -0,000090599

C[61] =-0,000093460

C[62] = -0,000096321

C[63] =-0,000099182

C[64] = 0,000101566

C[65] = 0,000103951

C[66] = 0,000105858

C[67] = 0,000107288

C[68] = 0,000108242

C[69] = 0,000108719

C[70] = 0,000108719

C[71] = 0,000108242

C[72] = 0,000106812

C[73] = 0,000105381

C[74] = 0,000102520

C[75] = 0,000099182

C[76] = 0,000095367

C[77] = 0,000090122

C[78] = 0,000084400

C[79] = 0,000077724

C[80] = 0,000095367

C[81] = 0,000060558

C[82] = 0,000050545

C[83] = 0,000039577

C[84] = 0,000069618

C[85] = 0,000013828

C[86] = -0,000000954

C[87] =-0,000017166

C[88] = -0,000027180

C[89] = -0,000052929

C[90] = -0,000072956

C[91] =-0,000093937

C[92] = -0,000034332

C[93] = -0,000140190

C[94] = -0,000165462

C[95] =-0,000191212

C[96] = -0,000116348

C[97] = -0,000247478

C[98] = -0,000277042

C[99] = -0,000307560

C[100] = -0,000218868

C[101] = -0,000371456

C[102] = -0,000404358

C[103] = -0,000438213

C[104] =-0,000339031

C[105] =-0,000507355

C[106] =-0,000542164

C[107] = -0,000576973

C[108] = -0,000472546

C[109] = -0,000646591

C[110] = -0,000680923

C[111] = -0,000714302

C[112] = -0,0006 1782

C[113] =-0,0007791525

C[114] = -0,000809669

C[115] = -0,000838757

C[116] = -0,000747204

C[117] = -0,000891685

C[118] = -0,000915051

C[119] = -0,000935555

C[120] = -0,000866413

C[121 ] = -0,000968933

0[122] = -0,000980854

C[123] = -0,000989437

C[124] = -0,000954151

C[125] = -0,000995159

C[126] = -0,000991851

C[127] =-0,000983715

C[128] = -0,000994205

C[129] = 0,000953674

C[130] = 0,000930786

C[131] = 0,000902653

C[132] = -0,000971317

C[133] = 0,000829220

C[134] = 0,000783920

C[135] = 0,000731945

C[136] = -0,000868797

C[137] = 0,000610352

C[138] = 0,000539303

C[139] = 0,000462532

C[140] = -0,000674248

C[141] = 0,000288486

C[142] = 0,000191689

C[143] =0,000088215

C[144] = -0,000378609

0[145] = -0,000137329

C[146] = -0,000259876

C[147] =-0,000388145

C[148] = -0,000021458

C[149] =-0,000661850

C[150] = -0,000806809

C[151] = -0,000956535

C[152] =-0,000522137

C[153] =-0,001269817

C[154] = -0,001432419

C[155] = -0,001597881

C[156] = -0,001111031

C[157] = -0,001937389

C[158] = -0,002110004

C[159] = -0,002273096

C[160] =-0,001766682

C[161] =-0,002630711

C[162] =-0,002803326

C[163] = -0,002974033

C[164] = -0,002457142

C[165] = -0,003306866

C[166] = -0,003467083

C[167] = -0,003622532

C[168] = -0,003141880

C[169] = -0,003914356

C[170] = -0,004048824

C[171] =-0,004174709

C[172] = -0,003771782

C[173] =-0,004395962

C[174] =-0,004489899

C[175] = -0,004570484

C[176] = -0,004290581

C[177] =-0,004691324

C[178] = -0,004728317

C[179] = -0,004748821

C[180] =-0,004638195

C[181] =-0,004737377

C[182] =-0,004703045

C[183] = -0,004649162

C[184] =-0,004752159

C[185] =-0,004477024

C[186] =-0,004357815

C[187] = -0,004215240

C[188] =-0,004573822

C[189] =-0,003858566

C[190] =-0,003643036

C[191] =-0,003401756

C[192] = 0,004049301

C[193] =0,0028451473

C[194] = 0,002521515

C[195] = 0,002174854

C[196] = 0,003134727

C[197] = 0,001399517

C[198] = 0,000971317

C[199] = 0,000515938

C[200] = 0,001800537

C[201] =-0,000475883

C[202] =-0,001011848

C[203] =-0,001573563

C[204] =-0,002161503

C[205] = -0,002774239

C[206] =-0,003411293

C[207] = -0,004072189

C[208] = -0,004756451

C[209] = -0,00546170

C[210] =-0,006189346

C[211] = -0,006937027

C[212] = -0,007703304

C[213] =-0,008487225

C[214] =-0,009287834

C[215] = -0,010103703

C[216] = -0,010933399

C[217] = -0,011775017

C[218] =-0,012627602

C[219] = -0,013489246

C[220] =-0,014358521

C[221] =-0,015233517

C[222] =-0,016112804

C[223] =-0,016994476

C[224] = -0,017876148

C[225] =-0,0187556866

C[226] =-0,019634247

C[227] = -0,020506859

C[228] =-0,021372318

C[229] =-0,022228718

C[230] = -0,023074150

C[231] = -0,023907185

C[232] = -0,024725437

C[233] = -0,025527000

C[234] =-0,0263109214

C[235] = -0,027073860

C[236] = -0,027815342

C[237] = -0,028532982

C[238] = -0,029224873

C[239] = -0,029890060

C[240] = -0,030526638

C[241] = -0,031132698

C[242] = -0,031706810

C[243] = -0,032248020

C[244] = -0,032754898

C[245] = -0,033225536

C[246] = -0,033659935

C[247] =-0,034055710

C[248] =-0,034412861

C[249] = -0,034730434

C[250] = -0,035007000

C[251] =-0,035242081

C[252] = -0,035435200

C[253] = -0,035586357

C[254] =-0,035691122

C[255] = -0,035758972

C[256] = 0,035780907

C[257] = 0,035758972

C[258] = 0,035694122

C[259] = 0,035586357

C[260] = 0,035435200

C[261] = 0,035242081

C[262] = 0,035007000

C[263] = 0,034730434

C[264] = 0,034412861

C[265] = 0,035055710

C[266] = 0,033659935

C[267] = 0,033225536

C[268] = 0,032754898

C[269] = 0,032248020

C[270] = 0,031706810

C[271] = 0,031132698

C[272] = 0,035026638

C[273J = 0,029890060

C[274] = 0,029224873

C[275] = 0,028532982

C[276] = 0,027815342

C[277] = 0,027073860

C[278] = 0,026310921

C[279] = 0,025527000

C[280] = 0,024825437

C[281] = 0,023907185

C[282] = 0,023074150

C[283] = 0,022228718

C[284] = 0,021372318

C[285] = 0,020506859

C[286] = 0,019634247

C[287] = 0,018756866

C[288] = 0,017876148

C[289] = 0,016994476

C[290] = 0,016112804

C[291] = 0,015233517

C[292] = 0,014358521

C[293] = 0,013489246

C[294] = 0,012627602

C[295] = 0,011775017

C[296] = 0,010933399

C[297] = 0,010103703

CỊ298] = 0,009287834

C[299] = 0,008487225

C[300] = 0,007703304

C[301] = 0,006937027

C[302] = 0,006189346

C[303] = 0,005462170

C[304] = 0,004756451

C[305] = 0,004072189

C[306] = 0,003411293

C[307] = 0,002774239

C[308] = 0,002161503

C[309] = 0,001573563

C[310] = 0,001011848

C[311] = 0,000475883

C[312] = 0,000033379

C[313] =-0,000515933

C[314] = -0,000971317

C[315] =-0,001399517

C[316] = 0,001800537

C[317] =-0,002174854

C[318] = -0,002521515

C[319] =-0,002841473

C[320] = 0,003134727

C[321] = 0,003401756

C[322] = 0,003643036

C[323] = 0,003858566

C[324] = 0,004049301

C[325] = 0,004215240

C[326] = 0,004357815

C[327] = 0,004477024

C[328] = 0,004573822

C[329] = 0,004649162

C[330] = 0,004703045

C[331] = 0,004737377

C[332] = 0,004752159

C[333] = 0,004748821

C[334] = 0,004728317

C[335] = 0,004691124

C[336] = 0,004638195

C[337] = 0,004570484

C[338] = 0,004489899

C[339] = 0,004395962

C[340] = 0,004290581

C[341] = 0,004174709

C[342] = 0,004048824

C[343] = 0,003914356

C[344] = 0,003771782

C[345] = 0,003622532

C[346] = 0,003467083

C[347] = 0,000330688

C[348] = 0,003141880

C[349] = 0,002974033

C[350] = 0,002803326

C[351] = 0,002630711

C[352] = 0,002457142

C[353] = 0,002283096

C[354] = 0,00210004

C[355] = 0,001937389

C[356] = 0,001766682

C[357] = 0,001597881

C[358] = 0,001432419

C[359] = 0,001269817

C[360] = 0,001111031

C[361] = 0,000956535

C[362] = 0,000806808

C[363] = 0,000661850

C[364] = 0,000522137

C[365] = 0,000388145

C[366] = 0,000259876

C[367] = 0,000137329

C[368] = 0,000041458

C[369] =-0,000088215

C[370] = 0,000191689

C[371] =-0,000288486

C[372] =- 0,000378609

C[373] = -0,000462532

C[374] = 0,000539303

C[375] =-0,000610352

C[376] = -0,000674248

C[377] =-0,000731945

C[378] = 0,000783920

C[379] = -0,000829220

C[380] = 0,000868797

C[381] = -0,000902653

C[382] = 0,000930786

C[383] = -0,000953674

C[384] = 0,000971317

C[385] = 0,000983715

C[386] = 0,000992821

C[387] = 0,000995159

C[388] = 0,000994205

C[389] = 0,000989437

C[390] = 0,000980854

C[391] = 0,000968933

C[392] = 0,000954141

C[393] = 0,000935555

C[394] = 0,000915051

C[395] = 0,000891685

C[396] = 0,000866413

C[397] = 0,000838757

C[398] = 0,000809669

C[399] = 0,000779152

C[400] = 0,000747204

C[401] = 0,000714302

C[402] = 0,000680923

C[403] = 0,000646591

C[404] = 0,000611782

C[405] = 0,000576973

C[406] = 0,000542164

C[407] = 0,000507355

C[408] = 0,000472546

C[409] = 0,000438213

C[410] = 0,000404358

C[411] = 0,000371456

C[412] = 0,000339031

C[413] = 0,000307560

C[414] = 0,000277042

C[415] = 0,000247478

C[416] = 0,000218868

C[417] = 0,000191212

C[418] = 0,000165462

C[419] = 0,000140190

C[420] = 0,000116348

C[421] = 0,000093937

C[422] = 0,000072956

C[423] = 0,000052929

C[424] = 0,000034332

C[425] = 0,000017166

C[426] = 0,000000954

C[427] = -0,000043828

C[428] = -0,000027180

C[429] = -0,000039577

C[430] = 0,000050545

C[431] = -0,000060558

C[432] = -0,000069618

C[433]=-0,0000077724

C[434] = 0,000084400

C[435]= -0,000090122

C[436] = -0,000095367

C[437] =-0,000099182

C[438] = 0,000102520

C[439] =-0,000105381

C[440]=-0,000106812

C[441] =-0,000108242

C[442] = 0,000108719

C[443] = -0,000108719

C[444] =-0,000108242

C[445] = 0,000107288

C[446] = 0,000105858

CỊ447] = 0,000103951

C[448] = 0,000101566

C[449] = 0,000099182

C[450] = 0,000096321

C[447] = 0,000093460

C[452] = 0,000090599

C[453] = 0,000087261

C[454] = 0,000083923

C[451] = 0,000080585

C[456] = 0,000076771

C[457] = 0,000073433

C[458] = 0,000070095

C[455] = 0,000066280

C[460] = 0,000062943

C[461] = 0,000059605

C[462] = 0,000055790

C[459] = 0,000052929

C[464] = 0,000049591

C[465] = 0,000046253

C[466] = 0,000043392

C[463] = 0,000040531

C[468] = 0,000037670

C[469] = 0,000034809

C[470] = 0,000032425

C[467] = 0,000030041

C[472] = 0,000027657

C[473] = 0,000025272

C[474] = 0,000023365

C[471]] = 0,000021458

C[476] = 0,000019550

C[477] = 0,000018120

C[478] = 0,000016689

C[475] = 0,000014782

C[480] = 0,000013828

C[481] = 0,000012398

C[482]] = 0,000011444

C[481] = 0,000010014

C[484] = 0,000009060

C[485] = 0,00008106

C[486] = 0,000007629

C[485] = 0,000006676

C[488] = 0,000006199

C[489] = 0,000005245

C[490] = 0,000004768

C[489] = 0,000004292

C[492] = 0,000003815

C[493] = 0,00000338

C[494] = 0,000003338

C[493] = 0,000002861

C[496] = 0,000002384

C[497] = 0,000002384

C[498] = 0,00001907

C[497] = 0,000001907

C[500] = 0,000001431

C[501] = 0,000001431

C[502] = 0,000000954

C[501] = 0,000000954

C[504] = 0,000000954

C[505] = 0,000000954

C[506] = 0,000000477

C[505] = 0,000000477

C[508] = 0,000000477

C[509] = 0,000000477

C[510] = 0,000000477

C[509] = 0,000000477

C.1.4  Các chế độ tâm thính học

Hai ví dụ về các mô hình tâm thính học được trình bày trong phụ lục D, “Các mô hình tâm thính học”.

C.1.5  Mã hóa

C.1.5.1  mã hóa lớp I

C.1.5.1.1  Giới thiệu

Mục này miêu tả một phương pháp mã hoá lớp I. Mô tả này được thực hiện bằng việc tham chiếu đến hình C.5. “Sơ đồ mã hoá lớp I, II”.

C.1.5.1.2  Mô hình tâm thính học

Việc tính toán các thông số tâm thính học có thể được thực hiện bằng mô hình tâm thính học 1 được mô tả trong phần D.1 hoặc với mô hình tâm thính học số 2 như mô tả trong D.2. Bước chuyển đổi FFT bằng 384 mẫu. Hoặc là mô hình cung cấp tỷ lệ tín hiệu mặt nạ cho mỗi băng tần con.

C.1.5.1.3  Phân tích băng tần con

Phân tích băng tần con được mô tả trong mục C.1.3 “Phân tích băng tần con”,

C.1.5.1.4  Tính toán hệ số tỷ lệ

Việc tính toán hệ số tỷ lệ cho mỗi băng tần con được thực hiện cho mỗi 12 mẫu băng tần con một lần. Xác định giá trị tuyệt đối lớn nhất của 12 mẫu này. Giá trị nhỏ nhất trong bảng B.1 “Hệ số tỷ lệ lớp I, II” lớn hơn giá trị tuyệt đối lớn nhất này được gọi là hệ số tỷ lệ.

C.1.5.1.5  Mã hóa hệ số tỷ lệ

Chỉ số trong bảng hệ số tỷ lệ của lớp B.1 “Hệ số tỷ lệ lớp I, II” được biểu diễn bằng 6 bít MSB đầu tiên. Hệ số tỷ lệ chỉ được truyền đi nếu một số không bằng số bít đã được phân bổ cho các băng tần con.

C.1.5.1.6  Phân bổ Bit

Trước khi điều chỉnh tốc độ bít cố định, cần xác định số bít có sẵn để mã hóa các mẫu và các hệ số lệ tỷ lệ, có thể thu được số này bằng cách trừ đi từ tổng số của các bít sẵn có “cb” số bít cần thiết cho mào đầu “bhdr” (32 bit), từ kiểm tra CRC "bcrc" nếu được sử dụng (16 bit), phân bổ bít “bbal” và số bít cần thiết cho dữ liệu phụ 'banc':

adb = cb - (bhdr + bcrc + bbal + banc)

Số kết quả của các bít có thể được sử dụng để mã hoá các mẫu băng tần con và các thang đo tỷ lệ. Nguyên tắc được sử dụng trong thủ tục phân bổ là giảm thiểu tổng tỷ lệ mặt nạ tiếng ồn so với khung với sự hạn chế rằng số bít được sử dụng không vượt quá số bít có sẵn cho khung đó. số bít có thể được phân bổ cho một mẫu có thể được tìm thấy trong bảng 7.5 của phần chính của tiêu chuẩn âm thanh (Dữ liệu âm thanh Lớp I); phạm vi 0 ... 15 bit, không bao gồm một phân bổ của 1 bit.

Thủ tục phân bổ là một thủ tục lặp đi lặp lại, trong đó trong mỗi bước lặp lại số lượng các mẫu dải con vùng có lợi ích lớn nhất tăng lên.

Đầu tiên, tỷ số mặt nạ trên nhiễu “MNR” trên mỗi băng tần con được tính bằng cách lấy tỷ số tín hiệu trên nhiễu (SNR) trừ đi tỷ số của tín hiệu trên mặt nạ “SMR”:

MNR = SNR - SMT

Tỷ số tín hiệu trên nhiễu có thể được đưa ra trong bảng C.2, “Tỷ số tín hiệu trên nhiễu lớp I”. Tỷ số tín hiệu trên mặt nạ là đầu ra của mô hình tâm thính học .

Sau đó, các bít bằng không được phân bổ cho các mẫu và các hệ số tỷ lệ. Số bít cho các mẫu "bspl" và số bít cho các hệ số "bscf được đặt là 0. Tiếp đến bắt đầu một thủ tục lặp. Mỗi vòng lặp bao gồm các bước sau:

- Xác định MNR tối thiểu của tất cả các băng tần con.

- Tăng mức độ chính xác của việc lượng tử của băng tần con với MNR tối thiểu bằng cách sử dụng số bít cao hơn tiếp theo.

- Tính toán MNR mới của băng tần con này.

- Cập nhật bspl theo số bít bổ sung được yêu cầu. Nếu một số bít không phải số 0 được gán cho một băng tần con đầu tiên thì bscf phải được tăng lên 6 bít. Sau đó, tính lại adb bằng cách sử dụng công thức:

adb = cb - (bhdr + bcrc + bbal + bscf + bspl + banc)

Thủ tục lặp được lặp lại miễn là adb không nhỏ hơn bất kỳ mức tăng nào có thể có của bspl và bscf trong một vòng lặp

C.1.5.1.7  Lượng tử hoá và mã hóa các mẫu băng tần con

Sử dụng một bộ lượng tử tuyến tính với sự biểu diễn số 0 đối xứng để lượng tử hóa các mẫu băng tần con. Sự biểu diễn này ngăn không cho giá trị nhỏ thay đổi quanh giá trị 0 từ việc lượng tử hóa đến các mức khác nhau. Mỗi mẫu băng tần con được chuẩn hóa bằng cách chia giá trị của nó cho hệ số tỷ lệ để thu được X và được lượng tử hóa theo công thức sau:

- Tính toán AX + B

- Lấy N bít quan trọng nhất.

- Đảo ngược MSB.

A và B có thể được đưa ra trong bảng C.3, “Các hệ số lượng tử hóa lớp I”. N đại diện cho số bít cần thiết để mã hóa số bước. Thực hiện đảo ngược bít quan trọng nhất (MSB) để tránh biểu diễn tất cả mã “1”, vì tất cả mã “1” được sử dụng cho các từ đồng bộ hóa.

C.1.5.1.8  Mã hóa phân bổ bit

Mã 4 bít dùng cho việc phân bổ được trình bày trong mục 2.4.2.5. “Dữ liệu âm thanh lớp I”, phần chính của tiêu chuẩn âm thanh.

C.1.5.1.9  Dữ liệu phụ

Tiêu chuẩn âm thanh cung cấp một số bít dùng cho việc truyền dữ liệu bổ sung có độ dài thay đổi với dòng bít âm thanh. Dữ liệu phụ sẽ làm giảm số lượng bít có sẵn dùng cho âm thanh, do đó có thể làm giảm chất lượng âm thanh.

Sự có mặt của một mẫu bít trong dữ liệu bổ sung phù hợp với từ đồng bộ có thể cản trở việc đồng bộ hóa. Sự cố này có nhiều khả năng xảy ra khi sử dụng định dạng tự do.

C.1.5.1.10  Định dạng

Thông tin băng tần con mã hoá được được truyền trong các khung (xem 2.4.1.2, 2.4.1.3 và 2.4.1.8). số khe trong một khung thay đổi theo tần số mẫu (Fs) và tốc độ bít. Mỗi khung chứa thông tin về 384 mẫu của tín hiệu đầu vào ban đầu, vì vậy tốc độ khung hình là Fs/ 84.

Fs(kHz)

Kích thước khung

48

8

44,1

87074...

32

12

Một khung có thể chứa thông tin âm thanh từ một hoặc hai kênh.

Chiều dài của một khe trong lớp I là 32 bít. số lượng khe trong một khung có thể được tính theo công thức:

Nếu công thức này không cho ra một số nguyên, kết quả sẽ bị cắt bớt và bắt buộc phải "đệm". Điều này có nghĩa là số lượng khe có thể thay đổi giữa N và N + 1

Tổng quan về định dạng Lớp I được trình bày trong hình C.2:

Hình C.2 - Định dạng lớp I

Bảng C.2  Tỷ số tín hiệu trên nhiễu (SNR)

S bước

SNR (dB)

0

0,00

3

7,00

7

16,00

15

25,28

31

31,59

63

37,75

127

43,84

255

49,89

511

55,93

1 023

61,96

2 047

67,98

4 095

71,01

8 191

80,03

16 383

86,05

32 767

92,01

Bảng C.3 Hệ số lượng t lớp I

Số bước

A

B

3

0,750000000

-0,250000000

7

0,875000000

-0,125000000

15

0,937500000

-0,062500000

31

0,968750000

-0,312500000

63

0,984375000

-0,156250000

127

0,992187500

-0,007812500

255

0,996093750

-0,003906250

511

0,998046875

-0,001953125

1 023

0,999023438

-0,000976563

2 047

0,999511719

-0,000488281

4 095

0,999755859

-0,000244141

8 191

0,999877930

-0,000122070

16 383

0,999938965

-0,000061035

32 767

0,999969482

-0,000030518

C.1.5.2  Mã hoá lớp II

C.1.5.2.1  Giới thiệu

Mục này mô tả một phương pháp mã hóa lớp II. Việc mô tả được thực hiện theo hình C.5, “Sơ đồ mã hoá lớp I, II”.

C.1.5.2.2  Mô hình tâm thính học

Việc tính toán các thông số tâm thính học có thể được thực hiện bằng mô hình tâm thính học 1- được mô tả trong điều D.1 hoặc mô hình tâm thính học 2 - được mô tả trong điều D.2. Nếu sử dụng mô hình tâm thính học 1 để tính toán các thông số tâm thính học thì bước nhảy FFT là 1152 mẫu. Nếu sử dụng mô hình tâm thính học 2 thì việc tính toán được thực hiện hai lần với bước nhảy 576 mẫu và dùng giá trị lớn nhất của mỗi cặp tỷ số tín hiệu trên mặt nạ. Mỗi mô hình đều cung cấp tỷ số tín hiệu trên mặt nạ cho mỗi băng tần con.

C.1.5.2.3  Phân tích giàn bộ lọc tần con

Phân tích giàn bộ lọc tần con được mô tả trong điều C.1.3, "Phân tích băng tần con".

C.1.5.2.4  Tính toán hệ số tỷ lệ

Việc tính toán hệ số tỷ lệ cho mỗi băng tần con được thực hiện cho mỗi 12 mẫu băng tần con một lần. Xác định giá trị tuyệt đối lớn nhất của 12 mẫu này. Giá trị nhỏ nhất trong bảng B.1 “Hệ số tỷ lệ lớp I, II” lớn hơn giá trị tuyệt đối lớn nhất này được gọi là hệ số tỷ lệ.

C.1.5.2.5  Mã hóa hệ số tỷ lệ

Một khung tương ứng với 36 mẫu băng tần con, do đó mỗi băng tần con chứa ba hệ số tỷ lệ. Xác định 'scf' như chỉ số trong bảng B.1, “Hệ số tỷ lệ lớp I, II”, Hiệu dscf1 và dscf2 của các chỉ số hệ số tỷ lệ scf1, scf2 và scf3 được tính như sau:

dscf1 = scf1 -scf2

dscf2 =scf2 -scf3

Lớp của từng hiệu số được xác định như sau:

Lớp

dscf

1

dscf <=-3

2

-3< dscf <0

3

dfcf = 0

4

0< dscf <3

5

dscf >=3

Cặp các lớp khác biệt chỉ ra điểm nhập trong bảng C.4, “Các mẫu truyền dẫn hệ số tỷ lệ lớp II”. Các cột được gắn nhãn “hệ số tỷ lệ được sử dụng trong bộ mã hóa” cho ba hệ số tỷ lệ mà được sử dụng thực tế “1”, “2” và “3” có nghĩa là các hệ số tỷ lệ đầu tiên, thứ hai và thứ ba trong một khung. "4" có nghĩa là tối đa tất cả các hệ số tỷ lệ cần thiết được truyền cho một băng tần con trong một khung. Chỉ có những hệ số tỷ lệ cho biết vị trí tương ứng của các hệ số tỷ lệ trong từng băng tần con được gọi là “thông tin lựa chọn hệ số tỷ lệ”.

C.1.5.2.6  Mã hóa thông tin lựa chọn của thang đo tỷ lệ

Thông tin về “lựa chọn tỷ lệ lỗi” (scfsi) được mã hoá bằng một từ hai bít, cũng có thể tìm thấy trong bảng C.4, “Mẫu truyền tải tỷ lệ của lớp II”. Chỉ có scfsi cho các băng tần con mà sẽ nhận được một phân bít không khác bít được truyền đi.

C.1.5.2.7  Phân bổ Bit

Trước khi điều chỉnh tốc độ bít cố định, số bít, “adb”, có sẵn để mã hóa các mẫu và các hệ số tỷ lệ tỷ lệ phải được xác định, số này có thể thu được bằng cách trừ đi từ tổng số các bít có sẵn “cb”, số bít cần thiết cho tiêu đề “bhdr” (32 bit), CRC chcckword “bcrc” nếu được sử dụng (16 bit), phân bổ bít “bbal” và số bít “banc” yêu cầu đối với dữ liệu phụ trợ:

adb = cb - (bhdr + bcrc + bbal + banc)

Số kết quả có thể được sử dụng để mã các mẫu băng tần con và các trình cân bằng. Nguyên tắc được sử dụng trong thủ tục phân bổ cấp phép là giảm thiểu tổng tỷ lệ mặt nạ tiếng ồn trên khung với ràng buộc rằng số bít được sử dụng các tài liệu không vượt quá số bít có sẵn cho khung đó. Sử dụng được thực hiện trong bảng B.2, “Lượng tử hoá có thể có cho mỗi băng tần con lớp II” cho biết mỗi bước con có thể được sử dụng để định lượng các mẫu. bảng B.4, “Lớp lượng tử của lớp II”.

Thủ tục phân bổ là một thủ tục lặp đi lặp lại, trong mỗi bước lặp, số lượng các cấp của băng tần con có lợi ích lớn nhất được tăng lên.

Đầu tiên tỷ lệ mặt nạ tiếng ồn “MNR” cho mỗi băng tần con được tính bằng cách trừ đi từ tỷ số tín hiệu trên nhiễu “SNR” cho tỷ lệ tín hiệu mặt nạ” SMR”:

MNR - SNR-SMT

Tỷ lệ tín hiệu đến tiếng ồn có thể được tìm thấy trong bảng C.5 “Tỷ lệ tín hiệu trên nhiễu lớp II”. Tỷ số tín hiệu-mặt nạ là kết quả của mô hình tâm thính học.

Sau đó, các bít không được phân bổ cho các mẫu và các biến tỷ lệ. Số bít cho các mẫu “bspl” và số bít cho thang đo bscf được thiết lập bằng không. Bước tiếp theo là một thủ tục lặp được khởi động. Mỗi vòng lặp bao gồm các bước sau:

- Xác định MNR tối thiểu của tất cả các băng tần con.

- Độ chính xác của việc lượng tử của băng tần con với MNR tối thiểu được tăng lên bằng cách sử dụng mục tiếp theo cao hơn trong bảng B.2 có liên quan “Định lượng Có thể Định mức II cho mỗi băng tần con”.

- MNR mới của băng tần con này được tính.

- bspl được cập nhật theo số bít bổ sung được yêu cầu. Nếu một số bít khác không được gán cho một băng tần con cho lần đầu tiên, bsel phải được cập nhật và bscf phải được cập nhật theo số lượng hệ số tỷ lệ cần thiết cho băng tần con này. Sau đó, adb được tính lại bằng cách sử dụng công thức:

adb = cb - (bhdr + bcrc + bbal + bsel + bscf + bspl + banc)

Thủ tục lặp lặp lại được lặp lại miễn là adb không nhỏ hơn bất kỳ sự gia tăng bspl, bsel và bscf nào trong vòng một vòng lặp.

C.1.5.2.8  Lượng tử và mã hóa các mẫu băng tần con

Mỗi 12 mẫu băng tần con được chuẩn hóa bằng cách chia giá trị của nó bằng phương thức hệ số tỷ lệ để lấy X và được định lượng bằng cách sử dụng công thức sau đây:

- Tính A * X + B

- đặt các bít quan trọng nhất N.

- Đảo ngược MSB

A và B có thể được tìm thấy trong bảng C.6, "Các hệ số lượng tử lớp II" .N trình diễn cho số bít cần thiết để mã hoá số bước. Việc đảo ngược của MSB được thực hiện để tránh tất cả các mã '1' được sử dụng cho từ đồng bộ.

Với số bước mà các mẫu sẽ được lượng tử hóa, bảng B.4, "Lớp lượng tử của lớp II” cho biết liệu nhóm có được sử dụng hay không. Nếu nhóm không được yêu cầu, ba mẫu mã được mã hoá bằng các từ mã riêng.

Nếu nhóm được yêu cầu, ba mẫu liên tiếp được mã hoá dưới dạng một từ mã. Chỉ có một giá trị Vm, MSB đầu tiên, được truyền cho bộ ba này. Các mối quan hệ giữa giá trị mã hoá vm (m = 3,5,9) và ba dải băng tần con liên tiếp x, y, z là:

v3=9z + 3y + x (v3 trong phạm vi 0...26)

v5 = 25z + 5y + x (v5 trong phạm vi 0...124)

v9= 8lz + 9y + x (v9 trong phạm vi 0...728)

C.1.5.2.9  Mã hoá phân bổ bit

Với mục đích mã hoá hiệu quả hơn, chỉ cho phép một số lượng giới hạn các phép đo lượng tử có thể khác nhau cho mỗi nhóm con. Chỉ có chì mục với chiều dài từ "nhal" trong bảng B.2 có liên quan, “lượng tử có thể có cho mỗi băng tần con lớp II” được truyền đi và MSB đầu tiên.

C.1.5.2.10  Dữ liệu phụ

Tiêu chuẩn âm thanh cung cấp một số bít để đưa và truyền dữ liệu phụ với chiều dài biến thiên với dòng bít âm thanh. Các dữ liệu phụ trợ sẽ làm giảm số bít sẵn có cho âm thanh, có thể dẫn đến sự suy giảm chất lượng âm thanh.

Sự hiện diện của một mẫu bít trong dữ liệu bổ sung so sánh với từ mã đồng bộ có thể cản trở việc đồng bộ hóa. Vấn đề này có nhiều khả năng xảy ra khi định dạng tự do được sử dụng.

C.1.5.2.11  Định dạng

Tổng quan về định dạng lớp II có thể xem trong hình C.3.

Hình C.3 - Định dạng lớp II

Sự khác biệt so với định dạng lớp I là:

- Chiều dài của một khe bằng 8 bit.

- Một khối scfsi mới chứa thông tin lựa chọn tỷ lệ đã được giới thiệu.

- Các thông tin phân bổ bít, hệ số tỷ lệ và mẫu đã được mã hóa thêm (xem các liên quan).

Bảng C.4 - Kiểu truyền tải hệ số tỷ lệ lớp II

Lớp1

Lớp2

Hệ số tỷ lệ sử dụng để mã hoá

Kiểu truyền tải

Lựa chọn thông tin

1

1

1

2

3

1

2

3

0

1

2

1

2

2

 

1

2

3

1

3

1

2

2

 

1

2

3

1

4

1

3

3

 

1

3

3

1

5

1

2

3

1

2

3

0

2

1

1

1

3

 

1

3

1

2

2

1

1

1

 

 

1

2

2

3

1

1

1

 

 

1

2

2

4

4

4

4

 

 

4

2

2

5

1

1

3

 

1

3

1

3

1

1

1

1

 

 

1

2

3

2

1

1

1

 

 

1

2

3

3

1

1

1

 

 

1

2

3

4

3

3

3

 

 

3

2

3

5

1

1

3

 

1

3

1

4

1

2

2

2

 

 

2

2

4

2

2

2

2

 

 

2

2

4

3

2

2

2

 

 

2

2

4

4

3

3

3

 

 

3

2

4

5

1

2

3

1

2

3

0

5

1

1

2

3

1

2

3

0

5

2

1

2

2

 

1

2

3

5

3

1

2

2

 

1

2

3

5

4

1

3

3

 

1

3

3

5

5

1

2

3

1

2

3

0

Bảng C.5 - Tỷ số tín hiệu trên nhiễu lớp II

Số bước

SNR

0

0,00

3

7,00

5

11,00

7

16,00

9

20,84

15

25,28

31

31,59

63

37,75

127

43,84

255

49,89

511

55,93

1 023

61,96

2 047

67,98

4 095

74,01

8 191

80,03

16 383

86,05

32 767

92,01

65 535

98,01

Bảng C.6 - Hệ số lượng tử lớp II

Số bước

A

B

3

0,750000000

-0,250000000

5

0,625000000

-0,375000000

7

0,875000000

-0,125000000

9

0,562500000

-0,437500000

15

0,937500000

-0,062500000

31

0,968750000

-0,031250000

63

0,984375000

-0,015625000

127

0,992187500

-0,007812500

255

0,996093750

-0,003906250

511

0,998046875

-0,001953125

1 023

0,999023438

-0,000976563

2 047

0,999511719

-0,000488281

4 095

0,999755859

-0,000244141

8 191

0,999877930

-0,000122070

16 383

0,999938956

-0,000061035

32 767

0,999969482

-0,000030518

65 535

0,999984741

-0,000015259

 

Hình C.4 - Sơ đồ phân tích giàn bộ lọc tần

 

Hình C.5 - Sơ đồ khối mã hoá lớp I, II

C. 1.5.3  Mã hoá lớp III

C.1.5.3.1  Giới thiệu

Mục này mô tả một phương pháp có thể mã hóa lớp III, chuỗi dữ liệu cơ bản được mô tả trong sơ đồ khôi mã hoá tâm lý nói chung. Các khối cơ bản được mô tả chi tiết hơn dưới đây.

C.1.5.3.2  Mô hình tâm thính học

Việc tính toán các thông số tâm thính học có thể được thực hiện bằng mô hình tâm thính học 1 được mô tả trong mục D.1 hoặc với mô hình tâm thính học 2 mô tả trong mục D.2. Mô tả sửa đổi mô hình tâm thính học 2 đề sử dụng với lớp III có thể được tìm thấy dưới đây. Mô hình được chạy hai lần mỗi khối, sử dụng chiều dài thay đổi 576 mẫu. Tỷ lệ tín hiệu-mặt nạ được cung cấp cho mỗi dải hệ số tỷ lệ.

C.1.5.3.2.1  Thích ứng mô hình tâm thính học II cho lớp III

Mô hình tâm thính học 2 (mục D.2) được sửa đổi như mô tả dưới đây để sử dụng với mã hóa lớp III.

Xem xét chung:

Mô hình được tính hai lần song song. Một tính toán được thực hiện với một dịch chuyển chiều dài ihlen của 192 mẫu (được sử dụng với khối ngắn), cách khác được thực hiện với chiều dài thay đổi của 576 mẫu. Đối với chiều dài thay đổi của 192 mẫu, chiều dài khối của FFT được thay đổi thành 256, và các tham số thay đổi cho phù hợp.

Thay đổi tính toán tính không dự đoán được:

Tính toán số liệu khống thể dự đoán trong mô hình tâm thính học 2 được thay đổi.

- Tính toán không thể dự đoán được:

Các cw không dự đoán được tính cho 206 dòng trải phổ đầu tiên. Đối với các dòng trải phổ khác, tính toán không thể dự đoán được đặt là 0,4.

Tính không thể dự đoán cho 6 dòng đầu tiên được tính từ FFT dài (độ dài cửa sổ - 1024, shiftlen = 576). Đối với các dòng trải phổ từ 6 đến 205, tính không thể dự đoán được tính từ FFT ngắn (chiều dài cửa sổ 256, shiftlen = 192):

cw_l là không thể dự đoán tính từ FFT dài, cw_s là không thể dự đoán được tính từ khối ngắn thứ hai trong số ba khối ngắn trong vòng một lõi.

- Chức năng lan truyền đã được thay thế:

Nếu: j ≥ i

tmpy= 3,0 (j-i)

Mặt khác:

tmpy =1,5 (j-i)

được sử dụng.

Chỉ các giá trị của hàm trải rộng lớn hơn 10-6 được sử dụng. Tất cả các giá trị khác được đặt thành 0.

- Để chuyển đổi các tính không thể dự đoán

conv1 = - 0,299

conv2 = - 0,43

được sử dụng.

- Thông số NMT (âm thanh mặt nạ tiếng ồn) được đặt ở mức 6,0 dB cho tất cả các điểm phân chia ngưỡng. Thông số TMN (mặt nạ âm thanh tiếng ồn) được đặt ở 29.0 dB cho tất cả các phân vùng.

Đối với minval hãy xem bảng "tính toán ngưỡng phân vùng" (bảng C.7).

- Mô hình tâm thính học được ước tính từ tỷ số thr/cb, trong đó thr là ngưỡng và cb là năng lượng:

ở đó k lập chỉ mục các phân vùng tính toán ngưỡng và chiều rộng cb là chiều rộng của phân vùng tính toán ngưỡng (xem bảng).

- Kiểm soát tiếng vọng trước

Các hằng số sau đây được sử dụng để kiểm soát tiếng vọng trước (xem sơ đồ khối):

rpelev = 2

rpelev2 =16

- Ngưỡng không được trải phổ qua các dòng FFT. Các phân vùng tính ngưỡng được chuyển đổi trực tiếp thành các băng tần hệ số tỷ lệ. Phân vùng đầu tiên được thêm vào băng tần hệ số tỷ lệ được tính trọng số là wl, phần cuối với w2 (xem bảng C.8 'Phân tích chuyển đổi các ngưỡng tới các băng tần hệ số tỷ lệ'). Bảng này cũng chứa số phân vùng (cbw) được chuyển đổi thành một băng tần hệ số tỷ lệ (không bao gồm phân vùng đầu tiên và phân vùng cuối cùng).

- Các thông số bobu được thể hiện trong bảng C.8. Chúng được sử dụng để chuyển đổi các phân vùng tính ngưỡng thành các băng tần hệ số tỷ lệ.

- Đối với các khối ngắn, sẽ sử dụng một phiên bản đơn giản của việc tính ngưỡng (tín hiệu hằng số tới tỷ số tiếng ồn). Các hằng số có thể được tìm thấy trong cac cột có nhãn "SNR (dB)" trong bảng C.7 (def) bên dưới.

Bảng C.7. Phân vùng tính ngưỡng với các thông số sau: chiều rộng, minval, ngưỡng im lặng, bình thường và bval

Bảng C.7.a Sampling_frequency = khối dài 48 kHz

no.

FFT-lines

minval

qthr

norm

bval

0

1

24,5

4,532

0,970

0,000

1

1

24,5

4,532

0,755

0,469

2

1

24,5

4,532

0,738

0,937

3

1

24,5

0,904

0,730

1,406

4

1

24,5

0,904

0,724

1,875

5

1

20

0,090

0,723

2,344

6

1

20

0,090

0,723

2,812

7

1

20

0,029

0,723

3,281

8

1

20

0,029

0,718

3,750

9

1

20

0,009

0,690

4,199

10

1

20

0,009

0,660

4,625

11

1

18

0,009

0,641

5,047

12

1

18

0,009

0,600

5,437

13

1

18

0,009

0,584

5,828

14

1

12

0,009

0,531

6,187

15

1

12

0,009

0,537

6,522

16

2

6

0,018

0,857

7,174

17

2

6

0,018

0,858

7,800

18

2

3

0,018

0,853

8,402

19

2

3

0,018

0,824

8,966

20

2

3

0,018

0,778

9,483

21

2

3

0,018

0,740

9,966

22

2

0

0,018

0,709

10,426

23

2

0

0,018

0,676

10,866

24

2

0

0,018

0,632

11,279

25

2

0

0,018

0,592

11,669

26

2

0

0,018

0,553

12,042

27

2

0

0,018

0,510

12,386

28

2

0

0,018

0,513

12,721

29

3

0

0,027

0,608

13,115

30

3

0

0,027

0,673

13,561

31

3

0

0,027

0,636

13,983

32

3

0

0,027

0,586

14,371

33

3

0

0,027

0,571

14,741

34

4

0

0,036

0,616

15,140

35

4

0

0,036

0,640

15,562

36

4

0

0,036

0,597

15,962

37

4

0

0,036

0,538

16,324

38

4

0

0,036

0,512

16,665

39

5

0

0,045

0,528

17,020

40

5

0

0,045

0,516

17,373

41

5

0

0,045

0,493

17,708

42

6

0

0,054

0,499

18,045

43

7

0

0,063

0,525

18,398

44

7

0

0,063

0,541

18,762

45

8

0

0,072

0,528

19,120

46

8

0

0,072

0,510

19,466

47

8

0

0,072

0,506

19,807

48

10

0

0,180

0,525

20,159

49

10

0

0,180

0,536

20,522

50

10

0

0,180

0,518

20,873

51

13

0

0,372

0,501

21,214

52

13

0

0,372

0,496

21,553

53

14

0

0,400

0,497

21,892

54

18

0

1,628

0,495

22,231

55

18

0

1,628

0,494

22,569

56

20

0

1,808

0,497

22,909

57

25

0

22,607

0,494

23,248

58

25

0

22,607

0,487

23,583

59

35

0

31,650

0,483

23,915

60

67

0

605,867

0,482

24,246

61

67

0

605,867

0,524

24,576

Bảng C.7.b - Sampling_frequency = khối dài 44,1 kHz

no.

FFT-lines

minval

qthr

norm

bval

0

1

24,5

4,532

0,951

0,000

1

1

24,5

4,532

0,700

0,431

2

1

24.5

4,532

0,681

0,861

3

1

24,5

0,904

0,675

1,292

4

1

24,5

0,904

0,667

1,723

5

1

20

0,090

0,665

2,153

6

1

20

0,090

0,664

2,584

7

1

20

0,029

0,664

3,015

8

1

20

0,029

0,664

3,445

9

1

20

0,029

0,655

3,876

10

1

20

0,009

0,616

4,279

11

1

20

0,009

0,597

4,670

12

1

18

0,009

0,578

5,057

13

1

18

0,009

0,541

5,415

14

1

18

0,009

0,575

5,774

15

2

12

0,018

0,856

6,422

16

2

6

0,018

0,846

7,026

17

2

6

0,018

0,840

7,609

18

2

3

0,018

0,822

8,168

19

2

3

0,018

0,800

8,710

20

2

3

0,018

0,753

9,207

21

2

3

0,018

0,704

9,662

22

2

0

0,018

0,674

10,099

23

2

0

0,018

0,640

10,515

24

2

0

0,018

0,609

10,917

25

2

0

0,018

0,566

11,293

26

2

0

0,018

0,535

11,652

27

2

0

0,018

0,531

11,997

28

3

0

0,027

0,615

12,394

29

3

0

0,027

0,686

12,850

30

3

0

0,027

0,650

13,277

31

3

0

0,027

0,611

13,681

32

3

0

0,027

0,567

14,062

33

3

0

0,027

0,520

14,411

34

3

0

0,027

0,513

14,751

35

4

0

0,036

0,557

15,119

36

4

0

0,036

0,584

15,508

37

4

0

0,036

0,570

15,883

38

5

0

0,045

0,579

16,263

39

5

0

0,045

0,585

16,654

40

5

0

0,045

0,548

17,020

41

6

0

0,054

0,536

17,374

42

6

0

0,054

0,550

17,744

43

7

0

0,063

0.532

18,104

44

7

0

0,063

0,504

18,447

45

7

0

0,063

0,496

18,781

46

9

0

0,081

0,516

19.130

47

9

0

0,081

0,527

19,487

48

9

0

0,081

0,516

19,838

49

10

0

0,180

0,497

20,179

50

10

0

0,180

0,489

20,510

51

11

0

0,198

0,502

20,852

52

14

0

0,400

0,502

21,196

53

14

0

0,400

0,491

21,531

54

15

0

0,429

0,497

21,870

55

20

0

1,808

0,504

22,214

56

20

0

1,808

0,504

22,558

57

21

0

1,899

0,495

22,898

58

27

0

24,415

0.486

23,232

59

27

0

24,415

0,484

23,564

60

36

0

32,554

0,483

23,897

61

73

0

660,124

0,475

24,229

62

18

0

162,770

0,515

24,542

Bảng C.7.c - Sampling_frequency = khối dài 32 kHz

0

2

24.5

9,064

0,997

0,312

1

2

24,5

9,064

0,193

0,937

2

2

24.5

1,101

0,111

1,562

3

7

20

0,111

0,173

2,117

4

2

20

0,111

0,172

2,112

5

2

20

0,057

0,171

3,437

6

2

20

0,018

0,160

4,045

7

2

20

0,018

0,139

4,625

8

2

18

0,018

0,112

5,173

9

2

18

0,018

0,714

5,691

10

2

12

0,018

0,741

6,184

11

2

12

0,018

0,697

6,634

12

2

6

0,018

0,674

7,070

13

2

6

0,018

0,651

7,492

14

2

6

0,018

0,633

7,905

15

2

3

0,018

0,611

8,305

16

2

3

0,018

0,589

1,695

17

2

3

0,018

0,575

9,064

18

3

3

0,027

0,654

9,483

19

3

3

0,027

0,724

9,966

20

3

0

0,027

0,701

10,425

21

3

0

0,027

0,673

10,866

22

3

0

0,027

0,631

11,279

23

3

0

0,027

0,592

11,669

24

3

0

0,027

0,553

12,042

25

3

0

0,027

0,510

12,386

26

3

0

0,027

0.505

12,721

27

4

0

0,036

0,562

13,091

28

4

0

0,036

0,598

13,488

29

4

0

0,036

0,519

13,873

30

5

0

0,045

0,607

14,268

31

5

0

0,045

0,620

14,679

32

5

0

0,045

0,580

15,067

33

5

0

0,045

0,532

15,424

34

5

0

0,045

0,517

15,771

35

6

0

0,054

0,517

16,120

36

6

0

0,054

0,509

16,466

37

6

0

0,054

0,506

16,807

38

8

0

0,072

0,522

17,158

39

8

0

0,072

0,531

17,511

40

8

0

0,072

0,519

17,869

41

10

0

0,090

0,512

18,215

42

110

0

0,090

0,509

18,562

43

10

0

0,090

0,497

18,902

44

12

0

0,108

0,494

19,239

43

112

0

0,108

0,501

19,579

46

13

0

0,117

0,507

19,925

47

14

0

0,252

0,502

20,269

48

14

0

0,252

0,493

20,606

49

16

0

0,219

0,497

20,944

50

20

0

0,572

0,506

21,288

51

20

0

0,572

0,510

21,635

52

23

0

0,658

0,504

21,979

53

27

0

2,441

0,496

22,319

54

27

0

2,441

0,493

22,656

55

32

0

2,194

0,490

21,993

56

37

0

33,458

0,483

23,326

57

37

0

33,458

0,458

23,656

58

12

0

10,851

0,500

23,937

Bảng C.7.a - Sampling_frequency = khối ngắn 48 kHz

no.

FFT-lines

qthr

norm

SNR (db)

bval

0

1

4,532

0,970

-8,240

0,000

1

1

0,904

0,755

-8,240

1,875

2

1

0,029

0,738

-8,240

3,750

3

1

0,009

0,730

-8,240

5,437

4

1

0,009

0,724

-8,240

6,857

5

1

0,009

0,723

-8,240

8,109

6

1

0,009

0,723

-8,240

9,237

7

1

0,009

0,723

-8,240

10,202

8

1

0,009

0,718

-8,240

11,083

9

1

0,009

0,690

-8,240

11,864

10

1

0,009

0,660

-7,447

12,553

11

1

0,009

0,641

-7,447

13,195

12

1

0,009

0,600

-7,447

13,781

13

1

0,009

0,584

-7,447

14,309

14

1

0,009

0,532

-7,447

14,803

15

1

0,009

0,537

-7,447

15,250

16

1

0,009

0,857

-7,447

15,667

17

1

0,009

0,858

-7,447

16,068

18

1

0,009

0.853

-7,447

16,409

19

2

0,018

0,824

-7,447

17,044

20

2

0,018

0,778

-6,990

17,607

21

2

0,018

0,740

-6,990

18,097

22

2

0,018

0,709

-6,990

18,528

23

2

0,018

0,676

-6,990

18,930

24

2

0,018

0,632

-6,990

19,295

25

2

0,018

0,592

-6,990

19,636

26

3

0,054

0,553

-6,990

20.038

27

3

0,054

0,510

-6,990

20,486

28

3

0,054

0,513

-6,990

20,900

29

4

0,114

0,608

-6,990

21,305

30

4

0,114

0,673

-6,020

21,722

31

5

0,452

0,637

-6,020

22,128

32

5

0,452

0,586

-6,020

22,512

33

5

0,452

0,571

-6,020

22,877

34

7

6,330

0,616

-5,229

23,241

35

7

6,330

0,640

-5,229

23,616

36

11

9,947

0,597

-5,229

23,974

37

17

153,727

0,538

-5,229

24,312

 

Bảng C.8 - Các bảng chuyển đổi phân vùng tính ngưỡng thành các băng tần hệ số tỷ lệ

no. sb

cbw

bu

bo

w 1

w2

0

3

0

4

1.000

0.056

1

3

4

7

0.944

0.611

2

4

7

11

0.389

0.167

3

3

11

14

0.833

0,722

4

3

14

17

0.278

0.639

5

2

17

19

0.361

0.417

6

3

19

22

0.583

0.083

7

2

22

24

0,917

0,750

8

3

24

27

0,250

0,417

9

3

27

30

0,583

0,648

10

3

30

33

0,352

0,611

11

3

33

36

0,389

0,625

12

4

36

40

0,375

0,144

13

3

40

43

0,856

0,389

14

3

43

46

0,611

0,160

15

3

46

49

0,840

0,217

16

3

49

52

0,783

0,184

17

2

52

54

0,816

0,886

18

3

54

57

0,114

0,313

19

2

57

59

0,687

0,452

20

1

59

60

0,548

0,908

Bảng C.8.b - Sampling_frequency = Khối dài 44,1 kHz

no. sb

cbw

bu

bo

w 1

w2

0

3

0

4

1,000

0,056

1

3

4

7

0,944

0,611

2

4

7

II

0,389

0,167

3

3

11

14

0,833

0,722

4

3

14

17

0,278

0,139

5

1

17

18

0,861

0,917

6

3

18

21

0,083

0,583

7

3

21

24

0,417

0,250

8

3

24

27

0,750

0,805

9

3

27

30

0,194

0,574

10

3

30

33

0,426

0,537

11

3

33

36

0,463

0,819

12

4

36

40

0,180

0,100

13

3

40

43

0,900

0,468

14

3

43

46

0,532

0,623

15

3

46

49

0,376

0,450

16

3

49

52

0,550

0,552

17

3

52

55

0,448

0,403

18

2

55

57

0,597

0,643

19

2

57

59

0,357

0,722

20

2

59

61

0,278

0,960

Bảng C.8.c - Sampling_frequency = Khối dài 32 kHz

no. sb

cb w

bu

bo

w 1

w2

0

1

0

2

1.000

0.528

1

2

2

4

0.472

0.305

2

2

4

6

0.694

0.083

3

1

6

7

0.917

0.861

4

2

7

9

0.139

0.639

5

2

9

11

0.361

0.417

6

3

11

14

0.583

0.083

7

2

14

16

0.917

0.750

8

3

16

19

0.250

0.870

9

3

19

22

0.130

0.833

10

4

22

26

0.167

0.389

11

4

26

30

0.611

0.478

12

4

30

34

0.522

0.033

13

3

34

37

0.967

0.917

14

4

37

41

0.083

0.617

15

3

41

44

0.383

0.995

16

4

44

48

0.005

0.274

17

3

48

51

0.726

0.480

18

3

51

54

0.519

0.261

19

2

54

56

0.739

0.884

20

2

56

58

0.116

1.000

Bảng C.8.d - Sampling_frequency = Khối ngắn 48 kHz

no. sb

cbw

bu

bo

w 1

w2

0

2

0

3

1,000

0,167

1

2

3

5

0,833

0,833

2

3

5

8

0,167

0,500

3

3

8

11

0,500

0,167

4

4

11

15

0,833

0,167

5

4

15

19

0,833

0,583

6

3

19

22

0,417

0,917

7

4

22

26

0,083

0,944

8

4

26

30

0,055

0,042

9

2

30

32

0,958

0,567

10

3

32

35

0,433

0,167

11

2

35

37

0,833

0,618

Bảng C.8.e - Sampling_frequency = khối ngắn 44,1 kHz

no. sb

1 cbw

bu

bo

w 1

w 2

0

2

0

3

1.000

0.167

1

2

3

5

0.833

0.833

2

3

5

8

0.167

0.500

3

3

8

11

0.500

0,167

4

4

11

15

0,833

0,167

5

5

15

20

0,833

0.250

6

3

20

23

0.750

0.583

7

4

23

27

0,417

0.055

8

3

27

30

0,944

0,375

9

3

30

33

0.625

0,300

10

3

33

36

0,700

0,167

11

2

36

38

0.833

1.000

Bảng C.8.f - Sampling_frequency = khối ngắn 32 kHz

no. sb

cbw

bu

bo

w 1

w 2

0

2

0

3

1.000

0,167

1

2

3

5

0,833

0,833

2

3

5

8

0,167

0,500

3

3

8

11

0,500

0,167

4

4

11

15

0,833

0.167

5

5

15

20

0.833

0.250

6

4

20

24

0,750

0,250

7

5

24

29

0.750

0.055

8

4

29

33

0.944

0.375

9

4

33

37

0.625

0.472

10

3

37

40

0.528

0.937

11

1

40

41

0.062

1.000

 

Hình C.6.a - Sơ đồ khối mô hình tâm thính học 2, lớp III: Tính toán ngưỡng

 

Hình C.6.b - Sơ đồ khối hình tâm thính học 2, lớp III: Tính toán ngưỡng (Phần 1)

 

Hình C.6.c - Sơ đồ khối mô hình tâm thính học 2, lớp III: Tính toán ngưỡng (Phần 2)

 

Hình C.6.d - Sơ đồ khối mô hình tâm thính học 2, lớp III: Tính toán ngưỡng cho khối ngắn

Mô tả cửa sổ chuyển đổi:

Mô tả xem giàn bộ lọc có nên chuyển sang cửa sổ ngắn được tính từ việc tính toán ngưỡng che phủ bằng cách tính ước lượng mô hình tâm thính học (PE) và chuyển đổi khi PE. vượt quá giá trị 1800. Nếu điều kiện này được đáp ứng, chuỗi bắt đầu (block_type = 1), ngắn (block_type = 2), ngắn, dừng (block_type = 3) được bắt đầu. Hình C.7 cho thấy các thay đổi trạng thái có thể cho logic chuyển đổi cửa sổ.

Hình C.7 - Sơ đồ giai đoạn cửa sổ chuyển đổi

C.1.5.3.3  Phân tích một phần của giàn bộ lọc lai

Phân tích băng tần con của giàn bộ lọc đa phần được mô tả trong mục C.1.3, "Bộ lọc phân tích băng tần con". Đầu ra của giàn bộ lọc đa pha là đầu vào cho phân khu sử dụng MDCT. Theo kết quả của mô hình tâm thính học (biến blocksplit_flag block_type ) cửa sổ và các loại biến đổi bình thường, bắt đầu, ngắn hoặc dừng lại được sử dụng. 18 giá trị đầu ra liên tục của một lõi và 18 giá trị đầu ra của lõi trước khi được lắp ráp thành một khối của 36 mẫu.

Kiểu chặn "bình thường"

Kiểu khối “bắt đầu”

Kiểu khối “dừng”

Kiểu khối “ngắn”

Các khỗi của 36 mẫu được chia ba khối chồng lên nhau:

Mỗi khối trong ba khối nhỏ đều có cửa sổ riêng:

MDCT:

Trong n sau đây là số lượng các mẫu cửa sổ. Đối với các khối ngắn n là 12, đối với các khối dài n là 36. Biểu thức phân tích của MDCT là:

Xáo trộn chéo, Bộ mã hoá:

Tính toán giảm bớt sự ảo giác trong bộ mã hóa được thực hiện như trong bộ giải mã. Thủ tục chung được thể hiện trong hình A.5. Định nghĩa xáo trộn chéo được sử dụng trong bộ mã hóa được thể hiện trong hình C.8. Các hệ số cajcs; có thể được tìm thấy trong bảng B.9

Hình C.8 - Định nghĩa bộ mã hóa xáo trộn chéo

C.1.5.3.4  Tính toán trung bình các bít sẵn có

Số bít trung bình của mỗi lõi được tính từ kích cỡ khung. Tốc độ bít 64 kbits/s được sử dụng làm ví dụ. Ở tốc độ bít 64 kbits / s với 48 000 mẫu / giây,

(64000* (1 152/48000) bít mỗi khung) / (2 lõi trên mỗi khung) = 768 bít cho mỗi lõi.

Khi tiêu đề đưa ra 32 bít và thông tin phụ đưa ra 17 byte (136 bit) trong chế độ đơn kênh, số bít trung bình của các bít có săn cho main_data cho một lõi được cho bởi

mean_bits = 768 bít cho mỗi lõi - (32 + 136 bít cho mỗi khung/giây) mỗi lõi = 684 bít cho mỗi lõi.

Nguồn bit:

Các kho dự trữ bít có thể cung cấp thêm bít có thể được sử dụng cho lõi. Số bít được cung cấp được xác định trong vòng lặp.

C.1.5.3.5  Lượng tử và mã hóa các mẫu miền tần số

Dữ liệu miền tần số được lượng tử và mã hoá trong vòng lặp lặp lồng nhau. Mục C.1.5.4 có mô tả chi tiết về các vòng lặp này.

C.1.5.3.6  Dữ liệu phụ trợ

Tiêu chuẩn âm thanh cung cấp một số bít để đưa và truyền dữ liệu phụ trợ với độ dài biến thiên với dòng bít âm thanh. Các dữ liệu phụ trợ sẽ làm giảm số bít sẵn có cho âm thanh, có thể dẫn đến sự suy giảm chất lượng âm thanh.

Sự hiện diện của một mẫu bít trong dữ liệu bổ sung so với từ mã đồng bộ có thể cản trở việc đồng bộ hóa. Vấn đề này có nhiều khả năng xảy ra khi sử dụng định dạng tự do.

C.1.5.3.7  Định dạng

Các chi tiết về định dạng bít lớp III có thể tìm thấy trong mục 2.4.4. Việc định dạng các từ mã Huffman được mô tả dưới đây:

Các từ mã Huffman được sắp xếp theo thứ tự từ tần số thấp đến cao. Trong vòng lặp, các biến sau được tính toán và được sử dụng để mã hoá các từ mã Huffman:

là (i), i = 0 ... 575

các giá trị miền tần số đã được lượng tử

table_select [region] region_adress1

Bảng mã Huffman được sử dụng cho các vùng (vùng = 0.1,2) xác định biên giới giữa vùng 0 và 1

region_adress2

xác định ranh giới giữa khu vực 1 và 2

maxjvalue [region]

giá trị trung bình lớn nhất của dữ liệu lượng tử ở các vùng (vùng = 0,1,2)

Dữ liệu được ghi vào dòng bít theo cú pháp mã Huffman được mô tả trong mục 2.4.2.7

Việc lắp ráp thực tế của mã Huffman cho phần big_values được mô tả trong một ngôn ngữ cấp cao giả lập:

for region number from 0 to 2

if table_selcct for this region is 0

nothing to do. all values in region are zero

else

if table_select for this region is > 15

an ESC-tablc is used: look up linbits value connected to the table used

for i = begin of region to end of region, count in pairs

x = is(i), y = is(i+l) if x > 14

linbitsx - x • 15, x = 15

end if

signx = sign(x), x = abs(x)

if y > 14

linbitsy = y - 15, y = 15

end if

signy = signfy), y = abs(y)

look for codeword = hcod(lxJ[y]J) in table iable_select

write hcod((x][y]), beginning with the leftmost bit. number of bits is hlcn(\xl(y\)

if x > 14

write linbitsx to the dòng bit, number of bits is linbits

end if

if x !* 0

write signx to dòng bít

end if

if y > 14

write linbitsy to the dòng bit, number of bits is linbits

end if

if y !- 0

write signy to dòng bit end if

end do

else

no ESC-words are used in this region:

for i = beginning of region to end of region, count in pairs

x = is(i), y = is(i+l) signx = sign(x), x = abs(x)

signy = sign(y), y = abs(y)

look for codeword = hcod((x)[y]) in table table_select

write hcod([x)[yJ), beginning with the leftmost bit. number of bits is hlcn(│x│ly│)

if x != 0

write signx to dòng bít

end if if y. '-0

write signy to dòng bit

end if

end do

end if

end if

end for

Một ứng dụng có thể cho private_bit là sử dụng chúng như là bộ đếm khung.

C.1.5.4  Các vòng lặp lớp III

1.5.4.1  Giới thiệu

Mô tả của mô-đun vòng lặp lớp III được chia thành ba mức. Mức cao nhất được gọi là "chương trình khung vòng lặp". Chương trình khung vòng lặp gọi một chương trình con có tên là "vòng lặp ngoại lặp bên ngoài", nó gọi một chương trình con "vòng lặp lặp lại bên trong". Đối với mỗi mức, một lưu đồ tương ứng sẽ được hiển thị.

Mô đun vòng lặp lượng tử một vector đầu vào của dữ liệu phổ trong một quá trình lặp theo một số yêu cầu. Vòng bên trong định lượng vector đầu vào và tăng kích thước bước lượng tử cho đến khi vector đầu ra có thể được mã hoá với số bít sẵn có. Sau khi hoàn thành vòng lặp bên trong một vòng ngoài kiểm tra sự độ méo mó của mỗi dải tần số và. nếu sự độ méo mó đã vượt quá, khuếch đại dải hệ số tỷ lệ và gọi lại vòng lặp bên trong.

Đầu vào vòng lặp mô đun lớp 3:

(1)

vector của độ lớn của các giá trị phổ xr (0..575).

(2)

xmin (sb), sự độ méo cho phép của các dải tỷ lệ, xmin = ratio (sb) * cn (sb) / bw (sb).

(3)

cờ chuyển mạch cửa sổ, kết hợp với mixed_block_flag và block_type, xác định số dải tần số.

(4)

mean_bits (bít có sẵn cho Huffman mã hóa và mã hóa của các hệ số tỷ lệ tỷ lệ).

(5)

morc_bits, số bít thêm vào số bít trung bình, như yêu cầu bởi giá trị entropy tâm thính kinh đối với hạt:

more_bits = 3.1 • PE - (số bít trung bình)

Đầu ra mô-đun vòng lớp III:

(1)

vector của các giá trị lượng tử ix (0..575).

(2)

scalefac_1 (sb) hoặc scalcfac_s (sb) tùy thuộc vào window_switching_flag, block_type và mixed_block_flag.

(3)

glohal_gain (quantizer step size information) global _gain = qquant + system_constant.

system_constant bao gồm tất cả các hoạt động mở rộng của bộ mã hóa và bù đắp một để đạt được đầu ra chính xác với quá trình giải mã được mô tả trong phần chính.

(4)

số bít không sử dụng có sẵn để sử dụng sau này.

(5)

preflag (bật / tắt tính năng preopsis).

(6)

Huffman mã liên quan đến thông tin phụ

C1.5.4.2  Các bước chuẩn bị

C.1.5.4.2.1  Đặt lại tất cả các biến lặp

Các hệ số tỷ lệ tỷ lệ của phân vùng mã hoá, scalcfac_1 [sb] hoặc scalcfac_s [sb] là tương ứng thiết lập bằng không.

Các truy cập lượng tử cho kích thước bước lượng tử thiết lập lại bằng không.

Preflag được đặt lại về không.

Scalcfac_scale được đặt lại về không.

Giá trị quan trọng của quanlanf được xác định như sau: quantan f = system _const*loge(sfm),

ở đó sfm là đo độ phẳng phổ và quanlanf phụ thuộc vào việc thực hiện tính toán của bộ mã hóa.

Đo độ dốc phổ được đưa ra bởi

Giá trị của system_const được chọn để cho tất cả các tín hiệu lần lặp đầu tiên của vòng trong cho tất cả các tín hiệu đi kèm với một chút tổng số cao hơn mong muốn bitsum. Bằng cách đó đảm bảo rằng cuộc gọi đầu tiên của vòng lặp bên trong kết quả trong giải pháp sử dụng càng nhiều các bít sẵn có càng tốt. Để tiết kiệm thời gian tính toán, cần giảm thiểu số lần lặp lại bằng cách thích ứng giá trị của quantanf với tốc độ bít và số liệu thống kê tín hiệu.

C.1.5.4.2.2  Kiểm soát kho dự trữ bit

Các bít được lưu vào kho dự trữ phải ít hơn mean_bits sử dụng để mã hóa một lõi. Nếu các bít được lưu cho một khung, giá trị của main_data_cnd sẽ tăng lên tương ứng. Xem Hình A.7.a

Số lượng bít được tạo sẵn cho main_data (gọi * max_bits') được lấy từ ngưỡng ước tính thực tế (PE được tính bằng mô hình tâm thính học), số bít trung bình (mean_bits) và nội dung thực tế của các bít trong kho dự trữ. Số byte trong kho dự trữ được cho bởi data_end chính.

Các quy tắc thực tế để sự kiểm soát kho dự trữ bít được đưa ra dưới đây:

- Nếu một số byte có sẵn cho các vòng lặp bên trong không được sử dụng cho mã hóa Huffman hoặc main_data khác, số lượng byte đó được bổ sung vào kho dự trữ bít.

- Nếu kho dự trữ bít chứa nhiều hơn 0,8 lần lần nội dung tối đa cho phép của vùng chứa bít, tất cả các byte vượt số quá số này được tạo sẵn cho main_data (ngoài các mean_bits)

- Nếu more_bits lớn hơn 100 bít thì số byte tối đa (more_bits / 8,0.6 * tnain_daia_end) được lấy từ nguồnchứa bít và tạo sẵn cho main_daia (ngoài mcan_bits).

- Sau khi việc tính toán vòng thực tế đã kết thúc, số lượng các byte không được sử dụng cho main_data được bổ sung vào kho dự trữ bít.

- Nếu sau khi thực hiện các bước trên mà số byte trong nuồn chứa vượt quá mức tối đa cho phép thì các bít nhồi được ghi vào dòng bít và nội dung nguồn bít được điều chỉnh theo.

C.1.5.4.2.3  Tính toán thông tin lựa chọn hệ số tỷ lệ (scfsi)

Scfsi chứa các thông tin, mà hệ số tỷ lệ (được nhóm trong scfsi_bands) của lõi đầu tiên cũng có thể được sử dụng cho các lõi thứ hai. Do đó các hệ số tỷ lệ không được truyền đi; các bít thu được có thể được sử dụng để mã hóa Huffman.

Để xác định việc sử dụng các scfsi, các thông tin sau của mỗi hạt phải được lưu lại:

a) Loại khối

b) Năng lượng tổng của lõi:

Trong đó n là tổng số các giá trị phổ

c) Năng lượng của mỗi dải hệ số tỷ lệ

Trong đó Ibl (sb) là số hệ số đầu tiên thuộc dải hệ số tỷ lệ băng tần con sb và bw (sb) là số các hệ số trong dải hệ số tỷ lệ băng tần sb.

d) Độ méo cho phép của mỗi dải hệ số tỷ lệ:

xm(sb)=int{log2(xmin(i))}

xmin (sb) được tính bằng mô hình tâm thính học.

Các hệ số tỷ lệ của lõi đầu tiên luôn luôn truyền đi. Khi mã hóa các lõi thứ hai, phải so sánh thông tin của hai lõi. Có bốn tiêu chí để xác định xem scfsi thể được sử dụng không. Nếu một trong bốn tiêu chí không được thoả mãn, scfsi sẽ bị vô hiệu hóa (có nghĩa là nó được đặt là 0 trong tất cả các scfsi_bands). Bốn tiêu chí là: (chỉ số 0 có nghĩa là lõi đâu tiên, chỉ số 1 là lõi thứ hai):

a) Các giá trị phổ đều bằng 0.

b) Không lõi nào chứa khối ngắn

c)

d)

Nếu các scfsi không bị vô hiệu hóa sau những phép thử trên, sẽ có hai tiêu chí cho mỗi scfsi_band. Cả hai đều phải thỏa mãn để kích hoạt scfsi (có nghĩa là thiết lập nó là 1 trong scfsi_band này):

a)

b)

Các hằng số (với chỉ số Krit) đã được lựa chọn, scfsi chỉ kích hoạt trong trường hợp năng lượng/ độ méo tương tự.

Các giá trị được gợi ý là:

en-totkrit

= 10

 

en-difkrit

= 100

 

en(scfsi_band)krit

= 0

cho mỗi scfsi_band

xm(scfsi_band)krit

= 0

cho mỗi scfsi_band

C.1.5.4.3  Vòng lặp ngoài (kiểm soát biến đổi vòng lặp)

Bên ngoài vòng lặp được kiểm soát tiếng ồn lượng tử được được tạo ra bằng cách lượng tử của các dòng miền tần số trong vòng lặp lặp lại bên trong. Các tiếng ồn được thực hiện bằng cách nhân các dòng trong băng tần hệ số tỷ lệ với các hệ số tỷ lệ thực tế trước khi lượng tử hóa. Đoạn mã giả dưới đây minh họa việc nhân đó.

do for each scalcfactor hand:

do from lower index to upper index of scale factor band

xrfi) = xr(i) * v'(2)A ((1 + scalefac_sca)e) * scalefac(sb))

end do

end do

Trong đó các hệ số tỷ lệ hoặc là scalefac_1 hoặc là scalefac_s sẽ phù hợp.

Trong hệ thống thực tế, phép nhân được thực hiện tăng dần chỉ với sự gia tăng của các yếu tố tỷ lệ được áp dụng trong mỗi vòng kiểm soát độ méo. Điều này được mô tả trong C1.5.4.3.5 dưới đây.

Vòng lặp độ méo luôn được bắt đầu với scalefac_scale = 0. Nếu sau một số lần lặp chiều dài tối đa của hệ số tỷ lệ sẽ bị vượt quá (xem bảng scalefac_compress trong mục 2.4.2.7 và C.1.5.4.3.5 bện dưới), sau đó calefac_scale tăng lên đến giá trị 1 do tăng dải hệ số tỷ lệ. Trong trường hợp này hệ số tỷ lệ thực tế và các dòng tần số phải được điều chỉnh phù hợp.

C.1.5.4.3.1  Lưu hệ số tỷ lệ

Các hệ số tỷ lệ của tất cả các hệ số tỷ lệ băng tần, scalefac_1 (sb) hoặc scalcfac_s (sb), cũng kích thước bước lượng tử qquant phải được lưu lại. Nếu việc tính toán các vòng ngoài bị hủy bỏ mà không đạt được một kết quả hợp lý, giá trị này cùng với phổ đã được lượng tử cho ra một giá trị gần đúng có thể được truyền đi.

C.1.5.4.3.2  Gọi vòng lặp trong

Đối với mỗi vòng lặp bẽn ngoài (vòng lặp kiểm soát độ méo), vòng lặp bên trong (vòng lặp kiểm soát tốc độ) sẽ được gọi. Các thông số là giá trị miền tần số (đầu ra giàn bộ lọc lai) có các hệ số tỷ lệ được áp dụng cho các giá trị trong các hệ số tỷ lệ băng tần và số bít đã có sẵn cho vòng lặp kiểm soát tốc độ. Kết quả là số bít thực tế được sử dụng và các dòng tần số được lượng tử hoá ix (i).

C.1.5.4.3.3  Tính toán sự độ méo trong những hệ số tỷ lệ băng tần.

Đối với mỗi băng tần hệ số tỷ lệ, độ méo thực tế được tính theo công thức sau:

Trong đó Ibl (sb) là số hệ số trình diễn tần số thấp nhất trong một hệ số tỷ lệ băng tần và bw(sb) là số các hệ số trong băng tần này.

1.5.4.3.4  Preemphasis

Tùy chọn preemphasis (bật bằng cách đặt preflag là 1) có khả năng hiển thị phần trên của phổ theo các bảng preemphasis, bảng B.6.

Điều kiện để bật tùy chọn preemphasis tùy thuộc vào việc thực hiện. Ví dụ preemphasis có thể được bật lên nếu trong tất cả các 4 hệ số tỷ lệ băng tần phía trên có độ méo thực tế vượt quá ngưỡng sau lần gọi đầu tiên vòng lặp trong.

Nếu lõi thứ hai đã được mã hoá và scfsi được kích hoạt trong ít nhất một scfsi_band, preemphasis trong lõi thứ hai được đặt bằng các thiết lập trong lõi thứ nhất.

C.1.5.4.3.5  Khuếch đại của hệ số tỷ lệ băng tần trong phạm vi các ngưỡng mặt nạ

Tất cả các giá trị phổ của các băng tần hệ số tỷ lệ có một độ méo vượt quá độ méo cho phép khuếch đại bởi một nhân tố ifqstep. Giá trị ifqstep được truyền bởi scalefac_scale.

Nếu lõi thứ hai đã được mã hoá và scfsi đang hoạt động trong ít nhất một scfsi_band. các bước sau phải được làm:

a) ifqstep phải được thiết lập tương tự như lõi thứ nhất

b) Nếu nó là phiên bản đầu tiên, các hệ số tỷ lệ của băng tần hệ số tỷ lệ trong đó scfsi được kích hoạt phải được thực hiện trên từ lõi thứ nhất. Các giá trị phổ tương ứng phải được khuếch đại:

đây scalefac hoặc là scalefac_1 () hoặc là scalefac_s () là thích hợp,

c) Nếu nó không phải là phiên đầu tiên, khuếch đại phải được ngăn chặn cho các băng tần hệ số tỷ lệ trong đó scfsi được kích hoạt.

C.1.5.4.3.6  Điều kiện kết thúc quá trình lặp

Thông thường việc kết thúc xử lý các vòng lặp nếu không có hệ số tỷ lệ băng tần với nhiều hơn độ méo cho phép. Tuy nhiên điều này không phải lúc nào cũng có thể có được. Trong trường hợp này có điều kiện khác để kết thúc vòng lặp bên ngoài. Nếu:

a) Tất cả các hệ số tỷ lệ băng tần sẵn sàng để khuếch đại, hoặc

b) Khuếch đại của ít nhất một băng tần vượt quá giới hạn trên được xác định bởi các định dạng truyền của hệ số tỷ lệ. Giới hạn trên là một dãy 15 hệ số tỷ lệ cho các băng tần hệ số tỷ lệ từ 0 đến 10 và 7 cho hệ số tỷ lệ 11 đến 20. Trong trường hợp block_type == 2 và mixed_block_flag == 0, giới hạn trên là 15 cho hệ số tỷ lệ từ 0 đến 18. Trong trường hợp ck_typc == 2 và mixed_block_flag = = 1, giới hạn trên là 15 cho hệ số tỷ lệ từ 0 đến 17.

Giới hạn trên là 7 cho hệ số tỷ lệ khác.

Dừng xử lý vòng lặp, và bằng cách khôi phục lưu trữ một đầu ra hữu ích sacalefac_1 (sb) hoặc scalcfac_s (sb) là sẵn có. Để thực hiện với thời gian thực, có thể có một điều kiện thứ ba thêm vào để nó chấm dứt các vòng lặp trong trường hợp không có đủ thời gian tính toán.

C.1.5.4.4  Vòng lặp trong (kiểm soát tốc độ vòng lặp)

Bên trong vòng lặp thực hiện các lượng từ thực tế của dữ liệu miền tần số và chuẩn bị định dạng. Việc lựa chọn bảng, phân khu phạm vi big_values và việc lựa chọn kích thước bước lượng tử diễn ra ở đây.

C.1.5.4.4.1  Lượng tử hoá

Các lượng tử của vector hoàn chỉnh các giá trị phổ được thực hiện theo công thức:

C.1.5.4.4.2  Thử các giá trị tối đa đã được lượng tử hóa

Các giá trị tối đa đã được lượng tử hóa bị hạn chế. Giới hạn này được thiết lập để ràng buộc kích thước bảng nếu một bảng tra cứu thông tin được sử dụng để giải lượng tử các dòng tần số lượng tử. Giới hạn được đưa ra bởi các giá trị có thể có của các bộ nhận diện độ dài, "linbits", các giá trị gắn cờ với một mã-ESC. Do đó trước khi bất kỳ đếm bít nào đó được thực hiện các bước định cỡ bộ lượng tử hóa được tăng lên bởi:

qquant = qquant + 1

cho đến tối đa các giá trị lượng tử nằm trong phạm vi của bảng mã Huffman lớn nhất.

C.1.5.4.4.3  Tính toán chiều dài chạy các zeros

Các rzero chạy chiều dài của cặp hệ số phổ lượng tử hóa bằng không trên đầu trên của phổ được tính và được gọi là "rzero".

C.1.5.4.4.4  Tính toán chiều dài chạy các giá trị ít hoặc bằng một

Chiều dài chạy của quadrupels các hệ số phổ lượng tử hóa một hoặc không, sau khi cặp rzero các zeros, được tính toán và được gọi là “count1”.

C.1.5.4.4.5  Đếm các bít cần thiết để mã hóa các giá trị nhỏ hơn hoặc bằng một

Một từ mã Huffman được sử dụng để mã hóa một trong những quadrupels “count1”. Có hai cuốn sách mã Huffman khác nhau đang với các bảng mã chiều dài tương ứng (bảng A và bảng B tại mục B.7) số bít để mã hóa tất cả các quadrupels count1 được cho bởi:

bitsum_count1 = min (bitsum_table0, bitsum_table1)

Ở đây bảng count1_table0 được sử dụng để trỏ đến bảng A

count1_table1 được sử dụng để trỏ đến bảng B

Count1table_0 cũng như count1table_1 phải bao gồm số bít cần thiết để mã hóa các bít có dấu.

Những thông tin trong bảng được sử dụng được truyền đi bởi countltable_select, là "0" cho bảng A hoặc "1" cho bảng B. tương ứng.

C.1.5.4.4.6  Gọi chương trình con chia nhỏ (SUBDIVIDE)

Số lượng các cặp giá trị lượng tử hóa không được tính trong "count1" hoặc "rzero" được gọi là các giá trị lớn (bigvalues). Chia nhỏ băng tần hệ số tỷ lệ tương ứng với giá trị này thành ba nhóm. Nhóm cuối cùng, thường không đầy đủ, được tính như một nhóm hoàn chỉnh. Băng tần hệ số tỷ lệ ở các vùng đầu tiên và thứ hai chứa trong (region0_count + 1) (region 1_count + 1) tương ứng. Số lượng băng tần hệ số tỷ lệ trong khu vực thứ ba có thể được tính bằng các giá trị lớn (bigvalues). Chiến lược phân chia tùy thuộc vào việc thực hiện. Một trong rất đơn giản ví dụ là gán 1/3 của băng tần hệ số tỷ lệ đến nhóm đầu tiên và 1/4 đến khu vực cuối cùng.

Chia nhỏ trong trường hợp phân chia các khối được thực hiện tương tự nhưng chỉ có tiểu vùng. Region1_count được thiết lập là mặc định trong trường hợp này. Mặc định này là 8 trong trường hợp split_point = 0 và 9 trong trường hợp split_point = 1. Cả hai giá trị trỏ đến giá trị tần số tuyệt đối giống nhau.

C.1.5.4.4.7  Tính toán tập hợp mã cho mỗi tiểu vùng

Có 32 bảng mã Huffman khác nhau có sẵn để mã hóa các cặp các giá trị lượng tử hóa. Chúng khác nhau về giá trị tối đa có thể được mã hóa và trong thống kê tín hiệu mà chúng được tối ưu hóa. Chỉ có mã cho các giá trị <16 là ở trong bảng. Đối với giá trị >= 16 có hai bảng được cung cấp, trong đó giá trị lớn nhất 15 là ký tự thoát. Trong trường hợp này giá trị 15 được mã hóa trong một từ bổ sung sử dụng một mã PCM tuyến tính với chiều dài một từ gọi là linbits.

Một cách đơn giản để chọn một bảng là sử dụng tối đa các giá trị lượng tử hóa trong một tiểu vùng, các bảng có kích thước phổ tương tự được tối ưu hóa cho các thống kê tín hiệu khác nhau. Vì vậy bổ sung mã khuếch đại là có thể đạt được ví dụ bằng cách thử tất cả các bảng.

C.1.5.4.4.8  Đếm bít cần thiết để mã hoá các giá trị trong tiểu vùng

Số bít cần thiết để mã hóa các giá trị lượng tử của một tiểu vùng được cho bởi:

np (j): số lượng các cặp trong một tiểu vùng

fe (j): số lượng các giá trị lượng tử đầu tiên trong một tiểu vùng

bitz: bảng với chiều dài mã Huffman

s (...) hàm bước:

nếu x> = 0

s (x) = 1

nếu X <0

s (x) = 0

Lưu ý rằng các bảng chiều dài mã Huffman phải bao gồm số bít cần thiết để mã hóa các bít có dấu.

 

Hình C.9.a - Vòng lặp vòng lớp III

Hình C.9.b - Vòng lặp vòng ngoài lớp III

Hình C.9.c - Vòng lặp vòng trong lớp III

 

Phụ lục D

(Tham khảo)

Mô hình tâm thính học

D.1. Mô hình tâm thính học 1

Các mô hình tâm thính học phải được tính toán điều chỉnh theo các lớp tương ứng. Như ví dụ dưới đây là giá trị cho lớp I và lớp II. Mô hình được làm cho thích ứng với lớp III.

Không có sự khác biệt chính trong ứng dụng của mô hình tâm thính học 1 cho lớp I và II.

Lớp I: Một phân bổ bít mới được tính toán cho mỗi khối của 12 băng tần con hoặc 384 mẫu PCM đầu vào.

Lớp II: Một phân bổ bít mới được tính toán cho tổng ba khối của 36 mẫu băng tần con tương ứng với 3*384 (1152) mẫu PCM đầu vào.

Phân bổ bít của 12 băng tần con được tính toán trên tỷ số cơ bản của tín hiệu đến mặt nạ (signal-to- mask) của tất cả băng tần con. Cho nên, cấp độ tín hiệu ngưỡng mặt nạ lớn nhất và nhỏ nhất, nó là cần thiết cho mỗi băng tần con. Sau tính toán của một mô hình tâm thính học là ngưỡng mặt nạ nhỏ nhất nhận được từ FFT của tín hiệu đầu vào PCM.

FFT song song với giàn bộ lọc tần con cho việc thiếu độ chọn lọc phổ thu được ở các tần số thấp bởi giàn bộ lọc tần con. Kỹ thuật này cung cấp cả độ phân giải thời gian đủ cho mã hóa tín hiệu âm thanh và đủ cho một phổ quyết định cho tính toán ngưỡng mặt nạ. Tần số và mức độ độ méo có thể được tính toán.

Tính toán tỷ số của tín hiệu mặt nạ cơ bản được thực hiện theo các bước:

- Bước 1: Tính toán FFT cho thời gian của biến đổi tần số.

- Bước 2: Xác định mức áp suất âm thanh cho mỗi băng tần con.

- Bước 3: Xác định ngưỡng câm (ngưỡng xác thực).

- Bước 4: Tìm kiếm âm thanh (giống hình sin nhiều hơn) và không phải là âm thanh (giống tiếng ồn nhiều hơn) kết hợp thành tín hiệu âm thanh.

- Bước 5: Xác định mặt nạ, thu được duy nhất từ mặt nạ thích hợp.

- Bước 6: Tính toán ngưỡng mặt nạ riêng biệt.

- Bước 7: Xác định ngưỡng mặt nạ chung.

- Bước 8: Xác định ngưỡng mặt nạ tối thiểu trong mỗi băng tần con.

- Bước 9: Tính toán tỷ lệ tín hiệu mặt nạ cho mỗi băng tần con.

Các bước này sẽ được thảo luận thêm. Tần số lấy mẫu là 48 kHz được giả định, Đối với hai tần số lấy mẫu khác, tất cả các tần số được đề cập sẽ được điều chỉnh cho phù hợp.

Bước 1: Phân tích FFT

Ngưỡng mặt nạ được lấy từ ước lượng mật độ dày đặc của phổ được tính bằng 512 điểm FFT cho lớp I, hoặc 1024 điểm FFT cho lớp II. FFT được tính trực tiếp từ tín hiệu đầu vào PCM, được cửa sổ bằng cửa sổ Hann.

Đối với thời gian giữa thời gian phân bổ bít và các mẫu bảng tần tương ứng thì các mẫu PCM thêm vào FFT phải có độ trễ:

a) Độ trễ của bộ lọc phân vùng băng tần là 256 mẫu, tương ứng với 5,3 ms ở tốc độ lấy mẫu 48kHz. Một cửa sổ biến đổi 256 mẫu được yêu cầu để bù cho độ trễ trong bộ lọc phân vùng băng tần.

b) Cửa sổ Hann phải được trùng với các mẫu băng tần con của khung. Đối với lớp I số lượng này được thay đổi bằng một cửa sổ bổ sung thêm 64 mẫu. Đối với lớp II, cần phải có thêm một cửa sổ biến đổi trừ đi 64 mẫu.

Dữ liệu kỹ thuật của FFT:

 

Lớp I

Lớp II

• Tốc độ truyền tải

512 mẫu

1024 mẫu

Độ lớn cửa sổ nếu fs=48kHz

10,67 ms

21,3 ms

Độ lớn cửa sổ nếu fs=44,1kPlz

11,6 ms

23,2 ms

Độ lớn cửa sổ nếu fs=32kHz

16 ms

32 ms

• Dải tần số

Tần số lấy mẫu/ 512

Tần số lấy mẫu /1024

Cửa sổ Hann, h(i):

Công suất mật độ phổ X(k):

Trong đó s(l) là tín hiệu đầu vào.

Việc chuẩn hoá mức tham chiếu 96 dB SPL (mức ứng suất âm thanh) phải được thực hiện theo các giá trị lớn nhất tương ứng với 96 dB.

Bước 2: Xác định mức ứng suất âm thanh

Mức ứng suất âm thanh Lsb trong băng tần con n được tính bằng công thức sau:

X(k) trong băng tần con n.

Trong đó X(k) là mức ứng suất âm thanh của dải phổ với chỉ số k của FFT với biên độ lớn nhất trong dải tần số tương ứng với băng tần con n. Biểu thức scfmax(n) nằm trong lớp I là hệ số tỷ lệ, và ở lớp II tối đa có ba hệ số tỷ lệ của băng tần con n trong một khung. Thuật ngữ “-10dB” dùng để điều chỉnh sự chênh lệch giữa mức cao nhất và mức RMS. Mức áp suất âm thanh Lsb được tính cho mỗi băng tần con n.

Có thể lựa chọn phương pháp tính Lsb sau để thực hiện mã hoá tốt hơn, nhưng kỹ thuật này không được lựa chọn để thử nghiệm cho âm thanh chất lượng cao.

Lsb được tính bằng, công thức:

Với

Trong đó Xspl(n) là mức ứng suất thay thế tương ứng với băng tần con n.

Bước 3: Xem xét ngưỡng trong thành phần không phải là âm thanh

Ngưỡng trong không phải là âm thanh LTq(k), còn được gọi là ngưỡng tuyệt đối, có trong các bảng “ Tần suất, tỷ lệ quan trọng và ngưỡng tuyệt đối” (bảng D.1a, D.1b, D.1c, cho lớp I; bảng D.1d, D.1e, D.1f cho lớp II). Bảng này phụ thuộc vào tốc độ lấy mẫu của tín hiệu PCM đầu vào. Các giá trị có sẵn cho mỗi mẫu trong miền tần số nơi nghưỡng mặt nạ được tính toán. Một bù đắp tùy thuộc vào tỷ lệ bít tổng thể được sử dụng cho ngưỡng tuyệt đối. Độ lệch này là -12 dB cho tốc độ bít >=96 kbits/s và 0 dB đối với tốc độ bít <96 kbits/s cho mỗi kênh.

Bước 4: Tìm các thành phần âm và không phải là âm thanh

Độ âm của thành phần mặt nạ có ảnh hưởng đến ngưỡng mặt nạ. Vì lý do này nên cần phân biệt giữa các thành phần âm thanh và không phải là âm thanh. Để tính ngưỡng mặt nạ chung cần phải lấy được các thành phần âm và các thành phần không phải là âm thanh từ phổ FFT.

Bước này bắt đầu bằng việc xác định cực điểm cục bộ, sau đó trích các thành phần âm thanh (đường hình sin) và tính cường độ của các thành phần không phải là âm thanh trong băng thông của một băng tần tới hạn. Các ranh giới của các băng tần tới hạn được đưa ra trong bảng "Biên giới quan trọng" (bảng D.2a D.2b, D.2c cho lớp I, bảng D.2d, D.2e, D.2f cho lớp II).

Băng thông tới hạn quan trọng khác nhau với tần số trung tâm với băng thông chỉ vào khoảng 0,1 kHz ở tần số thấp và băng thông chỉ vào khoảng 4 kHz ở tần số cao. Nó được biết đến từ các thí nghiệm tâm thính học rằng tai có độ phân dải tần số tốt hơn ở vùng thấp hơn ở vùng tần số cao hơn. Để xác định xem giá trị tối đa bên trong có thể là một thành phân âm, một dải tần số df xung quanh giá trị bên trong tối đa được kiểm tra. Dải tần số df được cho bởi:

Tần số lấy mẫu: 32 kHz

Lớp I: df = 125 Hz

0 kHz < f <= 4,0 kHz

df = 187,5 Hz

4,0 kHz < f <= 8,0 kHz

df = 375 Hz

8,0 kHz < f <= 15,0 kHz

Lớp II: df = 62,5 Hz

0 kHz < f <= 3,0 kHz

df = 93,75 Hz

3,0 kHz < f <= 6,0 kHz

df = 187,5 Hz

6,0 kHz < f <= 12,0 kHz

df = 375 Hz

12,0 kHz < f <= 24,0 kHz

Tần số lấy mẫu: 44,1 kHz

Lớp I: df = 172,266 Hz

0 kHz < f <= 5,512 kHz

df = 281,25 Hz

5,512 kHz < f <= 11,024 kHz

df = 562,50 Hz

11,024 kHz < f <= 19,982 kHz

Lớp II: df = 86,133 Hz

0 kHz < f <= 2,756 kHz

df = 129,199 Hz

2,756 kHz < f <= 5,512 kHz

df = 258,398 Hz

5,512 kHz < f <= 11,024 kHz

df = 516,797 Hz

11,024 kHz < f <= 19,982 kHz

Tần số lấy mẫu: 48 kHz

Lớp I: df = 187,5 Hz

0 kHz < f <= 6,0 kHz

df = 281,25 Hz

6,0 kHz < f <= 12,0 kHz

df = 562,50 Hz

12,0 kHz < f <= 24,0 kHz

Lớp II: df = 93,750 Hz

0 kHz < f <= 3,0 kHz

df = 140,63 Hz

3,0 kHz < f <= 6,0 kHz

df = 281,25 Hz

6,0 kHz < f <= 12,0 kHz

df = 562,50 Hz

12,0 kHz < f <= 24,0 kHz

Để tạo ra các danh sách các dòng phổ X(k) có các dòng âm thanh hoặc không phải là âm thanh, ba thao tác sau được thực hiện:

a) Đánh dấu vị trí cực điểm

Một dòng phổ X (k) được gắn nhãn là tối đa bên trong nếu

X (k)> X(k - 1) và X(k) > = X(k + 1)

b) Liệt kê các thành phần âm thanh và tính mức ứng suất âm thanh

Một tối đa bên trong được đưa vào (danh sách các thành phần âm thanh nếu:

X(k)-X(k + j)> = 7dB,

trong đó j được chọn theo

 

Layer I:

 

j = -2, +2

cho 2 < k < 63

j = -3, -2, +2, +3

cho 63 <= k <127

j = -6 -2. +2,...+6

cho 127 <= k <=250

Layer II:

 

j = -2, +2

cho 2 < k < 63

j = -3, -2, +2, +3

cho 63 <= k <127

j = -6,..., -2, +2,...,+6

cho 127 <= k <=255

j = -12,..., -2, +2,...,+12

cho 255 <= k <=500

Nếu X(k) được tìm thấy là một thành phần âm, thì các tham số sau được liệt kê:

- Chỉ số k của dòng trải phổ.

- Mức ứng suất âm thanh ,đơn vị là DB

- Cờ âm thanh.

Tiếp theo tất cả dòng trải phổ trong dải tần số được kiểm tra được đặt là -∞dB .

c) Danh sách các thành phần không phải là âm thanh và tính toán công suất

Các thành phần không phải là âm thanh (tiếng ồn) được tính từ các dòng trải phổ còn lại. Để tính toán các thành phần âm thanh từ các dòng trải phổ X(k). các dải quan trọng z(k) cũng được xác định bằng cách sử dụng các bảng "Biên giới quan trọng" (bảng D.2a, D.2b.D.2c cho lớp I, các bảng D.2d.2.2) .2f cho lớp II). Trong lớp I, 23 băng tần tới hạn được sử dụng cho tốc độ lấy mẫu là 32 kHz. 24 băng tần tới hạn cho 44,1 kHz và 25 băng tần tới hạn được sử dụng cho 48 kHz. Trong lớp II, 24 băng tần tới hạn được sử dụng cho tốc độ lấy mẫu 32 kHz và 26 băng tần tới hạn được sử dụng cho tần số lấy mẫu 44,1 kHz và 48 kHz. Trong mỗi băng tần tới hạn, nguồn của các dòng trải phổ (duy trì sau khi các thành phần âm thanh đã trở về 0 (zero)) được tổng hợp để tạo ra mức ứng suất âm thanh của thành phần không phải là âm thanh Xmn(k) tương ứng với băng tần tới hạn đó.

Các thông số sau được liệt kê:

Chỉ số k của dòng trải phổ gần với trung bình hình học của băng tần tới hạn.

- Ứng suất âm thanh Xnm (k)

- Cờ thành phần không phải là âm thanh.

Bước 5: Tách các thành phần mặt nạ thành phần không phải là âm thanh và âm thanh

Lấy ra một phần mười là một thủ tục được sử dụng để giảm số lượng mặt nạ được xem xét để tính toán ngưỡng mặt nạ chung.

a) Âm thanh Xtm (k) hoặc các thành phần không phải âm thanh Xnm(k) được xem xét để tính ngưỡng mặt nạ chỉ khi:

Xtm(k) >= LTq(k) hoặc Xmn(k) >= LTq(k)

Trong biểu thức này, LTq(k) là ngưỡng tuyệt đối (hoặc ngưỡng yên lặng) tại tần số của chỉ số k. Các giá trị này được cho trong các bảng D.1a, D.1b, D.1c cho lớp I; các bảng D.1d, D.1e, D.1f cho Lớp II.

b) Tách hai hoặc nhiều thành phần âm thanh trong một khoảng cách nhỏ hơn 0,5 Bark: Giữ cho các thành phần có công suất cao nhất, và loại bỏ các thành phần nhỏ hơn từ danh sách các thành phần âm thanh. Đối với thao tác này, một cửa số trượt trong miền băng tần tới hạn được sử dụng với chiều rộng là 0,5 bark.

Trong phần sau, chỉ mục j được sử dụng để chỉ các thành phần mặt nạ âm thanh hoặc không phải là âm thanh có liên quan từ danh sách kết hợp đã bị xáo trộn.

Bước 6: Tính toán ngưỡng ngụy trang riêng lẻ

Trong số các mẫu tần số N/2 ban đầu, được lập chỉ mục bởi k. chỉ có một tập con của các mẫu, lập chỉ mục bởi i. được tính đến việc tính toán ngưỡng mặt nạ chung. Các mẫu được sử dụng được thể hiện trong các bảng D.1a, D.1b, D.1c cho lớp I; các bảng D.1d, D.1e, D.1f cho Lớp II.

Lớp 1:

Đối với các dòng tần số tương ứng với vùng tần số được bao phủ bởi sáu băng tần con không phải là lấy mẫu phụ. Đối với vùng tần số tương ứng với 6 băng tần con tiếp theo, mỗi dòng trải phổ thứ hai được xem xét. Cuối cùng, trong trường hợp tỷ lệ lấy mẫu 44,1 kHz và 48 kHz, ở vùng tần số tương ứng với các băng tần con còn lại, mỗi dải phổ thứ tư được tính là 20 kHz. Trong trường hợp tốc độ lấy mẫu 32 kHz, trong vùng tần số tương ứng với các băng tần con còn lại, mỗi 4 dải phổ được tính lên đến 15 kHz (xem bảng D.1a. D.1b, D.1c cho lớp I).

Lớp II:

Đối với các dòng tần số tương ứng với vùng tần số được bao bởi ba băng tần con đầu tiên không lấy mẫu phụ được sử dụng. Đối với vùng tần số được bao bởi ba băng tần con dưới mỗi dòng trải phổ thứ hai được xem xét. Đối với vùng tần số tương ứng với 6 băng tần con tiếp theo, mỗi dòng trải phổ thứ tư được xem xét. Cuối cùng, trong trường hợp tốc độ lấy mẫu 44,1 kHz và 48 kHz, trong các băng tần con còn lại cho mỗi dòng trải phổ thứ tám được tính là 20 kHz. Trong trường hợp tỷ lệ lấy mẫu 32 kHz, trong vùng tần số tương ứng với các băng tần con còn lại, mỗi dòng trải phổ thứ tám được tính lên đến 15 kHz. (Xem thêm bảng D.1d, D.1e, D.1f cho Lớp II).

Số mẫu, n. trong miền tần số lấy mẫu phụ thuộc vào tốc độ lấy mẫu và các lớp.

Tốc độ lấy mẫu 32 kHz:

n =108 cho lớp I

n = 132 cho lớp II

Tốc độ lấy mẫu 44,1 kHz:

n =106 cho lớp I

n = 130 cho lớp II

Tốc độ lấy mẫu 48 kHz:

n =102 cho lớp I

n = 126 cho lớp II

Mỗi thành phần âm thanh và không phải là âm thanh (tiếng ồn) được gán giá trị của chỉ số i tương ứng gần nhất với tần số của dòng trài phổ X(k) ban đầu. Chỉ số này tôi được đưa ra trong các bảng D.1a, D.1 b, D.1c cho lớp I; bảng D.1d, D.1e, D.1f cho Lớp II.

Các ngưỡng mặt lạ riêng của cả hai thành phần âm thanh và không phải là âm thanh (tiếng ồn) được cho bời biểu thức sau:

Trong công thức này, LTtmLTnm ghi lại các ngưỡng mặt lạ riêng ở tốc độ băng tần tới hạn z trong Bark của thành phần mặt nạ ở tốc độ băng tần tới hạn của mặt lạ Zm trong Bark. Các giá trị bằng dB có thể là dương hoặc âm. Thuật ngữ Xtm[ z(j)] là mức ứng suất âm thanh của thành phần mặt nạ với số chỉ mục j ở tốc độ băng tần tới hạn tương ứng z(j). Thuật ngữ av được gọi là chỉ số mặt nạ và vf chức năng mặt nạ của thành phần mặt nạ Xtm[ z(j)]. Chỉ số mặt nạ av là khác nhau đối với các lớp mặt nạ âm thanh và không phải là âm thanh (tiếng ồn) (avtm , và avnm).

Đối với mặt nạ âm thanh, nó được đưa ra

và cho mặt nạ không phải là âm thanh (tiếng ồn)

Chức năng mặt nạ vf của mặt nạ được đặc trưng bởi các độ dốc dưới và trên khác nhau, phụ thuộc vào khoảng cách trong Bark dz = z(i) - z(j) đến mặt nạ. Trong biểu thức này i là chỉ số của dòng trải phổ mà tại đó tính năng mặt nạ được tính toán và j của mặt nạ. Tốc độ băng tần tới hạn z(j) và z(i) có thể được tìm thấy trọng các bảng D.1a, D.1b, D.1c cho lớp I; các bảng D.1d, D.1e, D.1f cho lớp II. Chức năng che mặt nạ, giống như các mặt nạ âm thanh và không phải là âm thanh (tiếng ồn), được cho bởi:

Vf= 17* (dz + 1 ) - (0,4 * X[z(j)]+ 6) dB

cho -3<=dz < -1 Bark

Vf= (0,4 * X[z(j)]+ 6)* dz dB

cho -1 <=dz <0 Bark

Vf= -17* dz dB

cho -3b<=dz < -1 Bark

Vf= - (dz -1 ) *( 17-0,15* X[z(j)])-17 dB

cho 1<=dz < 8 Bark

Trong các biểu thức này X[z(j)] là mức ứng suất âm thanh của thành phần mặt lạ thử j (đơn vị tính là dB). Vì lý do phức tạp của quá trình thực hiện, mặt lạ không còn được xem xét (LTtm và LTnm được đặt thành - ∞dB ngoài phạm vi này ) nếu dz <-3 Bark, hay dz> = 8 Bark.

Bước 7: Tính ngưỡng mặt lạ chung LTg

Ngưỡng mặt lạ chung LTg(i) tại vị trí i tần số mẫu có nguồn gốc từ các sườn phía trên và dưới của mặt nạ ngưỡng riêng của mỗi âm thanh và mặt nạ không phải là âm thanh j và từ ngưỡng yên lặng LTg(i). Điều này cũng được đưa ra trong các bảng D.1a, D.1b, D.1c cho lớp I; các bảng D.1d, D.1e, D.1f cho lớp II. Ngưỡng mặt lạ chung được tìm thấy bằng cách tổng hợp các cường độ tương ứng với ngưỡng mặt lạ riêng và ngưỡng im lặng.

Tổng số lượng mặt nạ được đưa ra bởi m, và tổng số mặt nạ không phải là âm thanh được cho bởi n. Đối với một i cho phạm vi của j có thể được giảm xuống chỉ bao gồm các thành phần mặt nạ trong phạm vi -8 đến +3 Bark từ i. Bên ngoài phạm vi LTtmLTnm này là - ∞dB

Bước 8: Xác định ngưỡng mặt nạ tối thiểu

Mức mặt nạ tối thiểu LTmin(n) trong dải con n được xác định bởi biểu thức sau:

LTmin(n) = MIN[LTg(i)]dB

F(i) trong băng tần con n

trong đó f(i) là tần số thứ i của tần số lấy mẫu. Các f(i) được cho trong bảng D.1a. D.1b, D.1c cho lớp I; bảng D.1d, D.1c. D.1f cho lớp II. Một mức tối thiểu mask LTmin (n) được tính cho mỗi băng tần con.

Bước 9: Tính tỷ lệ tín hiệu - mặt nạ

Tỷ lệ tín hiệu - mặt nạ

SRMsb(n) = Lsb(n)-LTmin(n)dB

được tính cho băng tần con n.

Bảng D.1a - Tần số, tốc độ băng tần tới hạn và ngưỡng tuyệt đối

Bảng có giá trị đối với lớp I tại tần số lấy mẫu 32 kHz

Số chỉ mục i

Tần số [Hz]

Tốc độ Băng tần tới hạn [z]

Ngưỡng tuyệt đối [dB]

1

 

62,50

0,617

33,44

2

 

125,00

1,232

19,20

3

 

187,50

1,842

13,87

4

 

250,00

2,445

11,01

5

 

312,50

3,037

9,20

6

 

375,00

3,618

7,94

7

 

437,50

4,185

7,00

8

 

500,00

4,736

6,28

9

 

562,50

5,272

5,70

10

 

625,00

5,789

5,21

11

 

687,50

6,289

4,80

12

 

750,00

6,770

4,45

13

 

812,50

7,233

4,14

14

 

875,00

7,677

3,86

15

 

937,50

7,233

3,61

16

1

000,00

7,677

3,37

17

1

062,50

8,103

3,15

18

1

125,00

8,511

2,93

19

1

187,50

8,901

2,73

20

1

250,00

9,275

2,53

21

1

312,50

9,632

2,32

22

1

375,00

9,974

2,12

23

1

437,50

10,301

1,92

24

1

400,00

10,614

1,71

25

1

562,50

10,913

1,49

26

1

625,00

11,199

1,27

27

1

687,50

11,474

1,04

28

1

750,00

11,736

0,80

29

1

812,50

11,988

0,55

30

1

875,00

12,230

0,29

31

2

937,50

12,461

. 0,02

32

2

000,00

12,684

-0,25

33

2

062,50

12,898

-0,54

34

2

125,00

13,104

-0,83

35

2

187,50

13,302

-1,12

36

2

250,00

13,493

-1,43

37

2

312,50

13,678

-1,73

38

2

375,00

13,855

-2,04

39

2

437,50

14,027

-2,34

40

2

500,00

14,509

-2,64

41

2

562,50

14,660

-2,93

42

2

625,00

14,807

-3,22

43

2

687,50

14,949

-3,49

44

2

750,00

15,087

-3,74

45

2

812,50

15,221

-3,98

46

2

875,00

15,351

-4,20

47

2

937,50

15,478

-4,40

48

3

000,00

15,602

-4,57

49

3

125,00

15,841

-4,8

50

3

250,00

16,069

-4,96

51

3

375,00

16,287

-4,97

52

3

500,00

16,496

-4,86

53

3

625,00

16,697

-4,63

54

3

750,00

16,891

-4,29

55

3

875,00

17,078

-3,87

56

4

000,00

17,259

-3,39

57

4

125,00

17,434

-2,86

58

4

250,00

17,605

-2,31

59

4

375,00

17,770

-1,77

60

4

500,00

17,932

-1,24

61

4

625,00

18,089

-0,74

62

4

750,00

18,242

-0,29

63

4

875,00

18,392

0,12

64

5

000,00

18,539

0,48

65

5

125,00

18,682

0,79

66

5

250,00

18,823

1,06

67

5

375,00

18,960

1,29

68

5

500,00

19,095

1,49

69

5

625,00

19,226

1,66

70

5

750,00

19,356

1,81

71

5

875,00

19,482

1,95

72

6

000,00

19,606

2,08

73

6

250,00

19,847

2,33

74

6

500,00

20,079

2,59

75

6

750,00

20,300

2,86

76

7

000,00

20,513

3,17

77

7

250,00

20,717

3,51

78

7

500,00

20,912

3,89

79

7

750,00

21,098

4,31

80

8

000,00

21,275

4,79

81

8

250,00

21,445

5,31

82

8

500,00

21,606

5,88

83

8

750,00

21,760

6,5

84

9

000,00

21,906

7,19

85

9

250,00

22,046

7,93

86

9

500,00

22,178

8,75

87

9

750,00

22,304

9,63

88

10

000,00

22,424

10,58

89

10

250,00

22,538

11,60

90

10

500,00

22,646

12,71

91

10

750,00

22,749

13,90

92

11

000,00

22,847

15,18

93

11

250,00

22,941

16,54

94

11

500,00

23,030

18,01

95

11

750,00

23,114

19,57

96

12

000,00

23,195

21,23

97

12

250,00

23,272

23,01

98

12

500,00

23,345

24,90

99

12

750,00

23,415

26,90

100

13

000,00

23,482

29,03

101

13

250,00

23,546

, 31,28

102

13

500,00

23,607

33,67

103

13

750,00

23,666

36,19

104

14

000,00

23,722

38,86

105

14

250,00

23,775

41,67

106

14

500,00

23,827

44,63

107

14

750,00

23,876

47,76

108

15

000,00

23,923

51,04

Bảng D.1b - Tần số, tốc độ băng tần tới hạn và ngưỡng tuyệt đối

Bảng này có giá trị đối với lớp I tại tần số lấy mẫu 44,1 kHz

Số chỉ mục i

Tần số [Hz]

Tốc độ Băng tần tới hạn [z]

Ngưỡng tuyệt đối [dB]

1

 

86,13

0,850

25,87

2

 

172,27

1,694

14 85

3

 

258,40

2,525

10,72

4

 

344,53

3,337

8,50

5

 

430,66

4,124

7,10

6

 

516,80

4,882

6,11

7

 

602,93

5,608

5,37

8

 

689,06

6,301

4,79

9

 

775,20

6,959

4,32

10

 

861,33

7,581

3,92

11

 

947,46

8,169

3,57

12

1

033,59

8,723

3,25

13

1

119,73

9,244

2,95

14

1

205,86

9,734

,67

15

1

291,99

10,195

2,39

16

1

378,13

10,629

2,11

17

1

464,26

11,037

1,83

18

1

550,39

11,421

1,53

19

1

636,52

11,783

1,23

20

1

722,66

12,125

0,90

21

1

808,79

12 448

0,56

22

1

894,92

12,753

0,21

23

1

981,05

13 042

-0,17

24

2

067,19

13,317

-0,56

25

2

153,32

13 578

-0,96

26

2

239,45

13,826

-1,38

27

2

325,59

14 062

-1,79

28

2

411,72

14,288

-2,21

29

2

497,85

14,504

-2,63

30

2

583,98

14,711

-3,03

31

2

670,12

14,909

-3,41

32

2

756,25

15,100

-3,77

33

2

842,38

15,284

-4,09

34

3

928,525

15,460

-4,37

35

3

014,65

15,631

-4,60

36

3

100,78

15,796

-4,78

37

3

186,91

15,955

-4,91

38

3

273,05

16,110

-4,97

39

3

359,18

16,260

-4,98

40

3

445,31

16,406

-4,92

41

3

531,45

16,547

-4,81

42

3

617,58

16,687

-4,65

43

3

703,71

16,820

-4,43

44

3

789,84

16,951

-4,17

45

3

875,98

17 079

-3,87

46

4

962,11

17 205

-3,54

47

4

048,24

17,327

-3,19

48

4

134,38

17,447

-2,82

49

4

306,64

17,680

-2,06

50

4

478,91

17,905

-1,32

51

4

651,17

18,121

-0,64

52

4

823,44

18,331

-0,04

53

5

995,70

18,534

0,47

54

5

167,97

18,731

0,89

55

5

340,23

18,922

1,23

56

5

512,50

19,108

1,51

57

5

684,77

19,289

1,74

58

6

857,03

19,464

1,93

59

6

029,30

19,635

2,11

60

6

201,56

19,801

2,28

61

6

373,83

19,963

2,46

62

6

546,09

20,120

2,63

63

6

718,36

20,273

2,82

64

7

890,63

20,421

3,03

65

7

062,89

20,565

3,25

66

7

235,16

20,705

3,49

67

7

407,42

20,840

3,74

68

7

579,69

20,972

4,02

69

7

751,95

21,099

4,32

70

8

924,22

21,222

4,64

71

8

096,48

21,342

4,98

72

8

268,75

21,457

5,35

73

8

6613,28

21,5677

6,15

74

9

957,81

21,882

7,07

75

9

302,34

22,074

8,10

76

9

646,88

22,253

9,25

77

10

991,41

22,420

10,54

78

10

335,94

22,576

11,97

79

10

680,47

22,721

13,56

80

11

025,00

22,857

15,31

81

11

369,53

22,984

17,23

82

11

714,06

23,102

19,34

83

12

058,59

23,213

21,64

84

12

403,13

23,317

24,15

85

12

747,66

23,415

26,88

86

13

092,19

23,506

29,84

87

13

436,72

23,592

33,05

88

13

781,25

23,673

36,52

89

14

125,78

23,749

40,25

90

14

470,31

23,821

44,27

91

14

814,84

23,888

48,59

92

15

159,38

23,952

53,22

93

15

503,91

24,013

58,18

94

15

848,44

24,070

63,49

95

16

192,98

24,125

68,00

96

16

537,50

24,176

68,00

97

16

882,03

24,225

68,00

98

17

226,56

24,271

68,00

99

17

571,09

24,316

68,00

100

17

915,63

24,358

68,00

101

18

260,16

24,395

68,00

102

18

604,69

24,436

68,00

103

18

949,22

24,473

68,00

104

19

293,75

24,508

68,00

105

19

638,28

24,542

68,00

106

19

982,81

24,574

68,00

Bảng D.1c - Tần số, tốc độ băng tần tới hạn và ngưỡng tuyệt đối

Bảng này có giá trị đối với lớp I tại tần số lấy mẫu 48 kHz

S chỉ mục i

Tần số [Hz]

Tốc độ Băng tần tới hạn [z]

Ngưỡng tuyệt đối [dB]

1

 

93,75

0,925

21,17

2

 

187,50

1,842

13,87

3

 

281,25

2,742

10,01

4

 

375,00

3,618

7,94

5

 

468,75

4,463

6,62

6

 

562,50

5,272

5,70

7

 

656,25

60,41

5,00

8

 

750,00

6,770

4,45

9

 

743,75

7,457

4,00

10

 

937,50

8,103

3,61

11

 

031,25

8,708

3,26

12

1

125,00

9,275

2,93

13

1

218,75

9,805

.2,63

14

1

312,50

10,301

2,32

15

1

406,25

10,765

2,03

16

1

500,00

11,199

1,71

17

1

593,75

11,606

1,37

18

1

687,50

11,988

1,04

19

1

781,25

12,347

0,67

20

1

875,00

12,684

0,29

21

2

968,75

13,002

-0,11

22

2

062,50

13,302

-0,54

23

2

156,25

13,586

-0,97

24

2

250,00

13,855

-1,43

25

2

343,75

14,111

-1,88

26

2

437,50

14,354

-2,34

27

2

531,25

14,585

-2,79

28

2

625,00

14,807

-3,22

29

2

718,75

15,018

-3,62

30

2

812,50

15,221

-3,98

31

3

906,25

15,415

-4,30

32

3

000,00

15,602

-4,57

33

3

093,75

15,783

-477

34

3

187,50

15,956

-4,91

35

3

281,25

16,124

-4,98

36

3

375,00

16,287

-4,97

37

3

468,75

16,445

-4,90

38

3

562,50

16,598

-476

39

3

656,25

16,745

-4,55

40

3

750,00

16,891

-4,29

41

3

843,75

17,032

-3,99

42

3

937,50

17,169

-3,64

43

4

031,25

17,303

-3,26

44

4

125,00

17,434

-2,86

45

4

218,75

17,563

-2,45

46

4

312,50

17,688

-2,04

47

4

406,25

17,811

-1,63

48

4

500,00

17,932

-1,24

49

4

687,50

18,166

-0,51

50

4

875,00

18,392

0,12

51

5

062,50

18,611

0,64

52

5

250,00

18,823

1,06

53

5

437,50

19,028

1,39

54

5

625,00

19,226

1,66

55

5

812,50

19,419

1,88

56

6

000,00

19,606

2,08

57

6

187,50

19,788

2,27

58

6

375,00

19,964

2,46

59

6

562,50

20,135

2,65

60

6

750,00

20,300

2,86

61

6

937,50

20,461

3,09

62

7

125,00

20,616

3,33

63

7

312,50

20,766

3,60

64

7

500,00

20,912

3,89

65

7

687,50

21,052

4,20

66

7

875,00

21,188

4,54

67

8

062,50

21,318

4,91

68

8

250,00

21,445

5,31

69

8

437,50

21,567

5,73

70

8

625,00

21,684

6,18

71

8

812,50

21,797

6,67

72

8

000,00

21,906

7,19

73

9

375,00

22,113

8,33

74

9

750,00

22,304

9,63

75

9

125,00

22,482

11,08

76

10

500,00

22,646

12,71

77

10

875,00

22,799

14,53

78

10

250,00

22,941

16,54

79

11

625,00

23,072

18,77

80

11

000,00

23,195

21,23

81

12

375,00

23,309

23,94

82

12

750,00

23,415

26,90

83

12

125,00

23,515

30,14

84

13

500,00

23,607

33,67

85

13

875,00

23,694

37,51

86

13

250,00

23,775

41,67

87

14

625,00

23,852

36,67

88

14

000,00

13,923

51,04

89

15

375,00

23,991

56,29

90

15

750,00

24,054

61,94

91

16

125,00

24,114

68,00

92

16

500,00

24,171

68,00

93

16

875,00

24,224

68,00

94

17

250,00

24,275

68,00

95

17

625,00

24,322

68,00

96

18

000,00

24,368

68,00

97

18

375,00

24,411

68,00

98

18

750,00

24,452

68,00

99

19

125,00

24,491

68,00

100

19

500,00

24,528

68,00

101

19

875,00

24,564

68,00

102

20

250,00

24,597

68,00

Bảng D.1d - Tần số, tốc độ băng tần tới hạn và ngưỡng tuyệt đối

Bảng này có giá trị đối với lớp I tại tần số lấy mẫu 32 kHz

S chỉ mục i

Tần số [Hz]

Tốc độ Bảng tần tới hạn [z]

Ngưỡng tuyệt đối [dB]

1

 

31,25

0,309

58,23

2

 

62,50

0,617

33,44

3

 

93,75

0,925

24,17

4

 

125,00

1,232

19,20

5

 

156,25

1,538

16,05

6

 

187,50

1,842

13,87

7

 

218,75

2,145

12,26

8

 

250,00

2,445

11,01

9

 

281,25

2,742

10,01

10

 

312,50

3,037

9,250

11

 

343,75

3,329

8,52

12

 

375,00

3,618

7,94

13

 

406,25

3,903

7,44

14

 

437,50

4,185

7,00

15

 

468,75

4,463

6,62

16

 

500,00

4,736

6,28

17

 

531,25

5,006

5,97

18

 

562,50

5,272

5,70

19

 

593,75

5,533

5,44

20

 

625,00

5,789

5,21

21

 

656,25

6,041

5,00

-22

 

687,50

6,289

4,80

23

 

718,75

6,532

4,62

24

 

750,00

6,770

4,45

25

 

781,25

7,004

4,29

26

 

812,50

7,233

4,14

27

 

843,75

7,457

4,00

28

 

875,00

7,677

3,86

29

 

906,25

7 892

3,73

30

 

937,50

8,103

3,61

31

 

968,75

8,309

3,49

32

1

000,00

5,511

3,37

33

1

031,25

8,708

3,26

34

1

062,50

8,901

3,15

35

1

093,75

9,090

3,04

36

1

125,00

9,275

2,93

37

1

156,25

9,456

2,83

38

1

187,50

9,632

2,73

39

1

218,75

9,805

2,63

40

1

250,00

9,974

2,53

41

1

281,25

10,139

2,42

42

1

312,50

10,301

2,32

43

1

343,75

10,459

2,22

44

1

375,00

10,614

2,12

45

1

406,25

10,765

2,02

46

1

437,50

10,913

1,92

47

1

468,75

11,058

1,84

48

1

500,00

11,199

1,71

49

1

562,50

11,474

1,49

50

1

625,00

11,736

1,27

51

1

678,50

11,988

1,04

52

1

750,00

12,230

0,80

53

1

812,50

12,461

0,55

54

1

875,00

12,684

0,29

55

1

937,50

12,898

0,02

56

2

000,00

13,104

-0,25

57

2

062,50

13,302

-0,54

58

2

125,00

13,493

-0,83

59

2

187,50

13,678

-1,12

60

2

250,00

13,855

-1,43

61

2

312,50

14,027

-1,73

62

2

375,00

14,1493

-2,04

63

2

437,50

14,354

-2,34

64

2

500,00

14,509

-2,64

65

2

562,50

14,660

-2,93

66

2

625,00

14,807

-3,22

67

2

687,50

14,949

-3,49

68

2

750,00

15,087

-3,74

69

2

812,50

15,221

-3,98

70

2

875,00

15,351

-4,2

71

2

937,50

15,478

-4,40

72

3

000,00

15,602

-4,57

73

3

125,00

15,841

-4,82

74

3

250,00

16,069

-4,96

75

3

375,00

16,287

-4,97

76

3

500,00

16,496

-4,86

77

3

625,00

16,697

-4,63

78

3

750,00

16,891

-4,29

79

3

875,00

17,078

-3,87

80

4

000,00

17,259

-3,39

81

4

125,00

17,424

-2,86

82

4

250,00

17,605

-2,31

83

4

375,00

17,770

-1,77

84

4

500,00

17,932

-1,24

85

4

625,00

18,089

-0,74

86

4

750,00

18,242

-0,29

87

4

875,00

18,392

0,12

88

5

000,00

18,539

0,48

89

5

125,00

18,682

0,79

90

5

250,00

18,823

1,06

91

5

375,00

18,960

1,29

92

5

500,00

19,095

1,49

93

5

625,00

19,226

1,66

94

5

750,00

16,356

1,81

95

5

875,00

19,482

1,95

96

6

000,00

19,606

2,08

97

6

250,00

19,847

2,33

98

6

500,00

20,079

2,59

99

6

750,00

20,300

2,86

100

7

000,00

20,513

3,17

101

7

250,00

20,717

3,51

102

7

500,00

20,912

3,89

103

7

750,00

21,098

4,31

104

8

000,00

21,285

4,79

105

8

250,00

21,445

5,31

106

8

500,00

21,606

5,88

107

8

750,00

21,760

6,50

108

9

000,00

21,906

7,19

109

9

250,00

22,046

7,93

110

9

500,00

22,178

8,75

111

9

750,00

22,304

9,63

112

10

000,00

22,424

10,58

113

10

250,00

22,538

11,60

114

10

500,00

22,646

12,71

115

10

750,00

22,749

13,90

116

11

000,00

22,847

15,18

117

11

250,00

22,941

16,54

118

11

500,00

23,030

18,01

119

11

750,00

23,114

16,57

120

12

000,00

23,195

21,23

121

12

250,00

23,272

23,01

122

12

500,00

23,345

14,90

123

12

750,00

23,415

16,90

124

13

000,00

23,482

29,03

125

13

250,00

23,546

31,28

126

13

500,00

23,607

33,67

127

13

750,00

23,666

36,19

128

14

000,00

23,722

38,86

129

14

250,00

23,775

41,67

130

14

500,00

23,827

44,63

131

14

750,00

23,876

47,76

132

15

000,00

23,923,

51,04

Bảng D.1e - Tần số, tốc độ băng tần tới hạn và ngưỡng tuyệt đối

Bảng này có giá trị đối với lớp II tại tần số lấy mẫu 44,1 kHz

S chỉ mục i

Tần số [Hz]

Tốc độ Băng tần tới hạn [z]

Ngưỡng tuyệt đối [dB]

1

 

43,07

0,425

45,05

2

 

86,13

0,850

25,87

3

 

129,20

1,273

18,70

4

 

172,27

1,694

14,85

5

 

215,33

2,112

12,41

6

 

258,40

2,525

10,72

7

 

301,46

2,934

9,47

8

 

344,53

3,337

8,50

9

 

387,60

3,733

7,73

10

 

430,66

4,124

7,10

11

 

473,73

4,507

6,56

12

 

516,80

4,882

6,11

13

 

559,86

5,249

5,72

14

 

602,93

5,608

5,37

15

 

646,00

5,959

5,07

16

 

689,06

6,301

4,79

17

 

732,13

6,634

4,55

18

 

775,20

6,959

4,32

19

 

818,26

7,274

4,11

20

 

861,33

7,581

3,92

21

 

904,39

7,879

3,77

22

 

947,46

8,169

3,57

23

 

990,53

8,450

3,40

24

1

033,59

8,723

3,20

25

1

076,66

8,987

3,10

26

1

119,73

9,244

2,95

27

1

162,79

9,493

2,81

28

1

205,86

9,734

2,67

29

1

248,93

9,968

2,53

30

1

291,99

10,195

2,39

31

1

335,06

10,416

2,25

32

1

378,13

10,629

2,11

33

1

421,19

10,836

1,97

34

1

464,26

11,037

1,83

35

1

507,32

11,232

1,68

36

1

550,39

11,421

1,53

37

1

593,46

11,605

1,38

38

1

636,52

11,783

1,23

39

1

678,59

11,957

1,07

40

1

722,66

12,125

0,90

41

1

765,72

12,289

0,74

42

1

808,79

12,448

0,56

43

1

851;86

12,603

0,39-

44

1

894,92

12,753

0,21

45

1

937,99

12,900

0,02

46

2

981,05

13,042

-0,17

47

2

024,12

13,181

-0,36

48

2

067,19

13,317

-0,56

49

2

153,32

13,579

-0,96

50

2

239,45

13,826

-1,38

51

2

325,59

14,062

-1,79

52

2

411,72

14,288

-2,21

53

2

497,85

14,504

-2,63

54

2

583,98

14,711

-3,03

55

2

670,12

14,909

-3,41

56

2

756,25

15,100

-3,77

57

2

842,38

15,284

-4,09

58

2

928,52

15,460

-4,37

59

3

014,65

15,631

-4,60

60

3

100,78

15,796

-4,78

61

3

186,91

15,955

-4 91

62

3

273,05

16,110

-4,97

63

3

359,18

16,260

-4,98

64

3

445,31

16,406

-4,92

65

3

531,45

16,547

-4,81

66

3

617,59

16,685

-4,65

67

3

703,71

16,850

-4,43

68

3

789 84

16,951

-4,17

69

3

875,98

17,079

-3,87

70

3

962,11

17,205

-3,54

71

4

048,23

17,327

-3,19

72

4

134,38

17,447

-2,82

73

4

306,64

17,680

-2,06

74

4

478,91

17,905

-1,32

75

4

651,17

18,121

-0,64

76

4

823,44

18,331

-0,04

77

4

995,70

18,534

0,47

78

5

167,98

18,731

0,89

79

5

340,23

18,922

1,23

80

5

512,50

19,108

1,51

81

5

684,77

19,289

1,74

82

5

857,03

19,454

1,93

83

6

029,30

19,635

2,11

84

6

201,56

19,801

2,28

85

6

373,83

19,963

2,46

86

6

546,09

20,120

2,63

87

6

718,36

20,273

2,82

88

6

890,63

20,421

3,03

89

7

062,89

20,565

3,25

90

7

235,16

20,705

3,49

91

7

407,42

20,840

3,74

92

7

579,69

20,972

4,02

93

7

751,95

21,099

4,32

94

7

924,22

21,222

4,64

95

8

096,48

21,342

4,98

96

8

268,75

21,457

5,3…

97

8

613,28

21,677

6,15

98

8

957,81

21,882

7,07

99

9

302,34

22,074

8,10

100

9

646,88

22,253

9,25

101

9

991,41

22,420

10,54

102

10

335,94

22,576

11,97

103

10

680,47

22,721

13,56

104

11

025,00

22,857

15,31

105

11

369,53

22,984

17,23

106

11

714,06

23,102

19,34

107

12

058,59

23,213

21,64

108

12

403,13

23,317

24,15

109

12

747,66

23,415

26,88

110

13

092,19

23,506

29,84

111

13

436,82

23,592

33,05

112

13

781,25

23,673

36,52

113

14

125,78

23,749

40,25

114

14

470,31

23,821

44,27

115

14

814,84

23,888

48,59

116

15

159,38

23,952

53,22

117

15

503,91

24,013

58,18

118

15

848,44

24,070

63,49

119

16

192,97

24,125

68,00

120

16

537,50

24,176

68,00

121

16

5882,03

24,225

68,00

122

17

226,56

24,271

68,00

123

17

571,09

24,316

68,00

124

17

915,63

24,356

68,00

125

18

260,16

24,396

68,00

126

18

604,69

24,436

68,00

127

18

949,22

24,473

68,00

128

19

293,75

24,508

68,00

129

19

638,28

24,542

68 00

130

19

982,81

24,574

68,00

Bảng D.1f - Các tần số, tốc độ băng tần tới hạn và ngưỡng tuyệt đối

Bảng này có giá trị đối với lớp II tại tần số lấy mẫu 48 kHz

S chỉ mục
i

Tần số
[Hz]

Băng tần tới hạn
[z]

Ngưỡng tuyệt đối [dB]

1

 

46,88

0,463

42,10

2

 

93,75

0,925

24,17

3

 

140,63

1,385

17,47

4

 

187,50

1,842

13,87

5

 

234,38

2,295

11,60

6

 

281,25

2,742

10,01

7

 

328,13

3,184

8,84

8

 

375,00

3,618

7,94

9

 

421,88

4,045

7,22

10

 

468,75

4,463

6,62

11

 

515,63

4,872

6,12

12

 

562,50

5,272

5,70

13

 

609,38

5,661

5,33

14

 

656,25

6,041

5,00

15

 

703,13

6,411

4,71

16

 

750,00

6,770

4,45

17

 

796,88

7,119

4,21

18

 

843,75

7,457

4,00

19

 

890,63

7,785

3,79

20

 

937,50

8,103

3,61

21

 

984,38

8,410

3,43

22

1

031,35

8,708

3,26

23

1

078,13

8,996

3,09

24

1

125,00

9,275

2,93

25

1

171,88

9 544

2,78

26

1

218,75

9,805

2,63

27

1

265,63

10,057

2,47

28

1

312,50

10,301

2,32

29

1

359,38

10,537

2,17

30

1

406,25

10,765

2,02

31

1

453,13

10,986

1,86

32

1

500,00

11,199

1,71

33

1

546,88

11,406

1,55

34

1

593,75

11,606

1,38

35

1

640,63

11,800

1,21

36

1

687,50

11,988

1,04

37

1

734,38

12,170

0,86

38

1

781,25

12,347

0,67

39

1

828,13

12,518

0,49

40

1

875,00

12,684

0,29

41

1

921,88

12,845

0,09

42

1

968,75

13,002

-0,11

43

2

015,63

13,154

-0,32

44

2

062,50

13,302

-0,54

45

2

109,38

13,446

-0,75

46

2

156,25

13,586

-0,97

47

2

203,13

13,723

-1,20

48

2

250,00

13,855

-1,43

49

2

343,75

14,111

-1,88

50

2

437,50

14,354

-2,34

51

2

531,25

14,585

-2,79

52

2

625,00

14,807

-3,22

53

2

718,75

15,018

-3,62

54

2

812,50

15,221

-3,98

55

2

906,25

15,415

-4,30

56

3

nnn nn

15,302

-4,57

57

3

093J5

15,783

-4,77

58

3

187,50

15,956

-4,91

59

3

281,25

16,124

-4,98

60

3

375,00

16,287

-4,97

61

3

468,75

16,445

-4,90

62

3

562,50

16,598

-

63

3

656,25

16,746

-4,76

64

3

750,00

16,891

-4,55

65

3

843,75

17,032

-4,29

66

3

937,50

17,169

-3,99

67

4

031,25

17,303

-3,64

68

4

125,00

17,434

-3,26

69

4

218,75

17,563

-2,86

70

4

312,50

17,688

-2,45

71

4

406,25

17,811

-2,04

72

4

500,00

18,932

-1,63

73

4

687,50

18,166

-1,24

74

5

875,00

18,392

-0,51

75

5

062,50

18,611

0,12

76

5

250,00

18,823

0,64

77

5

437,50

19,0258

1,06

78

5

625,00

19,226

1,39

79

6

812,50

19,419

1,66

80

6

000,00

19,606

1,88

81

6

187,50

19,788

2,08

82

6

375,00

19,964

2,27

83

6

562,50

20,135

2,46

84

6

750,00

20,300

2,65

85

7

937,50

20,461

2,86

86

7

125,00

20,616

3,09

87

7

312,50

20,766

3,33

88

7

500,00

20,912

3,60

89

7

687,50

21,052

3,89

90

8

875,00

21,188

4,20

91

8

062,05

21,318

4,54

92

8

250,00

21,445

4,91

93

8

437,50

21,567

5,31

94

8

625,00

21,684

5,73

95

9

812,50

21,797

6,18

96

9

000,00

21,906

6,67

97

9

375,00

22,113

7,19

98

10

750,00

22,304

8,33

99

10

125,00

22,482

9,63

100

10

500,00

22,464

11,08

101

11

875,00

22,799

12,71

102

11

250,00

22,941

14,53

103

12

625,00

23,072

16,54

104

12

000,00

23,195

18,77

105

12

375,00

23,309

21,23

106

13

750,00

23,415

23,94

107

13

125,00

23,515

26,90

108

13

500,00

23,607

30,14

109

14

875,00

23,694

33,67

110

14

250,00

23,775

37,51

111

14

625,00

23,852

41,67

112

15

000,00

23,923

46,17

113

15

375,00

23,991

51,04

114

15

750,00

24,054

56,29

115

16

125,00

24,114

61,94

116

16

500,00

24,171

68,00

117

16

875,00

24,224

68,00

118

17

250,00

24,275

68,00

119

17

625,00

24,322

68,00

120

18

000,00

24,368

68,00

121

18

375,00

24,411

68,00

122

18

750,00

24,452

68,00

123

19

125,00

24,491

68,00

124

19

500,00

24,528

68,00

125

19

875,00

24,564

68,00

126

20

250,00

24,597

68,00

68,00

Bảng D.2a - Những giới hạn băng tần tới hạn

Bảng này có giá trị đối với lớp I tại tần số lấy mẫu 32 kHz

Các tần số dưới đây đại diện cho cho đầu cuối của mỗi băng tần tới hạn

Số TT

Thông số của bảng F& CB

Tần số [Hz]

Bark [z]

0

1

 

62,500

0,617

1

3

 

187,500

1,842

2

5

 

312,500

3,037

3

7

 

437,500

4,185

4

9

 

562,500

5,272

5

11

 

687,500

6,289

6

13

 

812,500

7,233

7

15

 

937,500

8,103

8

18

1

125,000

9,275

9

21

1

312,500

10,301

10

24

1

500,000

11,199

11

27

1

1687,500

11,988

12

32

2

000,000

13,104

13

37

2

312,500

14,027

14

44

2

750,000

15,087

15

50

3

250,000

16,069

16

55

3

875,000

17,078

17

61

4

625,000

18,089

18

68

5

500,000

19,095

19

74

6

500,000

20,079

20

79

7

750,000

21,098

21

85

9

250,000

22,046

22

94

11

500,000

23,030

23

108

15

000,000

23,923

Bảng D.2b - Những giới hạn băng tần tới hạn

Bảng này có giá trị đối với lớp I tại tần số lấy mẫu 44,1 kHz

Các tần số dưới đây đại diện cho cho đầu cuối của mỗi băng tần tới hạn

Số TT

Thông số của bảng F& CB

Tần số [Hz]

Bark [z]

0

1

 

86,133

0,850

1

2

 

172,266

1,694

2

3

 

258,398

2,525

3

5

 

430,664

4,124

4

6

 

516,797

4,882

5

8

 

689,063

6,301

6

9

 

775,195

6,959

7

11

 

947,461

8,169

8

13

1

119,727

9,244

9

15

1

291,992

10,195

10

17

1

464,258

11,037

11

20

1

722,656

12,125

12

23

1

981,055

13,042

13

27

2

325,586

14,062

14

32

2

756,250

15,100

15

37

3

186,914

15,955

16

45

3

875,977

17,079

17

50

4

478,906

17,904

18

55

5

340,234

18,922

19

61

6

373,828

19,963

20

68

7

579,688

20,971

21

75

9

302,344

22,074

22

81

11

369,531

22,984

23

93

15

503,906

24,013

24

106

19

982,813

24,573

Bảng D.2c - Những giới hạn băng tần tới hạn

Bảng này có giá trị đối với lớp I tại tần số lấy mẫu 48 kHz

Các tần số dưới đây đại diện cho cho đầu cuối của mỗi băng tần tới hạn

Số TT

Thông số của bảng F&CB

Tần số [Hz]

Bark [z]

0

1

 

93,750

0,925

1

2

 

187,500

1,842

2

3

 

281,250

2,742

3

4

 

375,000

3,618

4

5

 

468,750

4,463

5

6

 

562,500

5,272

6

7

 

656,250

6,041

7

9

 

843,750

7,457

8

10

 

937,500

8,103

9

12

1

125,000

9,275

10

14

1

312,500

10,301

11

16

1

500,000

11,199

12

19

1

781,250

12,347

13

21

1

968,750

13,002

14

25

2

343,750

14,111

15

29

2

718,750

15,018

16

35

3

281,250

16,124

17

41

3

843,750

17,032

18

49

4

687,500

18,166

19

53

5

437,500

19,028

20

58

6

375,000

19,964

21

65

7

687,500

21,052

22

73

9

375,000

22,113

23

79

11

625,000

23,072

24

89

15

375,000

23,991

25

102

20

250,000

24,597

Bảng D.2d - Những giới hạn băng tần tới hạn

Bảng này có giá trị đối với lớp II tại tần số lấy mẫu 32 kHz

Các tần số dưới đây đại diện cho cho đầu cuối của mỗi băng tần tới hạn

Số TT

Thông số của bảng F&CB

Tần số [Hz]

Bark [z]

0

1

 

31,250

0,309

1

3

 

93,750

0,925

2

6

 

187,5500

1,842

3

10

 

312,500

3,037

4

13

 

406,250

3,903

5

17

 

531,250

5,006

6

21

 

656,250

6,041

7

25

 

781,250

7,004

8

30

 

937,500

8,103

9

35

1

093,750

9,090

10

41

1

281,250

10,139

11

47

1

468,750

11,058

12

51

1

687,500

11,988

13

56

2

000,000

13,104

14

61

2

312,500

14,027

15

68

2

750,000

25,087

16

74

3

250,000

169,069

17

79

3

875,000

17,078

18

85

4

625,000

18,089

19

92

5

500,000

19,095

20

98

6

500,000

20,079

21

103

7

750,000

21,098

22

109

9

250,000

22,046

23

118

11

500,000

23,030

24

132

15

000,000

23,923

Bảng D.2e - Những giới hạn băng tần tới hạn

Bảng này có giá trị đối với lớp II tại tần số lấy mẫu 44,1 kHz

Các tần số dưới đây đại diện cho cho đầu cuối của mỗi băng tần tới hạn

Số TT

Thông số của bảng F&CB

Tần số [Hz]

Bark [z]

0

1

 

43,066

0,425

1

2

 

86,133

0,850

2

3

 

129,199

1,273

3

5

 

215,332

2,112

4

7

 

301,465

2,934

5

10

 

430,664

4,124

6

13

 

559,863

5,249

7

16

 

689,063

6,301

8

19

 

818,262

7,274

9

22

 

947,461

8,169

10

26

1

119,727

9,244

11

30

1

291,995

10,195

12

35

1

507,324

11,232

13

40

1

722,656

12,125

14

46

1

981,055

13,042

15

51

2

 325,586

14,062

16

56

2

 756,250

15,100

17

62

3

 273,047

16,11

18

69

3

 875,977

17,079

19

74

4

 478,906

17,904

20

79

5

 340,234

18,922

21

85

6

 373,828

19,963

22

92

7

 579,688

20,971

23

99

9

 302,344

22,074

24

105

11

 369,531

22,984

25

117

15

 503,906

24,013

26

130

19

982,813

24,573

Bảng D.2f - Những giới hạn băng tần tới hạn

Bảng dưới đây là giá trị cho tần số lấy mẫu của lớp II ở tần số 48 kHz

Các tần số dưới đây đại diện cho cho đầu cuối của mỗi băng tần tới hạn

Số TT

Thông số của bảng F& CB

Tần số [Hz]

Bark [z]

0

1

 

46,875

0,463

1

2

 

93,750

0,925

2

3

 

140,625

1,385

3

5

 

234,375

2,295

4

7

 

328,125

3,184

5

9

 

421,875

4,045

6

12

 

562,500

5,272

7

14

 

656,250

6,041

8

17

 

796,875

7,119

9

20

 

937,500

8,103

10

24

1

125,000

9,275

11

27

1

265,625

10,057

12

32

1

500,000

11,199

13

37

1

734,375

12,170

14

42

1

968,750

13,002

15

49

2

343,750

14,111

16

53

2

718,750

15,018

17

59

3

281,250

16,124

18

65

3

843,750

17,032

19

73

4

687,500

18,166

20

77

5

437,500

19,028

21

82

6

375,000

19,964

22

89

7

687,500

21,052

23

97

9

375,000

22,113

24

103

11

625,000

23,072

25

113

15

375,000

23,991

26

126

20

250,000

24,597

D.2.  Mô hình tâm thính học 2

D.2.1.  Giới thiệu

Mô hình tâm thính học 2 là một mô hình tâm thính học độc lập có thể điều chỉnh và thích nghi với bất kỳ lớp ISO / IEC 11172-3 nào. Phụ lục này trình bày mô hình tâm thính tổng thể 2 và cung cấp đầy đủ thông tin để thực hiện Mô hình 2 với Lớp I và II. Mô hình tâm thính học Lớp III dựa trên việc thực hiện này, với sự thích nghi được mô tả trong bộ mã hóa lớp III.

Quá trình tạo ngưỡng có ba đầu vào:

a) Độ dài thay đổi cho quá trình tính ngưỡng, iblen, trong đó 384 <iblen <640. iblen này phải không đổi trong bất kỳ ứng dụng cụ thể nào của quá trình tính ngưỡng. Nếu (như trong lớp III, nó là cần thiết để tính toán ngưỡng cho hai độ dài thay đổi khác nhau, hai quá trình, mỗi chiều dài chạy với chiều dài dịch chuyển cố định, sẽ là cần thiết. Trong trường hợp của người iblen nằm bên ngoài phạm vi 384 - 640 có thể cần thiết để tính các ngưỡng tâm thính với chiều dài cửa sổ khác nhau cũng như chiều dài thay đổi. Có hai cách để làm việc này:

- Sử dụng một chuyển đổi chiều dài khác nhau, và tính toán lại các hệ số khởi động cho mô hình, hoặc

- Sử dụng cùng một chiều dài biến đổi, nhưng một cửa sổ Hann ngắn hơn đáng kể, phù hợp với dữ liệu và vấn đề trong tầm tay.

Sự lựa chọn của những điều này là để cho việc thực hiện.

b) Các mẫu iblen mới nhất của tín hiệu, với các mẫu bị trễ (trong giàn bộ lọc hoặc tính toán mô hình tâm thính học) đẻ cửa sổ tính toán mô hình tâm thính học được tập trung vào cửa sổ thời gian của ứng dụng.

c) Tốc độ lấy mẫu. Là tập hợp các bảng cung cấp cho các tốc độ lấy mẫu tiêu chuẩn. Tốc độ lấy mẫu, giống như iblen, nhất thiết phải không đổi trong quá trình thực hiện quy trình tính ngưỡng.

Có một sản phẩm từ mô hình tâm thính học 2, một tập hợp các tỷ số tín hiệu- Mặt nạ, SMRn được điều chỉnh cho các lớp như mô tả dưới đây.

Trước khi chạy mô hình ban đầu, mảng được sử dụng để giữ cửa sổ dữ liệu FFT trước và các mảng được sử dụng để giữ r và f bằng 0 (zeroed) để cung cấp một điểm khởi đầu đã biết.

Trong lớp II. các tỷ lệ mặt nạ mô hình tâm thính học phải được tính toán hai lần trong mỗi khung mã hoá. Càng nghiêm ngặt của mỗi cặp tỉ số được sử dụng cho phân bổ bít như được mô tả trong mô hình mô phỏng phần mềm cho lớp I và II với mõ hình tâm thính học 2.

D.2.2  Nhận xét về ký hiệu

Trong suốt quá trình tính ngưỡng, ba chỉ số cho các giá trị dữ liệu được sử dụng. Đó là:

ώ - chỉ ra rằng tính toán được lập chỉ mục theo tần số trong miền dòng trải phổ FFT. Chỉ số 1 tương ứng với DC và chỉ số 513 tương ứng với đòng trải phổ ở tần số Nyquist.

b - chỉ ra rằng phép tính được lập chỉ mục trong miền phân vùng tính ngưỡng. Trong trường hợp tính toán bao gồm một tích chập hoặc tổng trong miền phân vùng tính ngưỡng, bb sẽ được sử dụng làm biến tổng. Số phân vùng bắt đầu từ 1.

n - chỉ ra rằng tính toán được lập chỉ mục trong miền phân bổ bộ mã hóa bít (hoặc codebook). Chỉ số 1 tương ứng với băng tần thấp nhất trong giàn bộ lọc băng tần con.

D.2.3  Chức năng "lan truyền"

Một số điểm trong mô tả sau đây tham khảo "chức năng lan truyền". Nó được tính theo phương pháp sau:

tmpx = 1,05 (j-i),

Trường hợp i là giá trị của Bark của tín hiệu được lan truyền, j là giá trị Bark của dải được lan truyền vào, và tmpx là một biến theo thời gian.

x = 8 minium((tmpx-0,5)2 - 2 (tmpx-0,5) .0)

Trong đó x là một biến theo thời gian, và hàm tối thiểu (a, b) là một hàm trả về tiêu cực của a hoặc b.

tmpy = 15.811389 + 7,5 {tmpx +0.474) -17,5 (1,0+ (tmpx + 0,474)2)0'5

Ở đây tmpy là một biến theo thời gian khác.

D.2.4  Các bước tính ngưỡng

Các bước sau đây cần thiết để tính SMRn được sử dụng trong bộ mã hóa.

a) Tái cấu trúc 1024 mẫu của tín hiệu đầu vào.

Các mẫu mới của iblen được cung cấp ở mọi cuộc gọi đến bộ tạo ngưỡng. Bộ tạo ngưỡng phải lưu trữ các mẫu 1024-iblen, và nối các mẫu đó để tái tạo chính xác 1024 mẫu liên tiếp của tín hiệu đầu vào, Si trong đó i trình diễn cho chỉ số,

1 <= i <= 1024 dòng đầu vào hiện tại.

b) Tính phổ phức tạp của tín hiệu đầu vào.

Đầu tiên. Si được cửa sổ hóa bởi cửa sổ Hann 1024,  Chú

ý rằng trong lớp III. một cửa sổ ngắn hơn có thể được sử dụng khi kích hoạt cửa sổ đang hoạt động, với trung tâm thích hợp của cửa sổ, theo mô tả bộ mã hoá lớp III.

Thứ hai, một tiêu chuẩn FFT chuyển tiếp của SWi được tính toán.

Thứ ba, biểu diễn cực của biến đổi được tính toán. rωfω, trình diễn cho độ lớn và các thành phần pha của ov chuyển đổi swi. tương ứng.

c) Tính toán một dự đoán r và f.

Một dự đoán cường độ âm lượng ^rώ và pha ^fώ được tính toán từ hai ngưỡng tính toán trước khối r và f.

rω = 2,0rω(t-1)-rω(t-2)

rω=2,0fω(t-1)-fω(t-2)

trong đó t trình diễn cho số khối hiện tại, t-1 lập chỉ mục dữ liệu của khối dữ liệu trước và t-2 lập chỉ mục dữ liệu từ khối tính toán ngưỡng trước đó

d) Tính biện pháp không thể dự đoán cω

cω phép đo không thể tiên đoán, là:

Bằng cách bỏ hiệu suất, (phép đo có thể được tính toán trên chỉ một phần dưới của (tần số nên được làm từ DC đến ít nhất 3 kHz và tốt hơn là đến 7kHz. Một giới hạn trên nhỏ hơn 5,5kHz có thể làm giảm đáng kể hiệu suất từ những kết quả đạt được trong quá trình kiểm tra chủ quan của thuật toán âm thanh Các giá trị cω trên giới hạn này nên được đặt là 0,3 Kết quả tốt nhất sẽ được tính bởi cω lên đến 20 kHz.

e) Tính toán năng lượng và tính không thể dự đoán trong phân vùng tính ngưỡng.

Năng lượng trong mỗi phân vùng,eb là :

và trọng số không thể dự đoán, Cb là :

Các phân vùng tính ngưỡng cung cấp độ phân giải xấp xỉ hoặc là một dòng FFT hoặc là 1/3 băng tần tới hạn, tùy theo cái nào rộng hơn. Ở tần số thấp, một dòng đơn lẻ FFT sẽ tạo thành một phân vùng tính toán, ở tần số cao, nhiều dòng sẽ được kết hợp thành một phân vùng tính toán. Một tập hợp các giá trị phân vùng được cung cấp cho mỗi ba tốc độ lấy mẫu trong bảng D.3 "Tính toán các bảng phân vùng". Các phần tử của bảng sẽ được sử dụng trong quá trình tính ngưỡng, có một vài yếu tố trong mỗi mục trong bảng:

1. Chỉ số của phân vùng tính toán, b.

2. Dòng tần số thấp nhất trong phân vùng ωlowb

3. Dòng tần số cao nhất trong phân vùng, ωhighb

4. Giá trị bark trung bình của phân vùng, bvalb

5. Một giới hạn dưới cho SNR trong phân vùng kiểm soát hiệu ứng bỏ mặt nạ lập thể minbvalb

6. Giá trị cho âm mật nạ tiếng ồn (tính bằng dB) cho phân vùng đó. TMNb.

Một giá trị lớn nhất của b, bmax, bằng với chỉ số lớn nhất, tồn tại cho mỗi tốc độ lấy mẫu.

f) Tích hợp năng lượng phản chia và tính không thể dự dự đoán được với chức năng lan truyền.

Bởi ctb là trọng số bằng năng lượng tín hiệu, nó phải được tái bình thường hóa thành cbb

Tại cùng một thời điểm, do bản chất không được bình thường hoá của chức năng lan truyền, ecbb nên năng lượng bình thường enb được tính toán.

enb = ecbb * rnormb

Hệ số bình thường, rnormb là:

g) Chuyển đổi cbb sang tbb, chỉ số âm sắc.

tbb = -0,229 - 0,43 loge (cbb)

Mỗi tbb được giới hạn trong phạm vi 0 < tbb <1.

h) Tính SNR yêu cầu trong mỗi phân vùng.

NMTb =5,5dB cho tất cả b. NMTb là giá trị cho âm mặt nạ tiếng ồn (tính bằng dB) cho phân vùng. Tín hiệu cần thiết đối với tỷ lệ tiếng ồn SNRb . Là:

SNRb = maximum(min valb, tbb * TMNb + (1 - tbbb) * NMTb)

Ở đây (a, b) cực đại là một hàm trả về giá trị âm thấp nhất của a hoặc b.

i) Tính tỷ số công suất.

Tỷ số công suất, bcb, là:

j) Tính ngưỡng thực tế nbb

nbb = enbbcb

k) Phát tán năng lượng ngưỡng qua các dòng FFT, nbω

l) Bao gồm ngưỡng tuyệt đối, mang lại ngưỡng năng lượng cuối cùng của khả năng nghe thrω

thrω = max (nbωabsthrω)

Các giá trị dB của absthr thể hiện trong bảng D.4. "Bảng ngưỡng tuyệt đối" tương đối so với mức sóng sin ± 1/2sb có trong FFT được sử dụng để tính ngưỡng. Giá trị dB phải được chuyển đổi thảnh miền năng lượng sau khi xem xét việc sử dụng quy chuẩn thực tế FFT.

m) Kiểm soát tiếng vọng trước

Đối với lớp III. kiểm soát tiếng vọng trước xảy ra vào điểm này. Kiểm soát thực tế được mô tả như là một phần của đặc tả kỹ thuật mã hóa lớp III. Bước này bị bỏ qua đối với Lớp I và II.

n) Tính các tỷ số tín hiệu-mặt nạ. SMR n .

Bảng D.5. 'bảng phân vùng bộ mã hóa lớp I và II' 'cho thấy:

1. Chỉ mục, n, của phân vùng bộ mã hóa.

2. Chỉ số dưới ωlown, của phân vùng bộ mã hóa.

3. Chỉ số trên ωhighn của phân vùng bộ mã hóa.

4. Chỉ số chiều rộng, widthn, trong đó widthn =1 cho một băng tần hệ số tỷ lệ mô hình tâm thính hẹp, và chiều rộng n = 0 cho một băng tần hệ số tỷ lệ mô hình tâm thính rộng. Một tỷ lệ hệ số tỷ lệ mô hình tâm thính hẹp là một trong những tỷ lệ hệ số tỷ lệmô hình tâm thính trong phạm vi có chiều rộng là nhỏ hơn xấp xỉ 1/3 băng tần tới hạn.

Năng lượng trong băng tần hệ số tỷ lệ. epartn. Là:

Sau đó, nếu (widthn =1), mức tiếng ồn trong dải tần số npartn được tính như sau:

Hoặc,

Ở đây, trong trường hợp này, (a ……… z) tối thiểu là một hàm trả về đối số nhỏ nhất của đối số a...z.

Các tỷ số được gửi đến bộ mã hóa, SMRn, được tính như sau:

Bảng D.3a - Bảng tính toán phân vùng

Bảng này có giá trị ở tốc độ lấy mẫu tần số 32 kHz

Chỉ số

ωlow

ωhigh

bval

minval

TMN

1

1

1

0,00

0,0

24,5

2

2

4

0,63

0,0

24,5

3

5

7

1,56

20,0

24,5

4

8

10

2,50

20,0

24,5

5

11

13

3,44

20,0

24,5

6

14

16

4,34

20,0

24,5

7

17

19

5,17

20,0

24,5

8

20

22

5,94

20,0

24,5

9

23

25

6,63

17,0

24,5

10

26

28

7,28

15,0

24,5

11

29

31

7,90

15,0

24,5

12

32

34

8,50

10,0

24,5

13

35

37

9,06

7,0

24,5

14

38

41

9,65

7,0

24,5

15

42

45

10,28

4,4

24,8

16

46

49

10,87

4,4

25,4

17

50

53

11,41

4,5

25,9

18

54

57

11,92

4,5

26,4

19

58

61

12,39

4,5

26,9

20

62

65

1283

4,5

27,3

21

66

70

13,29

4,5

27,8

22

71

75

13,78

4,5

28,3

23

76

81

14,227

4,5

28,8

24

82

87

14,76

4,5

259,3

25

88

93

15,22

4,5

29,7

26

94

99

15,63

4,5

30,1

27

100

106

16,06

4,5

30,6

28

107

113

16,47

4,5

31,0

29

114

120

16,86

4,5

31,4

30

121

129

17,25

4,5

31,8

31

130

138

17,65

4,5

32,2

32

139

148

17,05

4,5

32,5

33

149

159

18,42

4,5

32,9

34

160

170

18,81

4,5

33,3

35

171

183

19,18

4,5

33,7

36

184

196

19,55

4,5

34,1

37

197

210

19,93

4,5

34,4

38

211

225

20,29

4,5

34,8

39

226

240

20,65

4,5

35,2

40

241

258

21,02

4,5

35,5

41

259

279

21,38

4,5

35,9

42

280

300

21,74

4,5

36,2

43

301

326

22,10

4,5

36,6

44

327

354

22,44

4,5

36,9

45

355

382

22,79

4,5

37,3

46

383

420

23,14

4,5

37,6

47

421

458

23,49

4,5

38,0

48

459

496

23,83

4,5

38,3

49

497

513

24,07

4,5

38,6

Bảng D.3b - Bảng tính toán phân vùng

Bảng này có giá trị ở tốc độ lấy mẫu tần số 44,1 kHz

Chỉ số

ωlow

ωhigh

bval

minval

TMN

1

1

1

0,00

0,0

24,5

2

2

2

0,43

0,0

24,5

3

3

3

0,86

0,0

24,5

4

4

4

1,29

20,0

24,5

5

5

5

1,72

20,0

24,5

6

6

6

2,15

20,0

24,5

7

7

7

2,58

20,0

24,5

8

8

8

3,01

20,0

24,5

9

9

9

3,45

20,0

24,5

10

10

10

3,88

20,0

24,5

11

11

11

4,28

20,0

24,5

12

12

12

4,67

20,0

24,5

13

13

13

5,06

20,0

24,5

14

14

14

5,42

20,0

24,5

15

15

15

5,77

20,0

24,5

16

16

16

6,11

17,0

24,5

17

17

19

6,73

17,0

24,5

18

20

22

7,61

15,0

24,5

19

23

25

8,44

10,0

24,5

20

26

28

9,21

7,0

24,5

21

29

31

9,88

7,0

24,5

22

32

34

10,51

4,4

25,0

23

35

37

11,11

4,5

25,6

24

38

40

11,65

4,5

26,2

25

41

44

12,24

4,5

26,7

26

45

48

12,85

4,5

27,4

27

49

52

13,41

4,5

27,9

28

53

56

13,94

4,5

28,4

29

57

60

14,42

4,5

28,9

30

61

64

14,86

4,5

29,4

31

65

69

15,32

4,5

29,8

32

70

74

15,79

4,5

30,3

33.

75

80

16,26

4,5

30,8

34

81

86

16,73

4,5

31,2

35

87

93

17,19

4,5

31,7

36

94

100

17,62

4,5

32,1

37

101

108

18,05

4,5

32,5

38

109

116

18,45

4,5

32,9

39

117

124

18,83

4,5

33,3

40

125

134

19,21

4,5

33,7

41

135

144

19,60

4,5

34,1

42

145

155

20,00

4,5

34,5

43

156

166

20,38

4,5

34,9

44

167

177

20,74

4,5

35,2

45

178

192

21,12

4,5

35,6

46

193

207

21,48

4,5

36,0

47

208

222

21,84

4,5

36,3

48

223

243

22,20

4,5

36,7

49

244

264

22,56

4,5

37,1

50

265

286

22,91

4,5

37,4

51

287

314

23,26

4,5

37,8

52

315

342

23,60

4,5

38,1

53

343

371

23,95

4,5

38,4

54

372

401

24,30

4,5

38,8

55

402

431

24,65

4,5

39,1

56

432

469

25,00

4,5

39,5

57

470

513

25,33

3,5

39,8

Bảng D.3c - Bảng tính toán phân vùng

Bảng này có giá trị ở tốc độ lấy mẫu tần số 48 kHz

Chỉ số

ωlow

ωhigh

bval

minval

TMN

1

1

1

0,00

0,0

24,5

2

2

2

0,47

0,0

24,5

3

3

3

0,94

0,0

24,5

4

4

4

1,41

20,0

24,5

5

5

5

1,88

20,0

24,5

6

6

6

2,34

20,0

24,5

7

7

7

2,81

20,0

24,5

8

8

8

3,28

20,0

24,5

9

9

9

3,75

20,0

24,5

10

10

10

4,20

20,0

24,5

11

11

11

4,63

20,0

24,5

12

12

12

5,05

20,0

24,5

13

13

13

5,44

20,0

24,5

14

14

14

5,83

20,0

24,5

15

15

15

6,19

20,0

24,5

16

16

16

6,52

17,0

24,5

17

17

17

6,86

17,0

24,5

18

18

0

7,49

15,0

24,5

19

21

23

8,40

10,0

24,5

20

24

26

9,24

7,0

24,5

21

27

29

9,97

7,0

24,5

22

30

32

10,65

4,4

25,1

23

33

35

11,28

4,5

25,8

24

36

38

11,86

4,5

26,4

25

39

41

12,39

4,5

26,9

26

42

45

12,96

4,5

27,5

27

46

49

13,56

4,5

28,1

28

50

53

14,12

4,5

28,6

29

54

57

14,62

4,5

29,1

30

58

62

15,14

4,5

29,6

31

63

67

15,67

4,5

30,2

32

68

72

16,15

4,5

30,7

33

73

77

16,58

4,5

31,1

34

78

83

17,02

4,5

31,5

35

84

89

17,44

4,5

31,9

36

90

95

17,84

4,5

32,3

37

96

103

18,24

4,5

32,7

38

104

111

18,66

4,5

33,2

39

112

120

19,07

4,5

33,6

40

121

129

19,47

4,5

34,0

41

130

138

19,85

4,5

34,3

42

139

149

20,23

4,5

34,7

43

150

160

20,63

4,5

35,1

44

161

173

21,02

4,5

35,5

45

174

187

21,40

4,5

35,9

46

188

201

21,76

4,5

36,3

47

202

219

22,12

4,5

36,3

48

220

238

22,47

4,5

37,0

49

239

257

22,83

4,5

37,3

50

258

283

23,18

4,5

37,7

51

284

309

23,53

4,5

38,0

52

310

335

23,88

4,5

38,4

53

336

363

24,23

4,5

38,7

54

364

391

24,58

4,5

39,1

55

392

423

24,93

4,5

39,4

56

424

465

25,2:7

4,5

39,8

57

466

507

25,61

4,5

40,1

58

508

513

25,81

3,5

40,3

Bảng D.4a - Bảng ngưỡng tuyệt đối

Bảng này có giá trị tốc độ lấy mẫu tần số 32 kHz

Giá trị 0 dB thể hiện mức ngưỡng tuyệt đối 96 dB dưới mức năng lượng của một sóng sin biên độ ± 32 760

Ch số [line]

absthr

lower

higher

[dB]

1

1

58,23

2

2

33,44

3

3

24,17

4

4

19,2

5

5

16,05

6

6

13,87

7

7

12,26

8

8

11,01

9

9

10,01

10

10

9,2

11

11

8,52

12

12

7,94

13

13

7,44

14

14

7

15

15

6,62

16

16

6,28

17

17

597

18

18

5,7

19

19

5,44

20

20

5,21

21

21

5

22

22

4,8

23

23

4,62

24

24

4,45

25

25

4,29

26

26

4,14

27

27

4

28

28

3,86

29

29

3,73

30

30

3,61

31

31

3,49

32

32

3,37

33

33

326

34

34

3 15

35

35

3,04

36

36

2,93

37

37

2,83

38

38

2,73

39

39

2,63

40

40

2,53

41

41

2,42

42

42

2,32

43

43

2,22

44

44

2,12

45

45

2,02

46

46

1,92

47

47

1,81

48

48

1,71

49

50

1,49

51

52

1,27

53

54

1,04

55

56

0,8

57

57

0,55

59

60

0,29

61

62

0,02

63

64

-0,25

65

66

-0,54

67

68

-0,83

69

70

-1,12

71

72

-1,43

73

74

-1,73

75

76

-2,04

77

78

-2,34

79

80

-2,64

81

82

-2,93

83

84

-3,22

85

86

-3,49

87

88

-3,74

89

90

-3,98

91

92

-4,2

93

94

-4,4

95

96

-4,57

97

100

-4,82

101

104

-4,96

105

108

-4,97

109

112

-4,86

113

116

-4,63

117

120

-4,29

121

142

-3 87

125

128

-3,39

129

132

-3,86

13

136

-2,31

137

140

-1,77

141

144

-1,24

145

148

-0,74

149

152

-0,29

153

156

0,12

157

160

0,48

161

164

0,79

165

168

1 06

169

172

1,29

173

176

1,49

177

180

1,66

181

184

1,81

185

188

1,95

189

192

2,08

193

200

2,33

201

208

2,59

209

216

2,86

217

224

3,17

225

232

3,51

233

240

3,89

241

248

4,31

249

256

4 79

257

264

5,31

265

272

5,88

273

280

6,5

281

288

7,19

289

296

7,93

297

304

8,75

305

312

9,63

313

320

10,58

321

328

11,6

329

336

12,71

337

344

13,9

345

352

15,18

353

360

16,54

361

368

18,01

369

376

19,57

377

384

21,23

385

392

23,01

393

400

25,9

401

408-

26,9

409

416

29,03

417

424

31,28

425

432

33,67

433

440

36,19

441

448

38 86

449

456

41,67

457

464

44,63

465

472

47,76

473

480

51,03

Bảng D.4b - Bảng ngưỡng tuyệt đối

Bảng này có giá trị ở tốc độ lấy mẫu tần số 44,1 kHz

Giá trị 0 dB thể hiện mức ngưỡng tuyệt đối 96 dB dưới mức năng lượng của một sóng sin biên độ +-32 760

Chỉ số [line]

absthr

lower

higher

[dB]

1

1

45,05

2

2

25,87

3

3

18,7

4

4

14,85

5

5

12,41

6

6

10,72

7

7

9,47

8

8

8,5

9

9

7,73

10

10

7,1

11

11

6 56

12

12

6,11

13

13

5,72

14

14

5 37

15

15

5,07

16

16

4 79

17

17

4,55

18

18

4,32

19

19

4,11

20

20

3,92

21

21

374

22

22

3,57

23

23

3,4

24

24

3,25

25

25

3,1

26

26

2,94

27

27

2,81

28

28

2,67

29

29

2,53

30

30

2,39

31

31

2,25

32

32

2,11

33

33

1,97

34

34

1,83

35

35

1,68

36

36

1,53

37

37

1,38

38

38

1,23

39

39

1,07

40

40

0,9

41

41

0,74

42

42

0,56

43

43

0,39

44

44

0,21

45

45

0,02

46

46

-0,17

47

47

-0,36

48

48

-0,56

49

50

-0,96

51

52

-1,37

53

54

-1,79

55

56

-2,21

57

57

-2,63

59

60

-3,03

61

62

-3,41

63

64

-3,77

65

66

-4,09

67

68

-4,37

69

70

-4,6

71

72

-4,78

73

74

-4,91

75

76

-4,97

77

78

-4,98

79

80

-4,92

81

82

-4,81

83

84

-4,65

85

86

-4,43

87

88

-4,17

89

90

-3,87

91

92

-3,54

93

94

-3,19

95

96

-2,82

97

100

-2,06

101

104

-1,33

105

108

-0,64

109

112

-0,04

113

116

-0,47

117

120

-0,89

121

142

-1,23

125

128

-1,51

129

132

-1,74

13

136

-1,93

137

140

-2,11

141

144

-2,28

145

148

-2,45

149

152

-2,63

153

156

-2,82

157

160

-3,03

161

164

-3,25

165

168

-3,49

169

172

-3,74

173

176

-4,02

177

180

-4,32

181

184

-4,64

185

188

4,98

189

192

5,35

193

200

6,15

201

208

7,07

209

216

8,1

217

224

9,25

225

232

10,54

233

240

11,97

241

248

13,56

249

256

15,3

257

264

17,23

265

272

19,33

273

280

21,64

281

288

24,15

289

296

26,88

297

304

29,84

305

312

33,04

313

320

36,51

321

328

40,24

329

336

44,26

337

344

48,58

345

352

53,21

353

360

58,17

361

368

63,48

369

376

69,13

377

384

69,13

385

392

69,13

393

400

69,13

401

408

69,13

409

416

69,13

417

424

69,13

425

432

69,13

433

440

69,13

441

448

69,13

449

456

69,13

457

464

69,13

Bảng D.4c - Bảng ngưỡng tuyệt đối

Bảng này có giá trị ở tốc độ lấy mẫu tần số 44,1 kHz

Giá trị 0 dB thể hiện mức ngưỡng tuyệt đối 96 dB dưới mức năng lượng của một sóng sin biên độ+-32 760

Chỉ số [line]

absthr

lower

higher

[dB]

1

1

42,10

2

2

24,17

3

3

17,47

4

4

13,87

5

5

11,60

6

6

10,01

7

7

8,84

8

8

7,94

9

9

7,22

10

10

6,62

11

11

6,12

12

12

5,70

13

13

5,33

14

14

5,00

15

15

4,71

16

16

4,45

17

17

4,21

18

18

4,00

19

19

3,79

20

20

3,61

21

21

3,63

22

22

3,26

23

23

3,09

24

24

2,93

25

25

2,78

26

26

2,63

27

27

2,47

28

28

2,32

29

29

2,17

30

30

2,02

31

31

1,86

32

32

1,71

33

33

1,55

34

34

1,38

35

35

1,21

36

36

1,04

37

37

0,86

38

38

0,67

39

39

0,49

40

40

0,29

41

41

0,09

42

42

-0,11

43

43

-0,32

44

44

-0,54

45

45

-0,75

46

46

-0,97

47

47

-1,20

48

48

-1,43

49

50

-1,88

51

52

-2,34

53

54

-2,79

55

56

-3 22

57

58

-3,62

59

60

-3,98

61

62

-4,3

63

64

-4,57

65

66

-4,77

67

68

-4,91

69

70

-4,98

71

72

-4,97

73

74

-4,9

75

76

-4,76

77

78

-4,55

79

80

-4,29

81

82

-3,99

83

84

-3,64

85

86

-3,26

87

88

-2,86

89

90

-2,45

91

92

-2,04

93

94

-1,63

95

96

-1,24

97

100

-0,51

101

104

0,12

105

108

0,64

109

112

1,06

113

116

1,39

117

120

1,66

121

124

1,88

125

128

2,08

129

132

2,27

133

136

2,46

137

140

2,65

141

144

2,86

145

148

3,09

149

152

3,33

153

156

3,6

157

160

3,89

161

164

4,2

165

168

4,54

169

172

4,91

173

176

5,31

177

180

5,73

181

184

6,18

185

188

6,67

189

192

7,19

193

200

8,33

201

208

9,63

209

216

11,08

217

224

12,71

225

232

14,53

233

240

16,54

241

248

18,77

249

256

21,23

257

264

23,94

265

272

26,90

273

280

30,14

281

288

33,67

289

296

37,51

297

304

41,67

305

312

46,17

313

320

51,04

321

328

56,29

329

332

61,94

333

340

68,00

341

348

68,00

349

356

68,00

357

364

68,00

365

372

68,00

373

380

68,00

381

388

68,00

389

396

68,00

397

404

68,00

405

412

68,00

413

420

68,00

421

428

68,00

Bảng D.5 - Bảng mã hoá phân vùng lớp I và II

Chỉ số

ω lown+1

ω highn

Widthn

0

1

0

1

17

0

2

33

0

3

49

0

4

65

0

5

81

0

6

97

0

7

113

0

8

129

0

9

145

0

10

161

0

11

177

0

12

193

0

13

209

1

14

225

1

15

241

1

16

257

1

17

273

1

18

289

1

19

305

1

20

321

1

21

337

1

22

353

1

23

369

1

24

385

1

25

401

1

26

417

1

27

433

1

28

449

1

29

465

1

30

481

1

31

497

1

32

513

1

 

Phụ lục E

(Tham khảo)

Độ nhạy bít với lỗi

E.1  Tổng quan

Phần phụ lục chỉ ra độ nhạy của từng bít riêng biệt nếu ứng dụng lỗi cụ thể để bảo vệ là cần thiết. Độ nhạy của từng bít được gán với các giá trị từ 0 đến 5, chỉ ra mức độ xuống thấp bởi một trong những lỗi riêng biệt sau:

Phụ lục này chỉ ra độ nhạy của các bít riêng biệt đối với các lỗi ngẫu nhiên nếu ứng dụng lỗi cụ thể để bảo vệ là cần thiết. Độ nhạy của từng bít được gán với các giá trị từ 0 đến 5, cho thấy mức độ suy giảm từ một lỗi bị cô lập:

5  kinh khủng

4  rất khó chịu

3  khó chịu

2  nghe được

1  có thể nghe thấy

0  không nghe được

Các giá trị không phải là kết quả của phép đo chính xác, thay vì dựa vào mức độ nhận biết của bộ mã hoá-giải mã. Chúng giả định là không sử dụng lược đồ phát hiện lỗi.

Đối với tất cả các lớp, thông tin tiêu đề và kiểm tra lỗi được định nghĩa trong 2.3.1.3 và 2.4.1.4 được xem là có độ nhạy cao nhất.

E.2 Lớp I và II

Tham số

Bit

Độ nhạy

Phân phối bít

Tất các bit

5

Hệ số tỷ lệ chọn thông tin

Tất các bit

5

Hệ số tỷ lệ

5 (msb)

4

 

4

4

 

3

4

 

2

3

 

1

2

 

0 (Isb)

1

Các mẫu băng tần con (*)

8-16 (msb)

3

 

5-7

2

 

3-4

1

 

(Isb) 0-2

0

(*) theo phân phối bit

E.3 Lớp III

Tham số

# Bit

Độ nhạy

Scfsi

Tất các bit

5

Part2_3_length

Tất các bit

4

Big_values

Tất các bit

3

Global_gain

Tất các bit

5

Scalefac_compress

Tất các bit

5

Window_switching_flag

0

5

Block_type

Tất các bit

4

Mixed_block_flag

0

4

Table_select

Tất các bit

5

Region0_count

Tất các bít

3

Region1_count

Tất các bit

3

Preflag

0

2

Scalefac_scale

0

2

Count1table_select

0

3

Subblock_gain

2 (msb)

4

 

1

3

 

0 (Isb)

2

Scale_fac(**)

3 (msb)

3(2)

 

2

3(2)

 

1

2(1)

 

0 (Isb)

2(1)

Huffmancodebits()(***)

0...n-1

3-0

(**) chiều dài hệ số tỷ lệ phụ thuộc vào scalefac_compress.

Các giá trị có độ nhạy bít tham chiếu đến giá trị 1 scalefac_scale (Nếu giá trị 0 nằm trong dấu ngoặc đơn).

(***) Nếu n là số bít cho mã hóa Huffinan trong một khối thì độ nhạy bít giảm tuyến tính từ 3 xuống 0 khi số bít thay đổi từ 0 đến n (Từ tần số thấp đến tần số cao).

CHÚ THÍCH:

Sắp xếp lại các giá trị mã hóa Huffman:

Để có được hiệu suất lỗi rõ ràng tốt hơn cho tần số quét thấp của phổ các giá trị được mã hóa Huffman có thể được truyền không theo thứ tự hợp lý của chúng, nhưng theo cách thức xen kẽ nhau.

Nếu max_hlen là độ dài tối đa của một từ mã Huffman trên các bảng được sử dụng để mã hoá khối cụ thể và n là số bít được sử dụng cho dữ liệu mã hóa Huffman trong khối (không phải khung), sau đó int (n/max hlen) được lấp đầy với các từ mặ đầu tiên, bắt đầu từ tần số thấp. Các từ mã còn lại được điền vào vị trí còn lại, sắp xếp lại từ tần số thấp đến cao.

Sau bít xen kẽ, độ nhạy bít của bít k + i * int (n/maxhlen) giảm tuyến tính từ 3 xuống 0 vì k thay đổi từ 0 đến int (n/max_hlen) -1 trong đó i = 0,…., max hlen -7, và n là số lượng bít của mã hóa Huffman trong một khối.

Đây là cách thực hiện được đề nghị đối với dữ liệu Lớp III cho tất cả các kênh, ở đó có nhiều lỗi là rất quan trọng.

 

Phụ lục F

(Tham khảo)

Giấu lỗi

Một tính năng tùy chọn của mã hóa dòng bít là từ mã CRC cung cấp một vài phát hiện lỗi tới bộ giải mã; Khoảng cách Hamming của mã phát hiện lỗi này là d = 4, cho phép phát hiện tối đa 3 lỗi đơn bít hoặc để phát hiện một cụm lỗi có chiều dài lên đến 16 bit. Số lượng và vị trí của các bít được bảo vệ trong một khung âm thanh mã hoá thường phụ thuộc vào lớp, chế độ, tốc độ dữ liệu, và tần số lấy mẫu.

Điều này có thể được sử dụng để kiểm soát một thủ thuật giấu lỗi nhằm tránh những suy giảm nghiêm trọng của tín hiệu được dựng lại do lỗi trong các thông tin nhạy cảm nhất.

Một số kỹ thuật cơ bản có thể được sử dụng để giấu lỗi, ví dụ như thay thế thông tin, hoặc tắt tiếng. Một kỹ thuật thay thế đơn giản bao gồm, khi một khung được tìm thấy, thay thế nó bằng một cái cho trước (nếu không có lỗi).

 

Phụ lục G

(Tham khảo)

Mã hoá phối kết âm thanh nổi

G.1.  Mã hoá cường độ âm thanh nổi cho lớp I, II

Một phương pháp mã hóa âm thanh nổi được sử dụng trong lớp I và II là mã hóa cường độ âm thanh nổi. Mã hóa âm thanh cường độ cao có thể được sử dụng để tăng chất lượng âm thanh và/hoặc giảm tốc độ bít cho âm thanh nổi. Độ khuếch đại tốc độ bít đặc trưng là khoảng 10 đến 30 kbits/s. Bộ giả mã bổ sung có độ phức tạp không đáng kể, độ phức tạp của bộ mã hóa tăng lên không đáng kể. Độ trễ của bộ giải mã hóa và giả mã không bị ảnh hưởng.

Kết quả tâm thính chỉ ra ở tần số cao (khoảng trên 2 kHz) vị trí của hình ảnh lập thể trong một băng tần tới hạn được xác định bởi đường bao theo thời gian và không phải bởi cấu trúc độ nét theo thời gian của tín hiệu âm thanh. Ý tưởng cơ bản về mã hóa cường độ lập thể đối với một số băng tần con. thay vì truyền tín hiệu tuần tự các mẫu băng tần con, chỉ có tín hiệu tổng hợp được truyền đi, nhưng với các hệ số tỷ lệ cho cả kênh trái và phải, do đó giữ được hình ảnh âm thanh nổi.

Các lưu đồ của một bộ mã hóa và bộ giải mã lập thể, bao gồm chế độ cường độ lập thể, được cho thấy trong hình G.1. “lưu đồ mã hóa lập thể chung" và hình G.2 "lưu đồ giải mã lập thể chung". Thứ nhất, một ước lượng tốc độ bít được thực hiện yêu cầu cho cả hai kênh trái và phải. Nếu tốc độ bít yêu cầu vượt quá tôc độ bít có thể, thì tốc độ bít yêu cầu có thể được giảm bằng cách đặt một số băng tần con vào chế độ intensity_stereo. Tùy thuộc vào tốc độ bít cần thiết, các băng tần con.

16 đến 31

12 đến 31

8 đến 31, hoặc

4 đến 31

có thể thiết lập chế độ intensity_stereo. Đối với việc định lượng các băng tần con kết hợp như vậy, mức phân bổ bít cao hơn cho kênh trái và phải được sử dụng.

Các tín hiệu băng tần con bên trái và bên phải của các băng tần con kết hợp chế độ lập thể được thêm vào. Các tín hiệu băng tần con mới này được chia tỷ lệ theo cách thông thường, nhưng hệ số tỷ lệ ban đầu được xác định của các tín hiệu băng tần con bên trái và bên phải được truyền theo cú pháp dòng bít. Lượng tử các mẫu băng tần con chung, mã hóa các mẫu phổ biến, và mã hóa phân bổ bít thông thường được thực hiện theo cách tương tự như trong mã hóa độc lập.

G.2.  MS_Stereo và mã hoá cường độ âm thanh nổi cho lớp III

Trong lớp III có thể kết hợp giữa chế độ ms_stereo và chế độ intensity_stereo.

a) Chuyển đổi MS_stereo

Chế độ MS_stereo được bật lên nếu ở chế độ joint_stereo:

b) Quá trình MS_stereo

- Ma trận MS

Trong chế độ MS_Stereo các giá trị bình thường giữa/rìa kênh Mi/Si được truyền đi thay vì giá trị kênh trái/phải Li/Si:

- Giới hạn của băng thông kênh Si

Tất cả các giá trị Si trên hệ số băng tần cao nhất được đặt là 0

- Dải kênh hẹp Si

Trên mỗi hệ số tỷ lệ băng tần sb, tất cả các cặp có giá trị nhỏ (Si,Si+1) được đặt là 0

if (Si 2 + Si+12) < Ssb * (Li2 + Li+12 + Ri2 + Ri+12) {

                       Si = 0; Si+1 = 0;

}

Các hệ số ngưỡng kênh khác nhau sau đây áp dụng cho các hệ số tỷ lệ băng tần cho kiểu khối !=2 (chuyển đổi MDCT dài):

Sb

0

1

2

3

4

5

6

7

8

9

 

Ssb

0,0

0,0

0,0

0,0

0,0

0,10

0,10

0,10

0,10

0,10

 

 

Sb

10

11

12

13

14

15

16

17

18

19

20

Ssb

0,10

0,20

0,30

0,40

0,50

0,60

0,70

0,80

0,90

1,00

1,50

c) Xử lý cường độ âm thanh

- Tính toán vị trí cường độ âm thanh

Đối với mỗi hệ số băng tần con sb được mã hoá theo cường độ âm thanh, được thực hiện theo các bước sau:

- Li = Li + Ri cho tất cả các chỉ số i trong hệ số băng tần con sb thực tế

- Ri = 0 cho tất cả các chỉ số i trong thực tế hệ số băng tần con sb

- Vị trí cường độ âm thanh is_possb được truyền đi thay vì hệ số tỷ lệ của kênh phải (luôn luôn là 3 bít, vị trí cường độ âm thanh 0 ... 6,7 = cường độ âm thanh không hợp lệ )

Trong đó L_Encrgysb/R_Encrgysb biểu thị năng lượng tín hiệu của kênh Trái/Phải trong hệ số tỷ lệ băng tần thực tế và Li/Ri là giá trị chuyển đổi

Các hệ số tỷ lệ băng tần của kênh phải/khác chỉ chứa số 0 sau khi mã hóa không thuộc phần cường độ mã hóa nên được gửi đi với thang hệ số 7 đề ngăn việc giải mã cường độ âm thanh.

Hình G.1 - Lưu đồ mã hóa âm thanh nổi

Hình G.2 - Lưu đồ giải mã âm thanh nổi

 

Phụ lục H

(Tham khảo)

Danh sách chủ sở hữu bằng sáng chế

Một số thông tin thêm có liên quan đến tiêu chuẩn 11172:

I-10148 Torino

 

Italy

AT&T

 

32 Avenue of the Americas

CompuSonics Corporation

New York

PO Box 61017

NY 10013-2412

Palo Alto

USA

CA 94306

 

USA

Aware

 

1 Memorial Drive

Daimler Benz AG

Cambridge

PO Box 800 230

02142 Massachusetts

Epplestrasse 225

USA

D-7000 Stuttgart 80

 

Germany

Bellcore

 

290 W Mount Pleasant Avenue

Dornier Gmbh

Livingston

An der Bundesstrasse 31

NJ 07039

D-7990 Friedrichshafenl

USA

Germany

The Bristish Broadcasting Corporation

Fraunhofer Gesselschaft zur Foerdening dcr

Broadcasting House

Angerwandten Forschung e.V

London

Leonrodstrasse 54

W1A 1AA

8000 Muenchen 19

United Kingdom

Germany

 

 

Bristish Telecommunication pic

Hitachi Ltd

Intellectual Property Unit

6 Kanda-Surugadai 4 chome

13th Floor

Chiyoda-ku

151 Gower street

Tokyo 101

London

Japan

WC1E 6BA

 

United Kingdom

Institut for Rundfunktechnik Gmbh

CCETT

FlorianmaiihlstraBe 60

4 Rue du Clos-Courtel

8000 Miinchen 45

BP 59

Germany

F-35512

 

Cesson-Sevigne Cdex

International Business Machines

France

Corporation

 

Armonk

CNET

New York 10504

38-40 Rue du General Leclere

USA

F-92131 Issy-les-Moulineaux

 

France

KDD Corporation

 

2-3-2 Nishishinjuku

Compression Labs, Incorporated

Shinjuku-ku

2860 Junction Avenue

Tokyo

San Jose

Japan

CA 95134

 

USA

Licentia Patent-Verwaltungs-Gmbh

 

Theodor-Stem-Kai &

CSELT

D-6000 Frankfurt 70

Via G Reiss Romoti 274

Germany

 

Tokyo 141

Massachusetts Institute of Technology 20 Ames street

Japan

Cambridge

Symbionics

Massachusetts 02139

St John’s Innovation Centre

USA

Cowley Road

Cambridge

Matsushita Electric Industial Co.Ltd

CB4 4WS

1006 Oaza-Kadoma

Kadoma

United Kingdom

Osaka 571

Telefunken Fernseh und Rundfunk GmbH

Japan

Gottinger Chaussee

D-3000 Hannover 91

Mitsubishi Electric Corporation

2-3 Marunouchi

Germany

2-Chome

Thomson Consumer Electronics

Chiyoda-Ku

9, Place des Vosges

Tokyo

La Defense 5

100 Japan

92400 Courbevoie

France

NEC Corporation

7-1 Shiba 5-Chome

Toppan Printing Co, Ltd

Minato-ku

1-5-1 Taito

Tokyo

Taito-ku

Japan

Tokyo 110

Japan

Nippon Hoso Kyokai

2-2-1 Jin-nan

Toshiba Corporation

Shibuya-ku

1-1 Shibaru 1-Chome

Tokyo 150-01

Minato-ku

Japan

Tokyo 105

Japan

Philips Electronics NV

Groenewoudseweg 1

Victor Company of Japan Ltd

5621 BA Eindhoven

12 Moriya-cho 3 chome

The Netherlands

Kannagawa-ku

Yokohama

Pioneer Electronic Corporation

Kanagawa 221

4-1 Meguro 1-Chome

Meguro-ku

Tokyo 153

Japan

Japan

Ricoh Co, Ltd

1-3-6 Nakamagome

Ohta-ku

 

Tokyo 143

Japan

 

Schawartz Engineering & Design

15 Buckland Court

San Carlos, CA 94070

USA

 

Sony Corporation

6-7-35 Kitashinagawa

Shinagawa-ku

 

 

Thư mục tài liệu tham khảo

[1]  ISO/IEC 11172-3:1993 Information technology -- Coding of moving pictures and associated audio for digital storage media at up to about 1,5 Mbrt/s - Part 3: Audio (Công nghệ thông tin - Mã hóa hình ảnh động và âm thanh kết hợp cho phương tiện lưu trữ số lên tới 1,5 Mbps - Phần 3: Âm thanh).

[2]   QCVN 64: 2012/BTTTT: Quy chuẩn kỹ thuật quốc gia về tín hiệu phát của truyền hình kỹ thuật số chuẩn DVB-T2.

[3]  QCVN 80:2014/BTTTT: Quy chuẩn kỹ thuật quốc gia về thiết bị thu tín hiệu truyền hình số vệ tinh DVB-S và DVB-S2.

[4]  ITU-TH.261 (02-2012): Đường truyền tín hiệu phi thoại - Mã hóa hình ảnh cho các dịch vụ nghe nhìn ở tốc độ 64 kbps.

 

Click Tải về để xem toàn văn Tiêu chuẩn Việt Nam nói trên.

Để được giải đáp thắc mắc, vui lòng gọi

19006192

Theo dõi LuatVietnam trên YouTube

TẠI ĐÂY

văn bản mới nhất

loading
×
Vui lòng đợi