ดาวน์โหลดงานนำเสนอ
งานนำเสนอกำลังจะดาวน์โหลด โปรดรอ
1
กลุ่มที่ 3 ส่วนประมวลผลสัญญาณดิจิตอลเบสแบนด์
AMR Wideband Speech Codec (AMR – WB) นายชิตชานน์ ตรีน้อยวา SCORPion Research Group EE Department, Kasetsart University, Thailand 3G Research Project Meeting HuaHin Grand and Plaza Hotel October 12, 2003
2
ความคืบหน้า ศึกษาระบบ AMR- WB ในภาพรวม
ศึกษาทฤษฎีพื้นฐานในด้าน Discrete-Time Signal Speech Processing ศึกษาทฤษฎี ACELP
3
แนวทางการนำเสนอ ภาพรวม AMR-WB Speech Production Model Linear Prediction Analysis Code-Excited Linear Prediction (CELP) Algebraic Code-Excited Linear Prediction (ACELP) แผนการทำงาน
4
AMR-WB (Adaptive Multi-Rate Wideband)
AMR-WB (Adaptive Multi-Rate Wideband) เป็นระบบที่ทำการบีบอัดสัญญาณเสียงในช่วงแถบความถี่ 8 kHz สามารถเปลี่ยนอัตราการบีบอัดในช่วงระหว่าง 6.60 – kbit/s ได้ตามสภาพช่องสัญญาณ และใช้ช่วงเวลาที่มีแต่ background noise ซึ่งมีมากถึง 50 % ลดอัตราการส่งข้อมูลลงเป็น 1.75 kbit/s ทำให้อัตราการส่งข้อมูลโดยเฉลี่ยของระบบลดลง โดย Algorithm ในส่วนที่ทำการบีบอัดสัญญาณเสียงใช้ ACELP
5
AMR-WB (Adaptive Multi-Rate Wideband)
14 bit Uniform PCM 16000 samples/s 320 samples/frame 224 kbits/s 20 ms/frame 50 frames/s 1.75 ~ kbits/s
6
Speech Production Model
AMR – WB เป็น Speech Coder ประเภท Vocoder ซึ่งการบีบอัดขึ้นกับ Source ของสัญญาณเสียงเนื่องจาก encoder จะพยายามหาโมเดลของ Source แล้วส่ง parameter ที่จำเป็นในการสร้างโมเดลของ Source นั้นขึ้นใหม่ที่ decoder ทำให้อัตราการส่งข้อมูลจากการบีบอัดมีค่าต่ำ
7
Speech Production Model
Sound Type Voiced Sound Unvoiced Sound Vocal Tract Model Boundary Loss
8
Voiced Sound Voiced Sound ถูกนิยามเป็นเสียงที่ได้จากการ Modulate โดยกล่องเสียงในช่วงเวลาเล็กๆจะมีลักษณะเป็น periodic
9
โดย G() ถูกโมเดลในรูป Z transform เป็น
Voiced Sound นิยาม Pitch Period (P) เป็นเวลา 1 คาบสัญญาณ ถ้าให้ G() เป็น Fourier Transform ของ g[n] ซึ่งเป็นรูปของ 1 คาบสัญญาณ จะแสดงรูปสัญญาณทั้งหมด U() ดังนี้ โดย G() ถูกโมเดลในรูป Z transform เป็น
10
Unvoiced Sound Unvoiced Sound ถูกนิยามเป็นเสียงที่ได้จากลมเสียดสีกับอวัยวะในช่องปากโดยกล่องเสียงเปิดตลอดเวลาและถูกโมเดลเป็นสัญญาณรบกวน N() white Gaussian noise
11
Vocal Tract Model ช่องปากเป็นตัวทำหน้าที่ Spectrum shaping ของ Voiced และ Unvoiced Sound โดยถ้าให้ Transfer function ของช่องปากเป็น V() จะได้เสียงที่ออกช่องปากเป็น
12
Vocal Tract Model เราสามารถหา V(z) ได้โดยโมเดลช่องปากเป็น Uniform tube ที่มีเส้นผ่าศูนย์กลางและความยาวๆต่างๆมาต่อกัน แก้สมการคลื่น จะเขียนโมเดลในรูปของ Z transform ได้เป็น
13
Boundary Loss Boundary Lossเป็นค่าความสูญเสียเนื่องจากการเปล่งเสียงถูกโมเดลโดย High pass filter R(z) ดังนี้
14
Speech Production Model
จากทั้งหมดที่กล่าวมาเราสามารถหา Transfer function รวมของระบบ H() ได้ดังนี้ โดย Av เป็น gain ใดๆ และ input ของ Voiced Sound เป็น train ของ impulse และ ของ Unvoiced Sound เป็น white Gaussian noise
15
Speech Production Model
ดังนั้นสรุปว่าเราสามารถหา Transfer function H() ให้อยู่ในรูป all pole model ได้
16
Linear Prediction Analysis
Linear Prediction (LP) เป็นวิธีวิเคราะห์ pole ใน all pole model โดยมีหลักอยู่ว่า สัญญาณใดๆในปัจจุบันมี correlation กับสัญญาณในอดีต
17
Linear Prediction Analysis
ถ้าให้ S[n] เป็นสัญญาณเสียงที่เราได้ยิน, U[n] เป็นสัญญาณ train ของ impulse หรือ noise, H() เป็นโมเดลของ Speech Production ที่มีแต่ pole และมี orderเป็น p เราจะได้ เขียนให้อยู่ใน Time domain ได้เป็น
18
Linear Prediction Analysis
ดังนั้นเราสามารถประมาณ S[n] จาก ถ้าให้ e[n] เป็น predictor error sequence ที่เกิดขึ้นจะได้
19
Linear Prediction Analysis
ถ้าให้ A(Z) เป็น Prediction Error Filter จะได้
20
Linear Prediction Analysis
การหาค่า ak ดังกล่าวทำได้โดยให้ Error Minimization Criteria กรณี U[n] เป็น impulse train ให้ จะหาค่า ak โดยการแก้สมการ
21
Linear Prediction Analysis
กรณี U[n] เป็น White Gaussian Noise มีแนวคิดเดียวกันแต่คิดในลักษณะของ random process โดยทำให้ E(e2[n]) ต่ำที่สุด ในทางปฎิบัติมีวิธีในการหา A(Z) หลายวิธีได้แก่ covariance method, autocorrelation method, Levinson Recursion
22
Code-Exited Linear Prediction (CELP)
CELP เป็น Speech Coding แบบ Analysis by Synthesis กล่าวคือ Encoder จะวิเคราะห์สัญญาณ S[n] โดยการสร้างสัญญาณขึ้นมาใหม่ S’[n] โดยให้ S’[n] = S[n] หรือให้ ew[n] น้อยที่สุด แล้วใช้ Parameter ที่ใช้สร้างสัญญาณ S’[n] ส่งไปยัง Decoder
23
Code-Exited Linear Prediction (CELP)
Residual Generator Long Term Predictor Short Term Predictor - V[n] U[n] S’[n] S[n] Error minimization Perceptual Weight e w[n]
24
Code-Exited Linear Prediction (CELP)
Short Term Predictor โดยสมมุติว่าสัญญาณเป็น stationary และ ช่องปากเปลี่ยนแปลงช้ามากใน 1 เฟรม ทำการหา A(z) จากนั้นใช้ A(z) ที่หาได้สร้าง S’[n] เพื่อเปรียบเทียบกับ S[n] โดย
25
Code-Exited Linear Prediction (CELP)
Long Term Predictor เป็นตัวตัด redundancy ของ Voice Sound ที่เป็น periodic source ออกไป และจะกระทำทุกๆ Subframe เนื่องจากการเปลี่ยนของ source จะเร็วกว่าการเปลี่ยนของช่องปาก โดย Transfer function จะอยู่ในรูป
26
Code-Exited Linear Prediction (CELP)
Residual Generator ในกรณีของ CELP ส่วนนี้จะเป็น Codebook ที่ Sequence ของ V[n] จะบ่งบอกโดยใช้ Index ซึ่งจะทำการหา Index ที่ทำให้เกิด Error Minimization Perceptual weight จะเป็นการลดผลของ error ที่เกิดจากความถี่ที่เกิด peak ในสูงสุดใน 1/A(Z) เป็นผลให้ระบบหา Index ของ Codebook ที่ทำให้เกิด Error Minimization ได้เร็วขึ้น โดยยอมให้ที่ความถี่นั้นมี Error มากขึ้นแต่เนื่องจากที่ความถี่นั้นมีพลังงานสูง ทำให้ SNR ที่ความถี่นั้นๆไม่ตกไปมากนัก
27
Code-Exited Linear Prediction (CELP)
สำหรับ Decoder ของ CELP จะเป็นดังรูปข้างล่างโดย Encoder ต้องส่ง Codebook Index, B(Z) และ A(Z) มาให้จึงจะสร้าง S’[n] ได้ Residual Generator Long Term Predictor Short Term Predictor V[n] U[n] S’[n] Index B(Z) A(Z)
28
Algebraic Code Exited Linear Predictive Codec (ACELP)
ACELP ก็คือ CELP ที่ Codebook มีลักษณะเฉพาะโดยกำหนดให้ จำนวน pulse ใน V[n] คงที่เท่ากับ 4 และแต่ละ pluse ก็มีตำแหน่งที่จะสามารถอยู่ได้จำกัด และ Amplitude ของ pluse คงที่ ±1 ทำให้การหา index เป็นได้รวดเร็วและอาจไม่จำเป็นต้องเก็บ Codebook ไว้ได้
29
Algebraic Code Exited Linear Predictive Codec (ACELP)
30
งานในอนาคต ทดลองทำการ Compile Code บน Nios ทดลอง test sequence หาเวลาที่ใช้ทั้ง process ต่อเฟรม ทำลำดับฟังก์ชั่นที่ใช้เวลาในการ Process จากมากไปน้อย ทำการ Optimize ด้านเวลาในด้าน encoder ทำการ Optimize ด้านเวลาในด้าน decoder
งานนำเสนอที่คล้ายกัน
© 2024 SlidePlayer.in.th Inc.
All rights reserved.