ความก้าวหน้าโครงงานทางวิศวกรรมคอมพิวเตอร์ Thai Speech Synthesis Software for Creating Tale Audiobook “ซอฟต์แวร์สังเคราะห์เสียงภาษาไทยสำหรับการสร้างหนังสือเสียงนิทาน” (ตั้งแต่วันที่ 24 สิงหาคม ถึง 4 พฤศจิกายน 2552) นางสาวณัฐชลัยย์ ซื่อสัตตบงกช 4930129221 นายธีรพล พงษ์กิตติพันธ์ 4931211121 นายศุภวัฒน์ สุนทรวาณิชย์กิจ 4931250621
Outline ภาพรวมของโครงการ สรุปความก้าวหน้าของโครการ แผนการทำงานในอนาคต งานที่ทำมาแล้ว งานที่กำลังทำอยู่ แผนการทำงานในอนาคต ปัญหา ผลกระทบและแนวทางแก้ไข
ภาพรวมของโครงการ
ภาพรวมของโครงการ Text-to-Speech Software Tale Book Audio Book in DAISY format Multi-Character Voice with Prosody Special Effect
โครงสร้างซอฟต์แวร์ ภาพรวมของโครงการ
สรุปความก้าวหน้าของโครงการ
1 2 3 Addressing Problem Study previous works Interface Design Aug Sep Oct Nov Dec Jan Addressing Problem 1 Study previous works Interface Design Developing 2 Improving Evaluation 3
งานที่ทำเสร็จแล้ว
ศึกษาผลงานและโปรแกรมที่เกี่ยวข้อง My Studio PC TAB Player ตาทิพย์ วาจา Chula TTS
My Studio PC
TAB Player
ตาทิพย์ วาจา Chula TTS TTS Processing Time Sound Quantity Example เร็ว ไม่ค่อยดี วาจา Chula TTS ค่อนข้างช้า ดี
ศึกษาผลงานวิจัยที่เกี่ยวข้อง 3 Parameter หลักของเสียงที่ส่งผลต่อ Prosody Pitch (Frequency) คือ ความถี่สูงต่ำของเสียง Duration of Syllabus คือ ความยาวของเสียงในแต่ละพยางค์ที่เปล่งออกมา Volume (Loudness) คือ ความดังค่อยของเสียง
ศึกษาผลงานวิจัยที่เกี่ยวข้อง “Adding an Emotions Filter to Malay Text-to-Speech System” Sentences Happy (%) Angry (%) Sad (%) Fear (%) Happy 71.00 19.56 6.44 3.00 Angry 17.87 74.53 3.87 3.73 Sad 3.95 6.50 62.10 27.40 Fear 4.23 8.12 28.40 59.20
ศึกษาเครื่องมือและอัลกอริทึมที่ใช้ในการพัฒนา HTK (Hidden Markov Model Toolkit ) HTS (HMM-based Speech Synthesis System ) HTS-Engine Label Sound HTS Acoustic Model Acoustic Model Text HTS-Engine Sound
การติดตั้ง HTS และ Environment ที่จำเป็น ติดตั้ง OS Library : gcc+, patch, X11 by yum Extract .tar ของ HTK และ HTS Patch HTS to HTK ./configure make all make install ติดตั้ง Active-Perl, SOX, Active-Tcl 8.4.19, SPTK 3.2
การอัดเสียง ครั้งแรก หลายคน Mp3 บทความสั้นๆ 2 ชั่วโมง 30 นาที 49 วินาที
การ Train โมเดลเสียง Corpus Japanese [Demo] Corpus TSync อัดเอง ภาษาญี่ปุ่น 40 นาที 38 วินาที Corpus TSync ภาษาไทย, ผู้หญิง 13 ชั่วโมง 56 นาที 4 วินาที อัดเอง
การ Train โมเดลเสียง Label Sound .raw monophone triphone HTS Acoustic Model
Phoneme ภาษาไทยที่ใช้ในปัจจุบัน กรอบ kr-@@-p^-1
Phoneme ภาษาไทยที่ใช้ในปัจจุบัน ข้าว kh-aa-w^-2
Phoneme ภาษาไทยที่ใช้ในปัจจุบัน ph-uu-z^-2 j-i-ng^-4 th-u-k^-3 kh-o-n^-0 monophone triphone ph uu z^ j i ng^ th u k^ kh o n^ ph-uu-z^ uu-z^ j z^ j-I j-i-ng^ i-ng^ th ng^ th-u th-u-k^ u-k^ kh k^ kh-o kh-o-n^ 1576250 2257500 ph 2257500 2677500 uu 2677500 3286250 z^ 3286250 4382500 j 4382500 4786250 i 4786250 5378750 ng^
ผลการศึกษา DAISY 3.0 <doctitle>...</doctitle> ชื่อหนังสือ <level1> Level ที่ 1 <pagenum>...</pagenum> เลขหน้า <h1>...</h1> หัวข้อ <docauthor>...</docauthor> ผู้แต่ง <covertitle>...</covertitle> ชื่อหนังสือ <level2>...</level2> Level ที่ 2 <p>...</p> ย่อหน้า <list>...</list> รายการ <img>...</img> รูปภาพ <poem>...</poem> กลอน <table>...</table> ตาราง <address>...</address> ที่อยู่ <line>...</line> ข้อความหากมีหลายบรรทัด <code>...</code> Code โปรแกรมคอมพิวเตอร์ <samp>...</samp> ตัวอย่าง <kbd>...</kbd> ข้อความให้ผู้อ่านพิมพ์เข้าคอมพิวเตอร์โดยคีย์บอร์ด </level1> สิ้นสุด Level ที่ 1
งานที่กำลังทำอยู่
การอัดเสียงเพิ่มเติม นิทาน เรื่อง แม่มด .wav อัดเสียงผู้ชาย คนเดียว ตัดต่อ ซ่อมแซม ความยาวเสียง ประมาณ 5 ชั่วโมงครึ่ง
การพัฒนาบางส่วนของ Chula-TTS สามารถบันทึกเป็น .wav ได้ สามารถสร้างหนังสือเสียงในมาตรฐาน DAISY ได้
การพัฒนาชุดคำสั่งสำหรับช่วยเหลือในการเตรียม Text ph-2 uu-2 z^-2 j-4 i-4 ng^-4 th-3 u-3 k^-3 kh-0 o-0 n^-0 n-0 a-0 j^-0 h-2 @@-2 ng^-2 กรอบเหมือนข้าวเกรียบ ผู้หญิงทุกคนในห้องโถง --- kr-1 @@-1 p^-1 m-4 vva-4 n^-4 kh-2 aa-2 w^-2 iia-1 กรอบเหมือนข้าวเกรียบ ผู้หญิงทุกคนในห้องโถง .perl krOOp1}~mUUan4}~khaaw2}kriiap1}~ phuu2}jiN4}~thuk3}~khon0}naj0}~hOON2}~thooN
ผลการนับจำนวน Monophone พยัญชนะต้น สระ ตัวสะกด เดี่ยว ตัวอย่าง ผสม p 658 pr 107 a 4723 ia p^ 619 t 816 phr 68 aa 3280 iia 352 t^ 1267 c 726 tr 26 i 739 va k^ 1258 k 873 kr 142 ii 1187 vva 317 n^ 2466 z 582 khr 251 v 275 ua m^ 1157 ph 999 pl 86 vv 296 uua 581 ng^ 2282 th 1322 phl 31 u 355 j^ 2670 uu 797 w^ 848 ch 393 thr e 675 เสียงทับศัพท์ kh 1057 kl 187 ee 249 f^ b 321 khl 24 x 176 l^ d 850 kw 43 xx 930 s^ m 1919 khw 62 o 1494 ch^ n 1415 oo 268 ng 133 br 1 @ 66 l 1131 bl @@ 1470 r 1015 fr q 46 f 100 fl qq 315 s 976 dr h 610 w 533 j 1124
แผนการดำเนินงานในอนาคต
แผนการดำเนินงานในอนาคต เตรียม Text ที่ใช้ในการ Train ให้ครบถ้วน อัด และตัดต่อเสียงให้ครบถ้วน เพื่อใช้ Train โมเดลเสียง Train โมเดลเสียงจาก TSync และจากเสียงที่เตรียมเอง ศึกษาการแปลงเสียงบีบ เสียงแหบจากงานวิจัยของพี่ปริญญาโท ปรับปรุง HTS-Engine ทดลองใช้ HTS-Engine ที่ปรับปรุงแล้ว
แผนการดำเนินงานในอนาคต เตรียม Template สำหรับฟังก์ชันของเสียงในรูปแบบต่างๆ หาเสียงประกอบธรรมชาติ สร้าง Interface และพัฒนาซอฟต์แวร์ การทดสอบและประเมินผล แก้ไข ปรับปรุง สรุปผล จัดทำเอกสาร
ปัญหา ผลกระทบและแนวทางแก้ไข
ปัญหา ผลกระทบ และแนวทางแก้ไข ผู้พัฒนาไม่คุ้นเคยกับระบบปฏิบัติการ Linux ข้อจำกัดของการใช้ Cygwin บน Windows อัดเสียงในรูปแบบไฟล์ที่ผิด Tutorial ของการสังเคราะห์เสียงภาษาไทยยังมีน้อย ข้อจำกัดด้านสมรรถภาพของเครื่องคอมพิวเตอร์ของผู้พัฒนา การอัดเสียงใช้เวลานาน, จำนวนผู้อัด
ขอบคุณครับ / ค่ะ