ความก้าวหน้าโครงงานทางวิศวกรรมคอมพิวเตอร์

ความก้าวหน้าโครงงานทางวิศวกรรมคอมพิวเตอร์
Thai Speech Synthesis Software for Creating Tale Audiobook “ซอฟต์แวร์สังเคราะห์เสียงภาษาไทยสำหรับการสร้างหนังสือเสียงนิทาน” (ตั้งแต่วันที่ 24 สิงหาคม ถึง 4 พฤศจิกายน 2552) นางสาวณัฐชลัยย์ ซื่อสัตตบงกช นายธีรพล พงษ์กิตติพันธ์ นายศุภวัฒน์ สุนทรวาณิชย์กิจ

Outline ภาพรวมของโครงการ สรุปความก้าวหน้าของโครการ แผนการทำงานในอนาคต
งานที่ทำมาแล้ว งานที่กำลังทำอยู่ แผนการทำงานในอนาคต ปัญหา ผลกระทบและแนวทางแก้ไข

ภาพรวมของโครงการ

ภาพรวมของโครงการ Text-to-Speech Software Tale Book
Audio Book in DAISY format Multi-Character Voice with Prosody Special Effect

โครงสร้างซอฟต์แวร์ ภาพรวมของโครงการ

สรุปความก้าวหน้าของโครงการ

1 2 3 Addressing Problem Study previous works Interface Design
Aug Sep Oct Nov Dec Jan Addressing Problem 1 Study previous works Interface Design Developing 2 Improving Evaluation 3

งานที่ทำเสร็จแล้ว

ศึกษาผลงานและโปรแกรมที่เกี่ยวข้อง
My Studio PC TAB Player ตาทิพย์ วาจา Chula TTS

My Studio PC

TAB Player

ตาทิพย์ วาจา Chula TTS TTS Processing Time Sound Quantity Example
เร็ว ไม่ค่อยดี วาจา Chula TTS ค่อนข้างช้า ดี

ศึกษาผลงานวิจัยที่เกี่ยวข้อง
3 Parameter หลักของเสียงที่ส่งผลต่อ Prosody Pitch (Frequency) คือ ความถี่สูงต่ำของเสียง Duration of Syllabus คือ ความยาวของเสียงในแต่ละพยางค์ที่เปล่งออกมา Volume (Loudness) คือ ความดังค่อยของเสียง

ศึกษาผลงานวิจัยที่เกี่ยวข้อง
“Adding an Emotions Filter to Malay Text-to-Speech System” Sentences Happy (%) Angry (%) Sad (%) Fear (%) Happy 71.00 19.56 6.44 3.00 Angry 17.87 74.53 3.87 3.73 Sad 3.95 6.50 62.10 27.40 Fear 4.23 8.12 28.40 59.20

ศึกษาเครื่องมือและอัลกอริทึมที่ใช้ในการพัฒนา
HTK (Hidden Markov Model Toolkit ) HTS (HMM-based Speech Synthesis System ) HTS-Engine Label Sound HTS Acoustic Model Acoustic Model Text HTS-Engine Sound

การติดตั้ง HTS และ Environment ที่จำเป็น
ติดตั้ง OS Library : gcc+, patch, X11 by yum Extract .tar ของ HTK และ HTS Patch HTS to HTK ./configure make all make install ติดตั้ง Active-Perl, SOX, Active-Tcl , SPTK 3.2

การอัดเสียง ครั้งแรก หลายคน Mp3 บทความสั้นๆ
2 ชั่วโมง 30 นาที 49 วินาที

การ Train โมเดลเสียง Corpus Japanese [Demo] Corpus TSync อัดเอง
ภาษาญี่ปุ่น 40 นาที 38 วินาที Corpus TSync ภาษาไทย, ผู้หญิง 13 ชั่วโมง 56 นาที 4 วินาที อัดเอง

การ Train โมเดลเสียง Label Sound .raw monophone triphone HTS
Acoustic Model

Phoneme ภาษาไทยที่ใช้ในปัจจุบัน
กรอบ

ข้าว kh-aa-w^-2

ph-uu-z^-2 j-i-ng^-4 th-u-k^-3 kh-o-n^-0 monophone triphone ph uu z^ j i ng^ th u k^ kh o n^ ph-uu-z^ uu-z^ j z^ j-I j-i-ng^ i-ng^ th ng^ th-u th-u-k^ u-k^ kh k^ kh-o kh-o-n^ ph uu z^ j i ng^

ผลการศึกษา DAISY 3.0 <doctitle>...</doctitle> ชื่อหนังสือ
<level1> Level ที่ 1 <pagenum>...</pagenum> เลขหน้า <h1>...</h1> หัวข้อ <docauthor>...</docauthor> ผู้แต่ง <covertitle>...</covertitle> ชื่อหนังสือ <level2>...</level2> Level ที่ 2 <p>...</p> ย่อหน้า <list>...</list> รายการ <img>...</img> รูปภาพ <poem>...</poem> กลอน <table>...</table> ตาราง <address>...</address> ที่อยู่ <line>...</line> ข้อความหากมีหลายบรรทัด <code>...</code> Code โปรแกรมคอมพิวเตอร์ <samp>...</samp> ตัวอย่าง <kbd>...</kbd> ข้อความให้ผู้อ่านพิมพ์เข้าคอมพิวเตอร์โดยคีย์บอร์ด </level1> สิ้นสุด Level ที่ 1

งานที่กำลังทำอยู่

การอัดเสียงเพิ่มเติม
นิทาน เรื่อง แม่มด .wav อัดเสียงผู้ชาย คนเดียว ตัดต่อ ซ่อมแซม ความยาวเสียง ประมาณ 5 ชั่วโมงครึ่ง

การพัฒนาบางส่วนของ Chula-TTS
สามารถบันทึกเป็น .wav ได้ สามารถสร้างหนังสือเสียงในมาตรฐาน DAISY ได้

การพัฒนาชุดคำสั่งสำหรับช่วยเหลือในการเตรียม Text
ph-2 uu-2 z^-2 j-4 i-4 ng^-4 th-3 u-3 k^-3 kh-0 o-0 n^-0 n-0 a-0 j^-0 h-2 ng^-2 กรอบเหมือนข้าวเกรียบ ผู้หญิงทุกคนในห้องโถง --- kr-1 p^-1 m-4 vva-4 n^-4 kh-2 aa-2 w^-2 iia-1 กรอบเหมือนข้าวเกรียบ ผู้หญิงทุกคนในห้องโถง .perl krOOp1}~mUUan4}~khaaw2}kriiap1}~ phuu2}jiN4}~thuk3}~khon0}naj0}~hOON2}~thooN

ผลการนับจำนวน Monophone
พยัญชนะต้น สระ ตัวสะกด เดี่ยว ตัวอย่าง ผสม p 658 pr 107 a 4723 ia p^ 619 t 816 phr 68 aa 3280 iia 352 t^ 1267 c 726 tr 26 i 739 va k^ 1258 k 873 kr 142 ii 1187 vva 317 n^ 2466 z 582 khr 251 v 275 ua m^ 1157 ph 999 pl 86 vv 296 uua 581 ng^ 2282 th 1322 phl 31 u 355 j^ 2670 uu 797 w^ 848 ch 393 thr e 675 เสียงทับศัพท์ kh 1057 kl 187 ee 249 f^ b 321 khl 24 x 176 l^ d 850 kw 43 xx 930 s^ m 1919 khw 62 o 1494 ch^ n 1415 oo 268 ng 133 br 1 @ 66 l 1131 bl 1470 r 1015 fr q 46 f 100 fl qq 315 s 976 dr h 610 w 533 j 1124

แผนการดำเนินงานในอนาคต

เตรียม Text ที่ใช้ในการ Train ให้ครบถ้วน อัด และตัดต่อเสียงให้ครบถ้วน เพื่อใช้ Train โมเดลเสียง Train โมเดลเสียงจาก TSync และจากเสียงที่เตรียมเอง ศึกษาการแปลงเสียงบีบ เสียงแหบจากงานวิจัยของพี่ปริญญาโท ปรับปรุง HTS-Engine ทดลองใช้ HTS-Engine ที่ปรับปรุงแล้ว

เตรียม Template สำหรับฟังก์ชันของเสียงในรูปแบบต่างๆ หาเสียงประกอบธรรมชาติ สร้าง Interface และพัฒนาซอฟต์แวร์ การทดสอบและประเมินผล แก้ไข ปรับปรุง สรุปผล จัดทำเอกสาร

ปัญหา ผลกระทบและแนวทางแก้ไข

ปัญหา ผลกระทบ และแนวทางแก้ไข
ผู้พัฒนาไม่คุ้นเคยกับระบบปฏิบัติการ Linux ข้อจำกัดของการใช้ Cygwin บน Windows อัดเสียงในรูปแบบไฟล์ที่ผิด Tutorial ของการสังเคราะห์เสียงภาษาไทยยังมีน้อย ข้อจำกัดด้านสมรรถภาพของเครื่องคอมพิวเตอร์ของผู้พัฒนา การอัดเสียงใช้เวลานาน, จำนวนผู้อัด

ขอบคุณครับ / ค่ะ

ความก้าวหน้าโครงงานทางวิศวกรรมคอมพิวเตอร์

งานนำเสนอที่คล้ายกัน

งานนำเสนอเรื่อง: "ความก้าวหน้าโครงงานทางวิศวกรรมคอมพิวเตอร์"— ใบสำเนางานนำเสนอ:

งานนำเสนอที่คล้ายกัน

เรื่องโครงการ

การติดต่อกลับ

เข้าสู่ระบบ

ลงทะเบียนผ่านเครือข่ายสังคม:

ความก้าวหน้าโครงงานทางวิศวกรรมคอมพิวเตอร์

งานนำเสนอที่คล้ายกัน

งานนำเสนอเรื่อง: "ความก้าวหน้าโครงงานทางวิศวกรรมคอมพิวเตอร์"— ใบสำเนางานนำเสนอ:

งานนำเสนอที่คล้ายกัน

เรื่องโครงการ

การติดต่อกลับ