งานนำเสนอกำลังจะดาวน์โหลด โปรดรอ

งานนำเสนอกำลังจะดาวน์โหลด โปรดรอ

การปรับปรุง Suited-Syllable-Structure Mapping สำหรับการตัดคำข้อความภาษาไทย (Modified Suited-Syllable-Structure Mapping for Thai Word Segmentation) สุพรรษา.

งานนำเสนอที่คล้ายกัน


งานนำเสนอเรื่อง: "การปรับปรุง Suited-Syllable-Structure Mapping สำหรับการตัดคำข้อความภาษาไทย (Modified Suited-Syllable-Structure Mapping for Thai Word Segmentation) สุพรรษา."— ใบสำเนางานนำเสนอ:

1 การปรับปรุง Suited-Syllable-Structure Mapping สำหรับการตัดคำข้อความภาษาไทย (Modified Suited-Syllable-Structure Mapping for Thai Word Segmentation) สุพรรษา จิตระโภชน์ และ กฤษณะ ชินสาร คณะวิทยาการสารสนเทศ มหาวิทยาลัยบูรพา อำเภอเมือง จังหวัดชลบุรี บทคัดย่อ วิธีการที่นำเสนอ ผลการทดลอง งานวิจัยนี้ นำเสนอกระบวนการ ตัดคำประโยคภาษาไทยโดย อาศัยกฎเพื่อให้ได้ผลลัพธ์ที่มี ความถูกต้อง และ สามารถนำไป ประยุกต์ใช้กับงานในด้านการ สังเคราะห์เสียงพูดภาษาไทยได้ วิธีการที่นำเสนอในงานวิจัยนี้ ได้รับการพัฒนาจากเทคนิคการ ตัดคำภาษาไทยที่เรียกว่า Suited-Syllable-Structure Mapping โดยการเพิ่มสอง ขั้นตอนย่อย คือ การปรับปรุงการ จัดกลุ่มอักขระไทย (Enhanced Thai Character Cluster) และ การเพิ่มเติมกฎย่อยเพื่อ ตรวจสอบความถูกต้องของ รูปแบบพยางค์ (Sub-rules) จาก ผลการทดลองฐานข้อมูล Lexitron จำนวน 600 ข้อความ พบว่า วิธีการที่นำเสนอให้ผลการ ตัดคำที่มีความถูกต้องมากขึ้น และ ทำให้เมื่อนำพยางค์ที่ได้จาก การตัดคำไปใช้ได้ดีกับ ซอฟต์แวร์ด้านการสังเคราะห์ เสียงพูดภาษาไทยประเภทที่มี การวิเคราะห์เสียงแบบ Unit Selection บทนำ ประโยคภาษาไทยมีระบบการ เขียนที่ต่อเนื่องกันโดยไม่มีการ เว้นระยะจนกว่าจะจบประโยค หากเขียนวรรคตอนผิดจะทำให้ เสียความหมายหรือทำให้ ความหมายเปลี่ยนไปได้ ด้วย โครงสร้างของภาษาเช่นนี้ ทำให้ เป็นการยากที่จะแบ่งแยก ข้อความออกเป็นคำหรือพยางค์ ซึ่งเป็นปัญหาสำคัญที่จะต้องมี วิธีการตัดคำที่มีประสิทธิภาพ เพื่อให้ได้การตัดคำที่ถูกต้อง โดย ผู้วิจัยได้เสนอวิธีการตัดคำที่มี ประสิทธิภาพมากขึ้น ด้วยการ เพิ่มเติมกฎย่อยที่ทำงานร่วมกับ กฎการตัดคำหลักของเทคนิคการ ตัดคำที่เรียกว่า Suited- Syllable-Structure (3-S) Mapping และเรียกเทคนิคการ ตัดคำที่ได้พัฒนานี้ว่า Sub-ruled Suited-Syllable-Structure (4- S) งานวิจัยนี้ จึงนำเสนอวิธีการ สำหรับเทคนิคการตัดคำที่มี ขั้นตอนการทำงานโดยรวมดังรูป Sentence and Paragraph Segmentation Alphabet Symbol Substitution Suited-Syllable-Structure + Sub-Rule Mapping (4-S) Thai Syllable Thai Sound Synthesis (Unit Selection Algorithm) Sentence-and- paragraph segmentation เป็นกระบวนการแบ่งข้อความ ภาษาไทยที่มีความยาวมาก ออกเป็นประโยคหรือย่อหน้า ย่อยๆ โดยใช้วิธีการแบ่ง 2 วิธี คือ แบ่งโดยใช้การเว้นวรรค (blank space) ซึ่งใช้สำหรับการแบ่ง ประโยค และการแบ่งโดยใช้การ ขึ้นบรรทัดใหม่ (carriage return) ซึ่งใช้สำหรับการแบ่งย่อ หน้า Alphabet-Symbol- Substitution เป็นกระบวนการในการแปลง กลุ่มของตัวอักขระภาษาไทยที่ได้ จากขั้นตอนแรก ให้เป็น สัญลักษณ์ที่อยู่ในรูป C, V และ T โดย C แทนกลุ่มของตัวอักษร ภาษาไทย V แทนกลุ่มของสระ และ T แทนวรรณยุกต์ Sub-Ruled Suited- Syllable-Structure (4- S) Mapping เป็นการตัดคำจากกลุ่ม สัญลักษณ์ออกเป็นพยางค์หรือ คำ ซึ่งอาศัยกฎในการตัดคำโดย ที่กฎหลักสำหรับการตัดคำได้มา จาก Suited-Syllable- Structure (3-S) Mapping และ Enhanced Thai Character Cluster รวมกฎหลักได้ทั้งสิ้น 50 กฎ และ งานวิจัยนี้ได้เพิ่มกฎ ย่อยจำนวน 79 กฎ วัตถุประสงค์ 1. เพื่อศึกษาขั้นตอนวิธีการตัดคำ ประโยคภาษาไทย 2. เพื่อประยุกต์และปรับปรุง ขั้นตอนการตัดคำภาษาไทย แบบ Suited-Syllable- Structure Mapping 3. เพื่อเป็นแนวทางในการศึกษา ขั้นสูงต่อไป งานวิจัยนี้ได้ทำการทดลองการ ตัดคำกับข้อมูลตัวหนังสือ ภาษาไทยซึ่งได้มาจาก Lexitron ( พจนานุกรมออนไลน์แปล ความหมายจากภาษาไทยเป็น ภาษาอังกฤษหรือจาก ภาษาอังกฤษเป็นภาษาไทย ) จำนวนทั้งสิ้น 600 ข้อความ ซึ่ง แบ่งออกเป็น 3 กลุ่ม ได้แก่ ข้อความที่มีคำควบกล้ำ ข้อความที่มีตัวการันต์ และ ข้อความปกติ ( ไม่มีคำควบ กล้ำหรือตัวการันต์ ) กลุ่มละ 200 ข้อความ และ แบ่งการ ทดลองออกเป็น 2 ส่วน ดังนี้ ทดสอบความถูกต้องในการ ตัดคำของเทคนิค Suited- Syllable-Structure (3-S) Mapping ( วิธีที่ 1) ทดสอบความถูกต้องในการ ตัดคำของเทคนิค Sub-Ruled Suited-Syllable-Structure (4-S) for Thai Word Segmentation ( วิธีที่ 2) การทดลอง ร้อยละของความถูกต้องในการตัดคำ ข้อความที่มีคำ ควบกล้ำ ข้อความที่มีตัว การันต์ ข้อความปกติ 3-S Mapping S Mapping สรุปผลการทดลอง บทความนี้ นำเสนอกระบวนการ ตัดคำประโยคภาษาไทยโดย อาศัยกฎหลัก Suited-Syllable- Structure Mapping, การ ปรับปรุงการจัดกลุ่มอักขระไทย (Enhanced Thai Character Cluster) และ การสร้างกฎย่อย เพื่อปรับปรุงคุณภาพการทำงาน ของกฎหลักทั้ง 50 กฎ โดยกฎ ย่อยที่สร้างขึ้นมามีทั้งหมด 73 กฎย่อย ผลการทดสอบขั้นตอน วิธีที่นำเสนอกับฐานข้อมูล Lexitron ซึ่งเป็นฐานข้อมูล มาตรฐานจำนวน 600 ข้อความ วิธีการที่นำเสนอให้ผลเป็นที่น่า พอใจ กล่าวคือให้ร้อยละของ ความถูกต้องที่ 95.5, 83.0 และ 97.5 สำหรับข้อมูลทั้งสามกลุ่มที่ กล่าวมาข้างต้นตามลำดับ และ ผลจากงานวิจัยในครั้งนี้ คณะผู้วิจัย ได้นำพยางค์ที่ได้จาก การตัดคำไปใช้ได้ดีกับ ซอฟต์แวร์ด้านการสังเคราะห์ เสียงพูดภาษาไทยสำหรับการ อ่านออกเสียงจดหมาย อิเล็กทรอนิกส์ ซึ่งใช้หลักการการ วิเคราะห์เสียงแบบ Unit Selection ผลปรากฏว่า ซอฟต์แวร์วิเคราะห์เสียงพูด ภาษาไทยสามารถสร้างเสียงที่มี ความผิดเพี้ยนต่ำ รูปแบบการจัดวาง สามารถปรับได้ตามความ สะดวก - แบบตัวอักษรใช้ THsarabunPSK - ขนาดตัวอักษรตามความ เหมาะสม


ดาวน์โหลด ppt การปรับปรุง Suited-Syllable-Structure Mapping สำหรับการตัดคำข้อความภาษาไทย (Modified Suited-Syllable-Structure Mapping for Thai Word Segmentation) สุพรรษา.

งานนำเสนอที่คล้ายกัน


Ads by Google