ดาวน์โหลดงานนำเสนอ
งานนำเสนอกำลังจะดาวน์โหลด โปรดรอ
ได้พิมพ์โดยPaponthee Sathianthai ได้เปลี่ยน 10 ปีที่แล้ว
1
รูปแบบการจัดวางสามารถปรับได้ตามความสะดวก -แบบตัวอักษรใช้ THsarabunPSK
การปรับปรุง Suited-Syllable-Structure Mapping สำหรับการตัดคำข้อความภาษาไทย (Modified Suited-Syllable-Structure Mapping for Thai Word Segmentation) รูปแบบการจัดวางสามารถปรับได้ตามความสะดวก -แบบตัวอักษรใช้ THsarabunPSK -ขนาดตัวอักษรตามความเหมาะสม สุพรรษา จิตระโภชน์ และ กฤษณะ ชินสาร คณะวิทยาการสารสนเทศ มหาวิทยาลัยบูรพา อำเภอเมือง จังหวัดชลบุรี บทคัดย่อ ผลการทดลอง วัตถุประสงค์ งานวิจัยนี้ นำเสนอกระบวนการตัดคำประโยคภาษาไทยโดยอาศัยกฎเพื่อให้ได้ผลลัพธ์ที่มีความถูกต้อง และ สามารถนำไปประยุกต์ใช้กับงานในด้านการสังเคราะห์เสียงพูดภาษาไทยได้ วิธีการที่นำเสนอในงานวิจัยนี้ ได้รับการพัฒนาจากเทคนิคการตัดคำภาษาไทยที่เรียกว่า Suited-Syllable-Structure Mapping โดยการเพิ่มสองขั้นตอนย่อย คือ การปรับปรุงการจัดกลุ่มอักขระไทย (Enhanced Thai Character Cluster) และ การเพิ่มเติมกฎย่อยเพื่อตรวจสอบความถูกต้องของรูปแบบพยางค์ (Sub-rules) จากผลการทดลองฐานข้อมูล Lexitron จำนวน 600 ข้อความ พบว่า วิธีการที่นำเสนอให้ผลการตัดคำที่มีความถูกต้องมากขึ้น และ ทำให้เมื่อนำพยางค์ที่ได้จากการตัดคำไปใช้ได้ดีกับซอฟต์แวร์ด้านการสังเคราะห์เสียงพูดภาษาไทยประเภทที่มีการวิเคราะห์เสียงแบบ Unit Selection งานวิจัยนี้ได้ทำการทดลองการตัดคำกับข้อมูลตัวหนังสือภาษาไทยซึ่งได้มาจาก Lexitron (พจนานุกรมออนไลน์แปลความหมายจากภาษาไทยเป็นภาษาอังกฤษหรือจากภาษาอังกฤษเป็นภาษาไทย) จำนวนทั้งสิ้น 600 ข้อความ ซึ่งแบ่งออกเป็น 3 กลุ่ม ได้แก่ ข้อความที่มีคำควบกล้ำ ข้อความที่มีตัวการันต์ และ ข้อความปกติ (ไม่มีคำควบกล้ำหรือตัวการันต์) กลุ่มละ 200 ข้อความ และ แบ่งการทดลองออกเป็น 2 ส่วน ดังนี้ ทดสอบความถูกต้องในการตัดคำของเทคนิค Suited-Syllable-Structure (3-S) Mapping (วิธีที่ 1) ทดสอบความถูกต้องในการตัดคำของเทคนิค Sub-Ruled Suited-Syllable-Structure (4-S) for Thai Word Segmentation (วิธีที่ 2) วัตถุประสงค์ เพื่อศึกษาขั้นตอนวิธีการตัดคำประโยคภาษาไทย เพื่อประยุกต์และปรับปรุงขั้นตอนการตัดคำภาษาไทยแบบ Suited-Syllable-Structure Mapping เพื่อเป็นแนวทางในการศึกษาขั้นสูงต่อไป วิธีการที่นำเสนอ Sentence-and-paragraph segmentation เป็นกระบวนการแบ่งข้อความภาษาไทยที่มีความยาวมาก ออกเป็นประโยคหรือย่อหน้าย่อยๆ โดยใช้วิธีการแบ่ง 2 วิธี คือ แบ่งโดยใช้การเว้นวรรค (blank space) ซึ่งใช้สำหรับการแบ่งประโยค และการแบ่งโดยใช้การขึ้นบรรทัดใหม่ (carriage return) ซึ่งใช้สำหรับการแบ่งย่อหน้า Alphabet-Symbol-Substitution เป็นกระบวนการในการแปลงกลุ่มของตัวอักขระภาษาไทยที่ได้จากขั้นตอนแรก ให้เป็นสัญลักษณ์ที่อยู่ในรูป C, V และ T โดย C แทนกลุ่มของตัวอักษรภาษาไทย V แทนกลุ่มของสระ และ T แทนวรรณยุกต์ Sub-Ruled Suited-Syllable-Structure (4-S) Mapping เป็นการตัดคำจากกลุ่มสัญลักษณ์ออกเป็นพยางค์หรือคำ ซึ่งอาศัยกฎในการตัดคำโดยที่กฎหลักสำหรับการตัดคำได้มาจาก Suited-Syllable-Structure (3-S) Mapping และ Enhanced Thai Character Cluster รวมกฎหลักได้ทั้งสิ้น 50 กฎ และ งานวิจัยนี้ได้เพิ่มกฎย่อยจำนวน 79 กฎ การทดลอง ร้อยละของความถูกต้องในการตัดคำ ข้อความที่มีคำ ควบกล้ำ ข้อความที่มีตัวการันต์ ข้อความปกติ 3-S Mapping 25.0 0.5 19.5 4-S Mapping 95.5 83.0 97.5 บทนำ ประโยคภาษาไทยมีระบบการเขียนที่ต่อเนื่องกันโดยไม่มีการเว้นระยะจนกว่าจะจบประโยค หากเขียนวรรคตอนผิดจะทำให้เสียความหมายหรือทำให้ความหมายเปลี่ยนไปได้ ด้วยโครงสร้างของภาษาเช่นนี้ ทำให้เป็นการยากที่จะแบ่งแยกข้อความออกเป็นคำหรือพยางค์ ซึ่งเป็นปัญหาสำคัญที่จะต้องมีวิธีการตัดคำที่มีประสิทธิภาพเพื่อให้ได้การตัดคำที่ถูกต้อง โดยผู้วิจัยได้เสนอวิธีการตัดคำที่มีประสิทธิภาพมากขึ้น ด้วยการเพิ่มเติมกฎย่อยที่ทำงานร่วมกับกฎการตัดคำหลักของเทคนิคการตัดคำที่เรียกว่า Suited-Syllable-Structure (3-S) Mapping และเรียกเทคนิคการตัดคำที่ได้พัฒนานี้ว่า Sub-ruled Suited-Syllable-Structure (4-S) งานวิจัยนี้ จึงนำเสนอวิธีการสำหรับเทคนิคการตัดคำที่มีขั้นตอนการทำงานโดยรวมดังรูป Sentence and Paragraph Segmentation Alphabet Symbol Substitution Suited-Syllable-Structure + Sub-Rule Mapping (4-S) Thai Syllable Thai Sound Synthesis (Unit Selection Algorithm) สรุปผลการทดลอง บทความนี้ นำเสนอกระบวนการตัดคำประโยคภาษาไทยโดยอาศัยกฎหลัก Suited-Syllable-Structure Mapping, การปรับปรุงการจัดกลุ่มอักขระไทย (Enhanced Thai Character Cluster) และ การสร้างกฎย่อยเพื่อปรับปรุงคุณภาพการทำงานของกฎหลักทั้ง 50 กฎ โดยกฎย่อยที่สร้างขึ้นมามีทั้งหมด 73 กฎย่อย ผลการทดสอบขั้นตอนวิธีที่นำเสนอกับฐานข้อมูล Lexitron ซึ่งเป็นฐานข้อมูลมาตรฐานจำนวน 600 ข้อความ วิธีการที่นำเสนอให้ผลเป็นที่น่าพอใจ กล่าวคือให้ร้อยละของความถูกต้องที่ 95.5, 83.0 และ 97.5 สำหรับข้อมูลทั้งสามกลุ่มที่กล่าวมาข้างต้นตามลำดับ และ ผลจากงานวิจัยในครั้งนี้ คณะผู้วิจัย ได้นำพยางค์ที่ได้จากการตัดคำไปใช้ได้ดีกับซอฟต์แวร์ด้านการสังเคราะห์เสียงพูดภาษาไทยสำหรับการอ่านออกเสียงจดหมายอิเล็กทรอนิกส์ ซึ่งใช้หลักการการวิเคราะห์เสียงแบบ Unit Selection ผลปรากฏว่าซอฟต์แวร์วิเคราะห์เสียงพูดภาษาไทยสามารถสร้างเสียงที่มีความผิดเพี้ยนต่ำ
งานนำเสนอที่คล้ายกัน
© 2024 SlidePlayer.in.th Inc.
All rights reserved.