มหาวิทยาลัยมหาสารคาม การตัดตัวอักษรลายมือเขียนภาษาไทยออกจากเอกสารภาพเชิงดิจิตอล Thai Handwritten Character Segmentation from Digital Image Document โดย ณัฐธิดา ลีสม โอฬาริก สุรินต๊ะ คณะวิทยาการสารสนเทศ มหาวิทยาลัยมหาสารคาม
บทนำ สารสนเทศเป็นสิ่งที่ช่วยสนับสนุนการตัดสินใจ รูปแบบของสารสนเทศอาจเป็นได้ทั้ง ข้อความ รูปภาพ และเสียง สารสนเทศในปัจจุบันถูกเก็บรวบรวมอยู่ในรูปแบบดิจิตอล (Digital) ทำให้สะดวกต่อการค้นคืน (Retrieval)
บทนำ แต่ยังมีสารสนเทศบางประเภทที่ถูกเก็บรวบรวมให้อยู่ในรูปแบบของเอกสาร (Document) สารสนเทศประเภทนี้ยังไม่ถูกปรับเปลี่ยนให้อยู่ในรูปแบบของดิจิตอล จึงทำให้ยากต่อการค้นคืน และนำมาใช้งาน ดังนั้นจึงประยุกต์ใช้ความรู้ทางด้านการประมวลผลภาพ (Image Processing) เพื่อปรับเปลี่ยนเอกสาร ให้เป็นรูปภาพเชิงดิจิตอล (Digital Image)
Output (Character Segmentation) Input (Digital Image) Gray Image Black and White Image Noise Reduction Line Segmentation Output (Character Segmentation) Background Elimination Diagram
วิธีการศึกษา การตัดตัวอักษรลายมือเขียนภาษาไทยออกจากเอกสารภาพเชิงดิจิตอล ควรมีความรู้พื้นฐานในเรื่องต่อไปนี้ การประมวลผลภาพ (Image Processing) ภาพเชิงดิจิตอล (Digital Image)
การประมวลผลภาพ (Image Processing) การประมวลผลภาพเปรียบเสมือนการจัดการ การวิเคราะห์สารสนเทศของภาพ ใช้คอมพิวเตอร์ในการประมวลผล โดยวิธีการขึ้นอยู่กับผลลัพธ์ที่ต้องการ เช่น การแปลงภาพ (Image Transformation) การค้นคืนภาพ (Image Retrieval) การปรับปรุงคุณภาพของภาพ (Image Enhancement) การแบ่งภาพและการหาขอบวัตถุในภาพ (Image Segmentation and Edge Detection) ฯลฯ
ภาพเชิงดิจิตอล (Digital Image)
ภาพสี (RGB Image)
ตัวอย่างเอกสารที่เขียนด้วยลายมือ ภาพสี ตัวอย่างเอกสารที่เขียนด้วยลายมือ
ภาพสีเทา (Gray Image)
ภาพสีเทา ภาพสี ภาพสีเทา
ภาพขาวดำ (Black and White Image)
ภาพขาวดำ ภาพสีเทา ภาพขาวดำ
การกำจัดสัญญาณรบกวน (Noise Reduction) เมื่อได้ภาพขาวดำ ภาพที่ได้มานั้นอาจยังมีส่วนเกินที่อยู่ในภาพ ทำให้ภาพนั้นยังไม่มีความชัดเจน จึงต้องอาศัยวิธีการกำจัดสัญญาณรบกวนออกจากรูปภาพ ผลลัพธ์ที่ได้นั้นจะทำให้ภาพชัดเจนมากยิ่งขึ้น
การกำจัดสัญญาณรบกวน ภาพก่อนกำจัดสัญญาณรบกวน ภาพหลังกำจัดสัญญาณรบกวน
การจำแนกบรรทัดข้อความ (Line Segmentation) บรรทัดที่ 1 บรรทัดที่ 2
การจำแนกตัวอักษรออกจากบรรทัดข้อความ (Character Segmentation)
ปัญหาที่พบ
ปัญหาที่พบ
วิจารณ์และสรุปผล การตัดตัวอักษรลายมือเขียนภาษาไทยออกจากเอกสารภาพเชิงดิจิตอลประยุกต์ใช้ความรู้ทางด้านการประมวลผลภาพ นำเอกสารมาผ่านการสแกน เพื่อแปลงให้อยู่ในรูปของเอกสารเชิงดิจิตอล นำเอกสารเชิงดิจิตอลนั้นมาผ่านกระบวนการ แปลงภาพสีให้เป็นภาพระดับเทา แปลงภาพระดับเทาให้เป็นภาพขาวดำ กำจัดสัญญาณรบกวน จำแนกบรรทัดข้อความ และ จำแนกตัวอักษรออกจากบรรทัดข้อความ ผลลัพธ์ที่ได้จากการศึกษาค้นคว้าครั้งนี้คือ รูปภาพตัวอักษร ภาษาไทยที่พร้อมนำไปสู่การหาคุณลักษณะพิเศษ
จบการนำเสนอ ขอบคุณทุกท่านที่เข้าร่วมฟังการบรรยาย