Information Retrieval ผศ. ดร. ไกรศักดิ์ เกษร ภาควิชาวิทยากาคอมพิวเตอร์ฯ มหาวิทยาลัยนเรศวร kraisakk@nu.ac.th Tel. 055963263
7 Semantic-based Image Retrieval การค้นคืนรูปภาพเชิงความหมาย
การแปลงคุณลักษณะระดับต่ำเป็นความหมายในระดับสูง ก่อนที่จะทำดัชนีหรือทำการค้นหาข้อมูล รูปภาพจะต้องถูกประมวลผลเพื่อดึงเอาคุณลักษณะต่ำเหล่านี้ออกมา (Feature extraction) เนื่องด้วยปัญหาช่องว่างเชิงความหมาย นักวิจัยจึงพยายามจะแปลงคุณลักษณะระดับต่ำเหล่านี้ให้สื่อถึงความหมายที่ซ่อนอยู่ในรูปภาพ นั่นคือพยายามที่จะเชื่อมคุณลักษณะระดับต่ำไปยังคอนเซฟท์หรือความหมายระดับสูงที่อยู่ในรูปภาพ ซึ่งมีเทคนิคต่างๆ
เทคนิคการตอบกลับจากผู้ใช้ (Relevance feedback) จุดประสงค์หลักของวิธีนี้คือต้องการให้ระบบทำการเรียนรู้สิ่งที่ผู้ใช้กำลังมองหาและทำการปรับข้อมูลหรือข้อคำถามในการค้นหาบนพื้นฐานที่ผู้ใช้ให้ข้อมูลตอบกลับมายังระบบ ขั้นตอนการทำงานของวิธีการ RF มีดังนี้ ผู้ใช้ทำการใส่ข้อคำถามให้กับระบบค้นคืนสารสนเทศ ระบบค้นคืนสารสนเทศแสดงผลลัพธ์ของการค้นหาในครั้งแรก ผู้ใช้ใส่ข้อมูลให้กับระบบว่าเอกสารใดเกี่ยวข้อง (Relevant) และไม่เกี่ยวข้อง (Non-relevant) บ้าง ระบบทำการค้นหาข้อมูลอีกครั้ง โดยนำข้อมูลที่ผู้ใช้ใส่เข้ามาจากขั้นตอนที่ 3) มาพิจารณาร่วมด้วยในการค้นหาข้อมูล ระบบค้นคืนสารสนเทศทำการแสดงผลการค้นข้อมูลอีกครั้งกับผู้ใช้
เทคนิคการตอบกลับจากผู้ใช้ (Relevance feedback) (ต่อ) วิธีการ RF สามารถแบ่งได้ออกเป็น 3 ประเภทคือ การตอบกลับแบบชัดเจน (Explicit feedback) การตอบกลับแบบปริยาย (Implicit feedback) การตอบการแบบ Blind หรือ Pseudo feedback
การตอบกลับแบบชัดเจน (Explicit feedback) การได้ความเห็นจากผู้ใช้ว่าข้อมูลที่ได้มีความถูกต้องหรือเกี่ยวข้องกับข้อคำถามที่ผู้ใช้ใส่เข้าไปในระบบหรือไม่ สามารถระบุความเกี่ยวข้องของผลลัพธ์แต่ละรายการโดยใช้ระบบไบนารี่ (binary)หรือตรรกศาสตร์ การระบุความเกี่ยวข้องกับข้อคำถามเรียกว่า ระบบการให้เกรด (grading) นั่นคือการที่ผู้ใช้ระบุว่าข้อมูลผลลัพธ์เกี่ยวข้องหรือไม่
การตอบกลับแบบปริยาย (Implicit feedback) ข้อแตกต่างที่สำคัญระหว่างวิธีการตอบกลับแบบปริยายและการตอบกลับแบบชัดเจน การตอบกลับของผู้ใช้ไม่ได้มุ่งหวังในการปรับปรุงประสิทธิภาพของระบบค้นคืนสารสนเทศ แต่เพื่อความพอใจของผู้ใช้เป็นหลัก ผู้ใช้ไม่ทราบถึงการเก็บข้อมูลระหว่างการใช้งาน
การตอบการแบบ (Blind or Pseudo feedback) วิธีการนี้ปรับปรุงมาจากข้อเสียของการตอบกลับแบบชัดเจน นั่นคือผู้ใช้ไม่จำเป็นต้องให้ข้อมูลตอบกลับหลายๆ รอบ ขั้นตอนการทำงานของวิธีการนี้มีดังต่อไปนี้ เลือกข้อมูลจากรายการผลลัพธ์เริ่มต้นที่ได้จากข้อคำถามของผู้ใช้ การเลือกข้อมูลนี้จะเลือกมาจาก 10 ถึง 50 รายการแรกของผลลัพธ์ขึ้นอยู่กับการทดลอง นำคำหลักที่อยู่ในเอกสารในรายการผลลัพธ์จากข้อ 1) มาคำนวณเพื่อให้น้ำหนัก เช่น ใช้วิธีการ tf-idf ทำการขยายคำหลักในข้อคำถาม (Query expansion) โดยใช้คำที่ได้จากข้อ 2) และเลือกคำที่มีน้ำหนักมากที่สุด 10-20 คำแรก เพื่อหาเอกสารที่เกี่ยวข้องกับคำทั้งหมดและแสดงผลลัพธ์สุดท้ายให้ผู้ใช้
เทคนิคการวิเคราะห์รูปภาพแบบระดับชั้น เพื่อที่จะอธิบายรูปภาพในระดับที่มนุษย์สามารถเข้าใจได้หรือเรียกว่า “semantic level” การนำเสนอเนื้อหาของรูปเป็นลำดับชั้นจะแบ่งได้ออกเป็น 3 ระดับชั้นหลักๆ ได้แก่ ระดับชั้นข้อมูลดิบ (raw data layer) ระดับชั้นนี้คือข้อมูลของรูปภาพในรูปแบบของพิกเซล ระดับชั้นคุณลักษณะ (feature layer) แสดงลักษณะสำคัญการจัดเรียง (pattern) ของพิกเซลในรูปภาพ ระดับชั้นความหมาย (semantic layer) อธิบายถึงความหมายของรูปภาพนั้นๆ และแสดงว่าประกอบด้วยวัตถุใดบ้าง เมื่อระบบสามารถบอกได้ว่ารูปภาพนั้นประกอบด้วยวัตถุใดบ้าง ก็จะสามารถแปลความหมายของรูปภาพได้
เทคนิคการวิเคราะห์รูปภาพแบบระดับชั้น
เทคนิคการวิเคราะห์รูปภาพแบบระดับชั้น
เทคนิคการใช้ออนโทโลยีเพื่อแปลความหมายของรูปภาพ การแปลค่าสีต่างๆ ที่ได้จากรูปภาพและแปลงเป็นคำศัพท์ วิธีการตั้งชื่อสี (Color naming)
เทคนิคการใช้ออนโทโลยีเพื่อแปลความหมายของรูปภาพ
เทคนิคการใช้วิธีการจำแนกรูปภาพ การจัดกลุ่มแบบซุปเปอร์ไวสต์ (Supervised classification) การจำแนกรูปภาพแบบใช้พารามิเตอร์ (Parametric classifier) การจำแนกรูปภาพแบบไม่ใช้พารามิเตอร์ (Nonparametric classifier)
เทคนิคการใช้วิธีการจำแนกรูปภาพ การจัดกลุ่มแบบอันซุปเปอร์ไวสต์ (Unsupervised classification) การจัดกลุ่มแบบลำดับชั้น (Hierarchical clustering) การจัดกลุ่มแบบไม่เป็นลำดับชั้น (Nonhierarchical clustering)
เทคนิคการใช้วิธีการจำแนกรูปภาพ ประเภท ประเภทย่อย ตัวอย่างอัลกอริทึม Supervised (Classification) Parametric Bayesian classifier, Minimum distance classifier, Maximum likelihood classifier Nonparametric K-NN, SVM, Decision trees Unsupervised (Clustering) Hierarchical Agglomerative and Divisive clustering Nonhierarchical K-means
เทคนิคการใช้แม่แบบความหมาย ใช้แม่แบบความหมาย เชื่อมระหว่างความหมายระดับสูงและคุณลักษณะระดับต่ำของรูปภาพ
การใช้ข้อมูลตัวอักษรร่วมกับข้อมูลรูปภาพเพื่อแปลความหมายของรูปภาพ การใช้คำศัพท์ต่างๆ ที่อยู่บนเว็บเพ็จเข้ามาช่วยเพิ่มประสิทธิภาพของระบบค้นคืนรูปภาพให้สูงขึ้น ตัวอย่างระบบที่ใช้คำต่างๆ ร่วมกับคุณลักษณะของรูปภาพเพื่อแปลความหมายของรูปภาพเช่น (Kesorn and Poslad, 2008) แนวคิดหลักของงานวิจัยนี้คือการนำเอาคำอธิบายรูปภาพมาจัดหมวดหมู่ให้อยู่ในรูปแบบของออนโทโลยีและเชื่อมต่อไปยังรูปภาพต่างๆ ในฐานความรู้ เพื่อให้ระบบสามารถหารูปภาพต่างๆ โดยใช้คอนเซฟท์ในออนโทโลยีเป็นหลัก แทนวิธีการเปรียบเทียบตัวอักขระระหว่างข้อคำถามและคำต่างๆ ที่อธิบายรูปภาพ
เครื่องมืออื่นๆ เพื่อสนับสนุนการค้นหารูปภาพเชิงความหมาย
รูปแบบการแทนข้อมูลมัลติมีเดีย MPEG-7 Dublin core TV-Anytime EXIF W3C Ontology for Media Resources
สรุปเนื้อหาประจำบท เทคนิคการค้นคืนรูปภาพเชิงความหมาย ข้อจำกัดการใช้ออนโทโลยีเพื่อช่วยในการค้นคืนรูปภาพ การใช้เครื่องจักรกลเรียนรู้ (Learning machine) ต้องการข้อมูลปริมาณมาก การวิธีการตอบการจากผู้ใช้ต้องดำเนินการหลายๆ รอบเพื่อให้ได้ผลลัพธ์ที่ถูกต้อง วิธีการแทนข้อมูลมัลติมีเดียในรูปแบบต่างๆ