Information Retrieval ผศ. ดร. ไกรศักดิ์ เกษร ภาควิชาวิทยากาคอมพิวเตอร์ฯ มหาวิทยาลัยนเรศวร kraisakk@nu.ac.th Tel. 055963263
การค้นคืนข้อมูลเอกสารแบบมัลติมีเดีย 4. Multimedia Information Retrieval การค้นคืนข้อมูลเอกสารแบบมัลติมีเดีย
วัตถุประสงค์การเรียนรู้ประจำบท เพื่อให้เข้าใจหลักการทำงานพื้นฐาน และข้อแตกต่างของระบบค้นคืนข้อมูลแบบเอกสารทั่วไปและระบบค้นคืนข้อมูลแบบมัลติมีเดีย เพื่อให้เข้าใจหลักการทำงานเบื้องต้นของระบบค้นคืนข้อมูลรูปภาพและวีดีโอ เพื่อให้เข้าใจการทำดัชนีข้อมูลมัลติมีเดีย เพื่อให้เข้าใจลักษณะการคิวรี่ข้อมูลมัลติมีเดีย
การค้นคืนข้อมูลมัลติมีเดีย “การค้นคืนข้อมูลมัลติมีเดีย” หมายถึงกระบวนการในการค้นหาเอกสารประเภทรูปภาพ วีดีโอ และเสียง เรียกว่า ระบบค้นคืนข้อมูลมัลติมีเดีย (Multimedia Search Engine) คิวรี่อาจจะเป็นมัลติมีเดีย หรือตัวอักขระ
การค้นคืนข้อมูลมัลติมีเดีย รูปที่ 4‑1 ส่วนประกอบพื้นฐานของระบบค้นคืนข้อมูลสารสนเทศมัลติมีเดีย
การใช้คิวรี่เพื่อค้นคืนข้อมูลมัลติมีเดีย
ระบบค้นคืนรูปภาพ (Image Retrieval System) ยุคแรกๆ จะใช้เมต้าเดต้า (metadata) ในการค้นหาภาพ ชื่อไฟล์รูปภาพหรือคำอธิบายภาพ (Text caption) นำไปเปรียบเทียบกับคำในคิวรี่ ปัญหามีอยู่ว่าบางครั้งคนตั้งชื่อไฟล์ไม่ตรงกับเนื้อหาของภาพ เช่น ชื่อไฟล์เป็นตัวเลข “1.JPG” คำอธิบายภาพซึ่งถูกเขียนขึ้นโดยมนุษย์นั้นบางครั้งไม่สามารถอธิบายได้ครอบคลุมเนื้อหาของภาพได้หมด ดังนั้นนักวิจัยจึงหันมาสนใจการใช้คุณลักษณะของภาพ (Image features)
ระบบค้นคืนรูปภาพ (Image Retrieval System) ดังนั้นนักวิจัยจึงหันมาสนใจการใช้คุณลักษณะของภาพ (Image features) ดึงเอาคุณลักษณะต่างๆ ของรูปภาพออกมาเพื่อใช้ในการเปรียบเทียบกับคิวรี่ เริ่มจากการประมวลผลรูปภาพ (Image processing) เพื่อดึงคุณลักษณะของภาพที่สำคัญออกมา ข้อมูลประเภทนี้จะเรียกว่า คุณลักษณะของภาพในระดับต่ำ (Low-level features) ซึ่งแบ่งเป็น 2 ประเภท Global features เช่น สี (Color) รูปทรง (Shape) หรือลักษณะพื้นผิว (Texture) Local features เช่น SIFT
ระบบค้นคืนรูปภาพ (Image Retrieval System) ปัญหาคือ คุณลักษณะของรูปภาพที่เป็นผลลัพธ์จากการประมวลผลรูปภาพนี้เป็นข้อมูลที่ไม่มีความหมายในตัวเอง และไม่สื่อถึงความหมายใดๆ ที่อยู่ในรูปภาพ ปัญหานี้เป็นที่รู้จักกันดีในกลุ่มผู้พัฒนาระบบคืนคืนมัลติมีเดียและเรียกว่า ช่องว่างความหมาย (Semantic gap)
การนำ Low-Level Features ไปใช้ การนำคุณลักษณะของภาพในระดับต่ำนี่ไปใช้ทำได้สองแนวทาง คือ 1) นำคุณลักษณะของภาพในระดับต่ำนี่ไปใช้โดยตรง ไม่มีการแปลงให้อยู่ในรูปแบบของข้อมูลที่มีความหมายที่คนสามารถเข้าใจได้ เรียกว่า การค้นหารูปภาพจากคอนเทนท์ (Content-based Image Retrieval-CBIR) 2) ระบบที่นำคุณลักษณะของภาพในระดับต่ำนี้ไปแปลงให้เป็นข้อมูลที่คนสามารถเข้าใจได้ซึ่งจะเรียกว่า ความหมายของภาพในระดับสูง (High-level semantics)
การนำ Low-Level Features ไปใช้ โดยทั่วไปคุณลักษณะของภาพในระดับต่ำนี้จะแบ่งออกเป็น 2 ประเภทคือ 1) คุณลักษณะแบบโกบอล (Global features) ซึ่งจะเป็นคุณลักษณะแบบรวมๆ ไม่เฉพาะเจาะจง และ 2) คุณลักษณะแบบโลคอล (Local features) ซึ่งจะเป็นคุณลักษณะเฉพาะของแต่ละส่วนในภาพ
Low Level Features คุณลักษณะแบบโกบอล (Global features) สี (Color) เป็นคุณลักษณะที่ถูกใช้มากที่สุดอันหนึ่งในระบบค้นคืนรูปภาพ ฮิสโตแกรมสี (Color histogram) เป็นวิธีที่ได้รับความนิยมมากที่สุด วิธีการนี้จะบอกค่าสถิติการกระจายของสีต่างๆได้แก่ สีแดง เขียว และน้ำเงิน พื้นผิว (Texture) ซึ่งให้ข้อมูลที่สำคัญเพื้อใช้ในการแยกประเภทของภาพ เนื่องจากเป็นคุณลักษณะที่สามารถอธิบายสิ่งที่อยู่ในรูปภาพได้ เช่น ผลไม้ ก้อนเฆก ผ้า ต้นไม้ เป็นต้น Gabor filtering ดูจาก pattern ของข้อมูลที่ซ้ำๆ กัน รูปทรง (Shape) รูปทรงมีประโยชน์สำหรับระบบค้นคืนข้อมูลบางระบบ เช่นระบบที่ค้นคืนข้อมูลรูปภาพที่มีลักษณะเฉพาะ
Low Level Features รูปที่ 4‑3 การค้นหารูปภาพโดยใช้คอนเทนท์ (Content-based Image Retrieval)
Low Level Features ปัญหาของคุณลักษณะแบบโกบอลคือ ภาพเดียวกันแต่มีมุมกล้อง ความสว่างต่างกัน ระบบคอมพิวเตอร์ก็ไม่สามารถที่จะทราบได้ว่าภาพสองภาพนั้นเป็นภาพเดียวกัน คุณลักษณะแบบโลคอล (Local features) Scale Invariant Feature Transform-SIFT SIFT จะหาจุดสำคัญต่างๆ ในภาพ (keypoints) ถูกใช้เป็นประโยชน์ในการแยกประเภทของภาพ (Image classification)
ตัวอย่างระบบค้นคืนรูปภาพ CBIR Content Based Image REtrieval system (CBIRES): http://amazon.ece.utexas.edu/~qasim/research.htm WebSeek: http://www.ctr.columbia.edu/WebSEEk Content-Based Image Retrieval from Digital libraries (C-BIRD): http://www.cs.sfu.ca/cbird
ระบบค้นคืนวีดีโอ (Video Retrieval System) สี รูปทรง และพื้นผิวแล้ว ยังมีข้อมูลของการเคลื่อนที่ (Motion) การค้นคืนข้อมูลวีดีโอ สามารถทำได้ผ่านทางโครงสร้างของวิดีโอ เรียกดูทีละเฟรม (Frame) ตอน (Episode) ค้นหาจากเนื้อหาของวีดีโอ เช่น การเคลื่อนที่ของวัตถุสนใจ จากฉาก (Scene) จากเนื้อเรื่องในวีดีโอ แสดง สี รูปทรง เสียงหรือสถานที่ (location) ในวีดีโอ การคิวรี่จะทำได้เหมือนกับระบบค้นคืนรูปภาพคือการคิวรี่แบบใช้ตัวอย่างฉากในวีดีโอที่ต้องการ อาจจะต้องมีการใช้ข้อมูลเวลา (Temporal Information) มาช่วยในการทำดัชนี
ลักษณะของวีดีโอ วีดีโอ ประกอบด้วยลำดับของรูปภาพหลายๆ ภาพต่อกัน รูปภาพหนึ่งภาพในวีดีโอ เรียกว่า เฟรม (Frame) เมื่อผู้ใช้ทำการกดปุ่มบันทึกวีดีโอ ข้อมูลภาพเคลื่อนไหวจะถูกบันทึกจนกว่าผู้ใช้จะกดปุ่มหยุดบันทึก ข้อมูลในส่วนนี้เรียกว่า ช๊อท (Shot) การเปลี่ยนระหว่างช๊อทจะมีลักษณะการเปลี่ยน 2 รูปแบบคือ แบบต่อเนื่อง (gradual) เช่น fades หรือ dissolves และ แบบไม่ต่อเนื่อง (Cut) คือการเปลี่ยนแบบฉับพลันภายใน 2 เฟรม เฟรมหลัก (Key frame) หมายถึง เฟรมที่สำคัญและเป็นตัวแทนของเนื้อหาในช๊อทนั้นๆ
ตัวอย่างระบบค้นหาวีดีโอออนไลน์ An Automatic Object-Oriented Content-Based Video Search System (VideoQ): http://www.ctr.columbia.edu/VideoQ Miracles AT&T: http://www.research.att.com/projects/Miracle/index.html
การทำดัชนีข้อมูลมัลติมีเดีย (Multimedia Indexing) หลักการสำคัญของการทำดัชนีโดยใช้คุณลักษณะของภาพหรือวีดีโอ คือ ต้องการลดขนาดของมิติของพื้นที่เว็กเตอร์ (Dimensionality of the vector space) ให้เล็กลง การลดจำนวนมิติของพื้นที่เว็กเตอ์ให้น้อยลง วิธีการทิ่นิยมคือวิธีการ PCA (Principal Component Analysis) หรือ SVD (Singular Value Decomposition) ต้องหาโครงสร้างข้อมูลสำหรับดัชนีที่เหมาะสมกับคุณลักษณะของภาพเพื่อการค้นหาและเปรียบเทียบที่รวดเร็ว ต้องมีวีธีการวัดความคล้ายคลึงที่เหมาะสม
การวัดความคล้ายคลึง (Similarity Measure) แม้ว่านักวิจัยจะพยายามพัฒนาวิธีการวัดความคล้ายคลึงกันของคุณลักษณะของภาพและคิวรี่ แต่ดูเหมือนว่าการวัดความคล้ายคลึงระหว่างคิวรี่และคุณลักษณะของรูปภาพหรือวีดีโอยังต้องพัฒนาอีกมาก ถ้ากำหนดให้รูปภาพหนึ่งภาพประกอบด้วยคุณลักษณะต่างๆ F1, F2, F3,…,Fn ตัวอย่างเช่นรูปภาพหน้าคน ประกอบด้วย ตา จมูก ปาก คิ้ว คุณลักษณะเหล่านี้สามารถวัดและแสดงในรูปแบบของตัวเลขได้ เช่นขนาดของตา
การคิวรี่ข้อมูลมัลติมีเดีย (Multimedia Querying) วิธีการนี้เรียกว่า การคิวรี่โดยใช้รูปตัวอย่าง (Query-by-Example) ซึ่งสามารถแปลความหมายได้ว่า หารูปภาพที่คุณลักษณะในระดับต่ำที่เหมือนกับคุณลักษณะของรูปภาพในคิวรี่ การสร้างคิวรี่โดยใช้รูปตัวอย่างทำได้ 2 แบบคือ 1) เลือกรูปภาพจากคอลเล็คชั่นมาเป็นคิวรี่ 2) ผู้ใช้ทำการวาดรูปภาพคิวรี่ขึ้นมาเอง (Sketch/Draw)
ตัวอย่างระบบคืนคืนข้อมูลภาพ รูปที่ 4‑4 ตัวอย่างการสร้างคิวรี่โดยใช้รูปภาพที่มีอยู่แล้วเป็นต้นแบบของคิวรี่ของระบบ ImageFinder
ตัวอย่างระบบคืนคืนข้อมูลภาพ รูปที่ 4‑5 ตัวอย่างการสร้างคิวรี่โดยการวาดภาพโดยผู้ใช้ จากระบบ DrawSearch
ลักษณะสำคัญของระบบค้นคืนมัลติมีเดีย ระบบค้นคืนมัลติมีเดียต้องมีประสิทธิภาพสูง ทั้งในส่วนของพื้นที่เก็บข้อมูลต้องมีขนาดใหญ่ ตั้งแต่ Gigabyte จนถึง Tetabyte เนื่องไฟล์ภาพ วีดีโอและเสียง ปกติมีขนาดใหญ่กว่าไฟล์เอกสารทั่วไปมาก ดังนั้นการประมวลผลรูปภาพเพื่อทำดัชนี หรือรูปภาพในคิวรี่ต้องรวดเร็วเพื่อทำการดึงคุณลักษณะของภาพออกมา เพื่อใช้ในการทำดัชนีหรือการเปรียบเทียบ การเลือกโครงสร้างดัชนี จึงมีความสำคัญ เพื่อการค้นหาที่รวดเร็ว นอกจากนี้อาจจะต้องกมีการสอนให้ระบบเรียนรู้ (Train) ก่อนที่จะนำไปใช้งานจริง การวัดความคล้ายคลึงนั้นสามารถใช้คุณลักษณะของรูปภาพมากกว่า 1 ชนิดร่วมกัน เพื่อหาภาพที่มีความคล้ายคลึงกับคิวรี่มากที่สุด ซึ่งเป็นหัวข้อที่น่าสนใจอันหนึ่งสำหรับนักศึกษาปริญญาโทและเอก ในการพัฒนาระบบค้นคืนมัลติมีเดียโดยหลักการของ CBIR
สรุปเนื้อหาประจำบท ระบบคืนคืนมัลติมีเดีย 2 ระบบคือ ระบบคืนคืนรูปภาพและ ระบบคืนคืนวีดีโอ ปัญหาช่องว่างความหมาย (Semantic gap) จะนำคุณลักษณะเหล่านี้ไปใช้สามารถทำได้ 2 วิธีคือ 1) นำไปใช้โดยตรงโดยไม่มีการตีความให้อยู่ในรูปแบบที่มนุษย์เข้าใจได้ (Low-level semantics) และ 2) นำไปตีความหมายในระดับสูงขึ้นที่มนุษย์เข้าใจได้ (High-level semantics) คุณลักษณะของภาพสามารถแบ่งออกเป็น 2 ประเภทใหญ่ๆ คือ คุณลักษณะแบบโกบอลและโลคอล
สรุปเนื้อหาประจำบท ในการใช้คุณลักษณะเหล่านี้ไปประมวลผลนั้นมีหลักการ 3 ประการคือ 1) ต้องการกำจัดคุณลักษณะบางคุณลักษณะทิ้งไปเพื่อให้มิติของพื้นที่เว็กเตอร์มีขนาดน้อยลง 2) ต้องหาโครงสร้างในการทำดัชนีให้เหมาะสม เช่น R-Tree หรือ B-Tree เป็นต้น และ 3) ใช้วิธีการวัดความคล้ายคลึงที่เหมาะสม
สรุปเนื้อหาประจำบท ในการคิวรี่ข้อมูลมัลติมีเดีย คิวรี่โดยใช้ตัวอย่าง (Query-by-Example) ใช้คีย์เวิรดในการคิวรี่