Information Retrieval

Information Retrieval
ผศ. ดร. ไกรศักดิ์ เกษร ภาควิชาวิทยากาคอมพิวเตอร์ฯ มหาวิทยาลัยนเรศวร Tel

9. Information Retrieval System Evaluation
การประเมินประสิทธิภาพระบบค้นคืนสารสนเทศ

การเตรียมข้อมูลพื้นฐานสำหรับการประเมินประสิทธิภาพระบบค้นคืนสารสนเทศ
เอกสารเพื่อใช้เป็นตัวอย่างในการทดสอบการค้นคืนสารสนเทศซึ่งจะรวบรวมไว้ในที่เดียวกันเรียกว่า คอลเล็คชั่นสำหรับทดสอบ (Test collection) ตัวอย่างข้อคำถามเพื่อใช้ในการทดสอบ (Test query) ซึ่งการเลือกข้อคำถามที่ใช้ในการทดสอบนี้มีความสำคัญอย่างยิ่งต่อผลการประเมินประสิทธิภาพระบบค้นคืนสารสนเทศ ถ้าข้อคำถามง่ายเกินไปหรือไม่คอบคลุม ผลการประเมินอาจจะไม่บ่งบอกประสิทธิภาพที่แท้จริงของระบบของเรา ข้อมูลการประเมินจากผู้เชี่ยวชาญ ซึ่งจะบอกว่าข้อคำถามและเอกสารในคอลเล็คชั่นใดเกี่ยวข้องกันบ้าง

เอกสารที่ใช้ในการทดสอบระบบ
เลือกจากคอลเล็คชั่นที่มีอยู่แล้วและเป็นมาตรฐานบนอินเทอร์เน็ต สร้างคอลเล็คชั่นขึ้นมาเอง

คอลเล็คชั่นสำหรับชุดข้อมูลประเภทตัวอักษร
Cranfield collection (Cranfield) Text Retrieval Conference (Trec) GOV2 NII Test Collections for IR Systems (Ntcir) Cross Language Evaluation Forum (Clef) Reuters และ Reuters-RCV1 (Reuters) 20 Newsgroups (Newgroups)

คอลเล็คชั่นสำหรับข้อมูลประเภทรูปภาพ
USC-SIPI image database AT&T Laboratories Cambridge face TESTIMAGES

การประเมินประสิทธิภาพจากเอกสารที่ถูกเลือกแต่ไม่ได้เรียงลำดับความคล้ายคลึง
Precision จะบอกถึงประสิทธิภาพของระบบในการค้นคืนเอกสารโดยดูจากอัตราส่วนของจำนวนเอกสารที่ถูกต้องกี่เอกสารจากเอกสารที่ถูกเลือกมาทั้งหมด Recall หมายถึงประสิทธิภาพของการค้นคืนเอกสารโดยดูจากอัตราส่วนจำนวนเอกสารที่ถูกต้องที่เลือกมาต่อจำนวนเอกสารที่ถูกต้องทั้งหมดที่อยู่ในคอลเล็คชั่น โดยที่ X คือจำนวนเอกสารที่ถูกต้องที่ถูกดึงมาเป็นผลลัพธ์ Y คือจำนวนเอกสารทั้งหมดที่ถูกดึงมาเป็นผลลัพธ์ Z คือจำนวนเอกสารที่ถูกต้องทั้งหมดที่อยู่ในคอลเล็คชั่น

การประเมินประสิทธิภาพจากเอกสารที่ถูกเลือกแต่ไม่ได้เรียงลำดับความคล้ายคลึง (ต่อ)
การรวมค่าพรีซิชั่นและรีคอลเข้าด้วยกันโดยหาค่าเฉลี่ยที่ดีที่สุด (Weighted harmonic mean) เรียกว่า “ตัววัดค่าเอฟ (F-measure)” หรือ “F1 score”

การประเมินประสิทธิภาพระบบค้นคืนสารสนเทศและเรียงลำดับตามความคล้ายคลึง
ตัวอย่าง กราฟพรีซิชั่น-รีคอล

การประเมินประสิทธิภาพระบบค้นคืนสารสนเทศและเรียงลำดับตามความคล้ายคลึง (ต่อ)
“Mean Average Precision (MAP)” จะให้ค่าเฉลี่ยของพรีซิชั่นจากค่าของรีคอลทั้งหมดของทุกๆ ข้อคำถาม โดยทำการหาค่าพรีซิชั่น ณ ทุกๆ ตำแหน่งที่ปรากฏเอกสารที่เกี่ยวข้อง (Relevance) ใน Top k ของรายการผลลัพธ์ หลังจากนั้นนำค่าพรีซิชั่นเหล่านั้นมาหาค่าเฉลี่ยซึ่งจะเรียกว่า “ค่าเฉลี่ยพรีซิชั่น (AP-Average precision)”สำหรับข้อคำถาม 1 ข้อคำถาม 𝐴𝑃= 𝑇𝑜𝑡𝑎𝑙 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 𝑛𝑜.𝑜𝑓 𝑟𝑒𝑙𝑒𝑣𝑎𝑛𝑡 𝑑𝑜𝑐𝑢𝑚𝑒𝑛𝑡𝑠 ค่าเฉลี่ยของ AP จากทุกๆ ข้อคำถามเรียกว่า MAP 𝑀𝐴𝑃= 𝐴𝑃 𝑛𝑜.𝑜𝑓 𝑞𝑢𝑒𝑟𝑖𝑒𝑠

แสดงตัวอย่างเอกสารในรายการผลลัพธ์
วิธีมาตรฐานคือการแสดงตัวอย่างของเนื้อหา (Snippet) ในเอกสารนั้นๆ ให้ผู้ใช้ทราบซึ่งเป็นสรุปเนื้อหาอย่างย่อซึ่งทำให้ผู้ใช้ตัดสินใจได้ว่า เอกสารนั้นเกี่ยวข้องกับสิ่งที่ตนมองหาอยู่หรือไม่ โดยทั่วไปแล้วตัวอย่างของเนื้อหาในเอกสารนี้ประกอบด้วย ชื่อเอกสารและเนื้อหาสรุปอย่างย่อของเอกสารนั้น ปัญหาที่ตามคือจะทำการสรุปเนื้อหาอย่างไรให้สามารถดึงใจความสำคัญของเอกสารออกมาและเป็นประโยชน์ต่อผู้ใช้ โดยทั่วไปการสรุปเนื้อหาของเอกสารมี 2 วิธีคือ การสรุปเนื้อหาแบบคงที่ (Static) ซึ่งไม่มีการเปลี่ยนแปลงใดๆ ตาม ข้อคำถามของผู้ใช้ การสรุปเนื้อหาแบบไดนามิก (Dynamic)

การประเมินประสิทธิภาพของระบบโดยดูจากผู้ใช้
การวัดประเมินประสิทธิภาพของระบบค้นคืนสารสนเทศอีกวิธีหนึ่งการวัดจากผู้ใช้ ซึ่งความต้องการของผู้ใช้ (User requirements) ที่มีต่อระบบค้นคืนสารสนเทศมี 3 ประการคือ ค้นคืนเอกสารได้อย่างถูกต้อง มีความรวดเร็วในการทำงาน (Speed) และมีความง่ายในการใช้งาน (User friendly) ซึ่งการวัดความพึงพอใจของผู้ใช้นั้นทำได้หลายวิธี เราสามารถแบ่งเป็น 2 ประเภทใหญ่ๆ คือ การวัดความพอใจของผู้ใช้แบบอ้อม (Indirect user satisfaction measure) การวัดความพอใจของผู้ใช้แบบตรง (Direct user satisfaction measure)

แบบฝึกหัด ถ้าระบบค้นคืนสารสนเทศเลือกเอกสารจากคอลเล็คชั่นมาทั้งหมด 18 เอกสารในจำนวนเอกสารดังกล่าวเป็นเอกสาร ที่เกี่ยวข้องกับข้อคำถามอยู่ 8 เอกสารจากจำนวน 20 เอกสารที่เกี่ยวข้องทั้งหมดในคอลเล็คชั่น จากข้อมูลดังกล่าวจง คำนวณหาค่าพรีซิชั่น รีคอล และ F1 รายการเอกสารผลลัพธ์ต่อไปนี้เป็นเอกสารที่ถูกเลือกขึ้นมาจากคอลเล็คชั่น 10,000 เอกสาร และเป็นเอกสารใน 20 อันดับแรกที่มีคะแนนสูงสุดเรียงจากซ้ายไปขวา โดยที่ R หมายถึงเป็นเอกสารที่ตรงกับข้อคำถาม และ N หมายถึง เอกสารที่ไม่ตรงกับข้อคำถามและมีเอกสารที่เกี่ยวข้องทั้งหมด 10 เอกสารในคอลเล็คชั่น R R N N N N N N R N R N N N R N N N N R จงหาค่าพริซิชั่นของระบบค้นคืนสารสนเทศนี่จากเอกสาร 20 อันดับแรกนี้ จงหาค่า F1 จงหาค่า AP จากเอกสาร 20 อันดับแรกนี้

แบบฝึกหัด (ต่อ) 4). ทดลองใช้ Google นักศึกษาคิดว่า Google ใช้หลักการของการสรุปเนื้อหาแบบใด ไดนามิกหรือคงที่ เพราะอะไร เปิดเว็บไซต์ Google.com (ไม่ใช้ Google.co.th)และพิมพ์คำว่า Jaguars ซึ่งหมายถึงเสือจากัวร์ จงตอบคำถามต่อไปนี้ 4.1) จงหาว่าในหน้าแรก (Page 1) และหน้าที่สอง (Page 2) มีเว็บไซต์ที่เกี่ยวข้องกับเสือจากัวร์ กี่เว็บไซต์ (ไม่นับลิงค์เกี่ยวกับรูปภาพ) หน้า 1 Relevant = Non-relevant = หน้า 2 Relevant = Non-relevant = 4.2) จากข้อ 4.1 จงเติมค่าในตาราง โดยที่ตำแหน่งเว็บไซต์ใดที่เกี่ยวข้องกับเสือจากัวร์ ให้มีค่าเท่ากับ 1 และถ้าไม่เกี่ยวของให้ใส่ค่า 0 4.3) จงหาค่า AP ของผลลัพธ์ดังกล่าว ตำแหน่ง 1 2 3 4 5 6 7 8 9 10 11 12 เกี่ยวข้องหรือไม่ 13 14 15 16 17 18 19 20

แบบฝึกหัด (ต่อ) จากการเปรียบเทียบผลการค้นหาระหว่าง Google.com และ Alltheweb.com ท่านคิดว่าระบบใด ดีกว่ากัน จงระบุข้อดีของเว็บไซต์ทั้งสอง ทดลองเขียนโปรแกรมโดยใช้ภาษาอะไรก็ได้เพื่อทำการสร้างข้อความสรุปของเอกสารที่เป็นผลลัพธ์ ของการข้อคำถามในข้อ 6 โดยใช้วิธีการสรุปเนื้อหาแบบคงที่โดยแสดงเนื้อหาเฉพาะ 50 ตัวอักษรแรก เท่านั้น

คำถาม-ข้อสงสัย?

Information Retrieval

งานนำเสนอที่คล้ายกัน

งานนำเสนอเรื่อง: "Information Retrieval"— ใบสำเนางานนำเสนอ:

งานนำเสนอที่คล้ายกัน

เรื่องโครงการ

การติดต่อกลับ

เข้าสู่ระบบ

ลงทะเบียนผ่านเครือข่ายสังคม:

Information Retrieval

งานนำเสนอที่คล้ายกัน

งานนำเสนอเรื่อง: "Information Retrieval"— ใบสำเนางานนำเสนอ:

งานนำเสนอที่คล้ายกัน

เรื่องโครงการ

การติดต่อกลับ