Information Retrieval

Slides:



Advertisements
งานนำเสนอที่คล้ายกัน
การขุดค้นข้อมูล (Data Mining)
Advertisements

การพัฒนาระบบค้นคืนเอกสารอิเล็กทรอนิกส์ สำหรับงานสารบรรณ
การออกแบบฐานข้อมูลและการบริหารธุรกิจ
World Wide Web. You will know หัวเรื่องหลักๆทั้งหมด 5 หัวข้อดังนี้ Basic Web Concept Web application in daily life Essential Web Developer Language How.
เรื่องที่ 1 เรื่องที่ 2 เรื่องที่ 3 เรื่องที่ 4 เรื่องที่ 5 บทเรียน.
เรื่องที่ 1 เรื่องที่ 2 เรื่องที่ 3 เรื่องที่ 4 เรื่องที่ 5 บทเรียน.
การอภิปราย หัวข้อ “การนำนโยบายสู่การปฏิบัติและเตรียม ความพร้อมรับมืออุบัติเหตุทางถนน” นายเชษฐา โมสิกรัตน์ ผอ.กองนโยบายป้องกันและบรรเทาสาธารณภัย กรมป้องกันและบรรเทาสาธารณภัย.
เจ้าของโครงการ มหาวิทยาลัยสงขลานครินทร์ วิทยาเขตปัตตานี ผู้ควบคุมงาน บริษัท แอ็ดวานซ์ คอนซัลแทนต์ แอนด์ ดีไซน์ จำกัด ผู้รับจ้าง ห้างหุ้นส่วนจำกัด คงมั่นการช่าง.
การค้นคืนสารสนเทศ สัมมนาเข้ม ชุดวิชาการจัดเก็บและการค้น คืนสารสนเทศ สมพร พุทธาพิทักษ์ผล 16 กรกฎาคม 2548.
บริษัท จำกัด Logo company
ศูนย์ข้อมูลกลางเพื่อบริหารจัดเก็บและใช้ประโยชน์
เทคโนโลยีสารสนเทศ อาจารย์ศิริพร ศักดิ์บุญญารัตน์
Information Systems Development
บทที่ 4 อินเตอร์เน็ต.
ผู้บริหารกรมชลประทานกับระบบEIS
การบริหารความสัมพันธ์ลูกค้า Customer Relationship Management: CRM
การออกแบบเว็บไซต์.
การวัดและประเมินผลการเรียนรู้
ระเบียบวิธีวิจัยทางธุรกิจโรงแรม และท่องเที่ยว
บทที่ 10 การนำระบบไปใช้/การบำรุงรักษาระบบ
เครื่องมือทางภูมิศาสตร์
การจัดหาหรือจัดให้มีการพัฒนา และการบํารุงรักษาระบบเครือข่ายคอมพิวเตอร์ ระบบคอมพิวเตอร์ ระบบงานคอมพิวเตอร์ และระบบสารสนเทศ มาตรฐานการรักษาความมั่นคงปลอดภัยของระบบสารสนเทศตามวิธีการแบบปลอดภัย.
จงยกตัวอย่างโปรแกรมที่ใช้สำหรับออกแบบเว็บไซด์
กฎกระทรวง กำหนดมาตรฐานในการบริหาร จัดการ และดำเนินการด้านความปลอดภัย อาชีวอนามัยและสภาพแวดล้อมในการทำงานเกี่ยวกับความร้อน แสงสว่าง และเสียงพ.ศ วันที่ประกาศในราชกิจจานุเบกษา.
เทคโนโลยีสารสนเทศ (Information Technology)
บทที่ 7 ระบบสารสนเทศ.
บทที่ 1 ความหมายขอบเขต และผลกระทบของเทคโนโลยีสารสนเทศ.
บทที่ 2 ระบบสารสนเทศเพื่อการจัดการ
การใช้โปรแกรมเบื้องต้น (Application Overview)
การออกแบบระบบ System Design.
บริษัท จำกัด Logo company
มหาวิทยาลัยราชภัฏนครปฐม
อาจารย์สุธารัตน์ ชาวนาฟาง
โครงการส่งน้ำและบำรุงรักษามโนรมย์ 8 มาตรการช่วยเหลือเกษตรกรที่ได้รับผลกระทบจากภัยแล้ง มาตรการที่ 1 มาตรการส่งเสริมความรู้และสนับสนุนปัจจัยการผลิตเพื่อลดค่าใช้จ่ายในครัวเรือน.
การเบิก-จ่ายเงินอย่างมืออาชีพ
บทที่ 4 อินเตอร์เน็ต.
การพัฒนาระบบบริหารจัดการ กองทุนพัฒนาบทบาทสตรี จังหวัดบุรีรัมย์ 9 สิงหาคม นางสุนิสา บุญยาทิษฐาน พัฒนาการจังหวัดบุรีรัมย์ 9 สิงหาคม 2560.
โดย โอฬาริก สุรินต๊ะ คณะวิทยาการสารสนเทศ มหาวิทยาลัยมหาสารคาม
ความต้องการสารสนเทศ (Information need)
โครงการเกษตรทฤษฎีใหม่
การคำนวณต้นทุนผลผลิต
การออกแบบแบบสอบถาม การสร้างเขตข้อมูลใหม่
Review of the Literature)
ความสำคัญและประเภทของโครงงานคอมพิวเตอร์
บทเรียนที่ 1 ความรู้เบื้องต้นเกี่ยวกับเทคโนโลยีสารสนเทศ
โดย ดร.ปราณี คงพิกุล ผอ.กลุ่มนิเทศติดตามและประเมินผลการศึกษา
Development Strategies
การพัฒนาระบบสารสนเทศ
คู่มือใช้งานระบบข้อมูลสารสนเทศอนามัยสิ่งแวดล้อมของประเทศไทย
สถานการณ์โรคไข้เลือดออก สัปดาห์ที่ 33
พระพุทธศาสนา.
ใบความรู้ที่ 2 เรื่อง ความหมายและประเภทของโครงงานคอมพิวเตอร์
Burin Rujjanapan Updated: 16 March 2018
การประชุมตรวจราชการตามแผนการตรวจราชการ กระทรวงทรัพยากรธรรมชาติและสิ่งแวดล้อม ประจำปีงบประมาณ พ.ศ รอบที่ 1 (Project and Progress Reviews) วันจันทร์ที่
ขององค์กรปกครองส่วนท้องถิ่น
เทคโนโลยีสารสนเทศ อาจารย์ศิริพร ศักดิ์บุญญารัตน์
Information Retrieval
การเก็บรวบรวมข้อมูล.
01 การจัดเก็บและค้นคืนสารสนเทศ พัฒนาการ.
อ.พิณรัตน์ นุชโพธิ์ คณะวิทยาการจัดการ มหาวิทยาลัยราชภัฏพิบูลสงคราม
ความรู้พื้นฐานเกี่ยวกับการสร้างเว็บไซต์
การดำเนินกิจการ ของสหกรณ์ออมทรัพย์.
คัดสรรกิจกรรมพัฒนาชุมชนดีเด่น ประจำปี 2562
บทที่ 3 กระบวนการผลิตซอฟต์แวร์ (Software Process)
ชื่อเรื่องวิจัย ชื่อผู้วิจัย
Work Smart Award 2017 โครงการชลประทานมุกดาหาร
제 10장 데이터베이스.
ระบบสารสนเทศทางธุรกิจ
รูปภาพประกอบเกี่ยวกับ
การรวบรวมข้อมูลข่าวสารการตลาด (The Marketing Information Gathering)
ใบสำเนางานนำเสนอ:

Information Retrieval ผศ. ดร. ไกรศักดิ์ เกษร ภาควิชาวิทยากาคอมพิวเตอร์ฯ มหาวิทยาลัยนเรศวร kraisakk@nu.ac.th Tel. 055963263

9. Information Retrieval System Evaluation การประเมินประสิทธิภาพระบบค้นคืนสารสนเทศ

การเตรียมข้อมูลพื้นฐานสำหรับการประเมินประสิทธิภาพระบบค้นคืนสารสนเทศ เอกสารเพื่อใช้เป็นตัวอย่างในการทดสอบการค้นคืนสารสนเทศซึ่งจะรวบรวมไว้ในที่เดียวกันเรียกว่า คอลเล็คชั่นสำหรับทดสอบ (Test collection) ตัวอย่างข้อคำถามเพื่อใช้ในการทดสอบ (Test query) ซึ่งการเลือกข้อคำถามที่ใช้ในการทดสอบนี้มีความสำคัญอย่างยิ่งต่อผลการประเมินประสิทธิภาพระบบค้นคืนสารสนเทศ ถ้าข้อคำถามง่ายเกินไปหรือไม่คอบคลุม ผลการประเมินอาจจะไม่บ่งบอกประสิทธิภาพที่แท้จริงของระบบของเรา ข้อมูลการประเมินจากผู้เชี่ยวชาญ ซึ่งจะบอกว่าข้อคำถามและเอกสารในคอลเล็คชั่นใดเกี่ยวข้องกันบ้าง

เอกสารที่ใช้ในการทดสอบระบบ เลือกจากคอลเล็คชั่นที่มีอยู่แล้วและเป็นมาตรฐานบนอินเทอร์เน็ต สร้างคอลเล็คชั่นขึ้นมาเอง

คอลเล็คชั่นสำหรับชุดข้อมูลประเภทตัวอักษร Cranfield collection (Cranfield) Text Retrieval Conference (Trec) GOV2 NII Test Collections for IR Systems (Ntcir) Cross Language Evaluation Forum (Clef) Reuters-21578 และ Reuters-RCV1 (Reuters) 20 Newsgroups (Newgroups)

คอลเล็คชั่นสำหรับข้อมูลประเภทรูปภาพ USC-SIPI image database AT&T Laboratories Cambridge face TESTIMAGES

การประเมินประสิทธิภาพจากเอกสารที่ถูกเลือกแต่ไม่ได้เรียงลำดับความคล้ายคลึง Precision จะบอกถึงประสิทธิภาพของระบบในการค้นคืนเอกสารโดยดูจากอัตราส่วนของจำนวนเอกสารที่ถูกต้องกี่เอกสารจากเอกสารที่ถูกเลือกมาทั้งหมด Recall หมายถึงประสิทธิภาพของการค้นคืนเอกสารโดยดูจากอัตราส่วนจำนวนเอกสารที่ถูกต้องที่เลือกมาต่อจำนวนเอกสารที่ถูกต้องทั้งหมดที่อยู่ในคอลเล็คชั่น โดยที่ X คือจำนวนเอกสารที่ถูกต้องที่ถูกดึงมาเป็นผลลัพธ์ Y คือจำนวนเอกสารทั้งหมดที่ถูกดึงมาเป็นผลลัพธ์ Z คือจำนวนเอกสารที่ถูกต้องทั้งหมดที่อยู่ในคอลเล็คชั่น

การประเมินประสิทธิภาพจากเอกสารที่ถูกเลือกแต่ไม่ได้เรียงลำดับความคล้ายคลึง (ต่อ) การรวมค่าพรีซิชั่นและรีคอลเข้าด้วยกันโดยหาค่าเฉลี่ยที่ดีที่สุด (Weighted harmonic mean) เรียกว่า “ตัววัดค่าเอฟ (F-measure)” หรือ “F1 score”

การประเมินประสิทธิภาพระบบค้นคืนสารสนเทศและเรียงลำดับตามความคล้ายคลึง ตัวอย่าง กราฟพรีซิชั่น-รีคอล

การประเมินประสิทธิภาพระบบค้นคืนสารสนเทศและเรียงลำดับตามความคล้ายคลึง (ต่อ) “Mean Average Precision (MAP)” จะให้ค่าเฉลี่ยของพรีซิชั่นจากค่าของรีคอลทั้งหมดของทุกๆ ข้อคำถาม โดยทำการหาค่าพรีซิชั่น ณ ทุกๆ ตำแหน่งที่ปรากฏเอกสารที่เกี่ยวข้อง (Relevance) ใน Top k ของรายการผลลัพธ์ หลังจากนั้นนำค่าพรีซิชั่นเหล่านั้นมาหาค่าเฉลี่ยซึ่งจะเรียกว่า “ค่าเฉลี่ยพรีซิชั่น (AP-Average precision)”สำหรับข้อคำถาม 1 ข้อคำถาม 𝐴𝑃= 𝑇𝑜𝑡𝑎𝑙 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 𝑛𝑜.𝑜𝑓 𝑟𝑒𝑙𝑒𝑣𝑎𝑛𝑡 𝑑𝑜𝑐𝑢𝑚𝑒𝑛𝑡𝑠 ค่าเฉลี่ยของ AP จากทุกๆ ข้อคำถามเรียกว่า MAP 𝑀𝐴𝑃= 𝐴𝑃 𝑛𝑜.𝑜𝑓 𝑞𝑢𝑒𝑟𝑖𝑒𝑠

แสดงตัวอย่างเอกสารในรายการผลลัพธ์ วิธีมาตรฐานคือการแสดงตัวอย่างของเนื้อหา (Snippet) ในเอกสารนั้นๆ ให้ผู้ใช้ทราบซึ่งเป็นสรุปเนื้อหาอย่างย่อซึ่งทำให้ผู้ใช้ตัดสินใจได้ว่า เอกสารนั้นเกี่ยวข้องกับสิ่งที่ตนมองหาอยู่หรือไม่ โดยทั่วไปแล้วตัวอย่างของเนื้อหาในเอกสารนี้ประกอบด้วย ชื่อเอกสารและเนื้อหาสรุปอย่างย่อของเอกสารนั้น ปัญหาที่ตามคือจะทำการสรุปเนื้อหาอย่างไรให้สามารถดึงใจความสำคัญของเอกสารออกมาและเป็นประโยชน์ต่อผู้ใช้ โดยทั่วไปการสรุปเนื้อหาของเอกสารมี 2 วิธีคือ การสรุปเนื้อหาแบบคงที่ (Static) ซึ่งไม่มีการเปลี่ยนแปลงใดๆ ตาม ข้อคำถามของผู้ใช้ การสรุปเนื้อหาแบบไดนามิก (Dynamic)

การประเมินประสิทธิภาพของระบบโดยดูจากผู้ใช้ การวัดประเมินประสิทธิภาพของระบบค้นคืนสารสนเทศอีกวิธีหนึ่งการวัดจากผู้ใช้ ซึ่งความต้องการของผู้ใช้ (User requirements) ที่มีต่อระบบค้นคืนสารสนเทศมี 3 ประการคือ ค้นคืนเอกสารได้อย่างถูกต้อง มีความรวดเร็วในการทำงาน (Speed) และมีความง่ายในการใช้งาน (User friendly) ซึ่งการวัดความพึงพอใจของผู้ใช้นั้นทำได้หลายวิธี เราสามารถแบ่งเป็น 2 ประเภทใหญ่ๆ คือ การวัดความพอใจของผู้ใช้แบบอ้อม (Indirect user satisfaction measure) การวัดความพอใจของผู้ใช้แบบตรง (Direct user satisfaction measure)

แบบฝึกหัด ถ้าระบบค้นคืนสารสนเทศเลือกเอกสารจากคอลเล็คชั่นมาทั้งหมด 18 เอกสารในจำนวนเอกสารดังกล่าวเป็นเอกสาร ที่เกี่ยวข้องกับข้อคำถามอยู่ 8 เอกสารจากจำนวน 20 เอกสารที่เกี่ยวข้องทั้งหมดในคอลเล็คชั่น จากข้อมูลดังกล่าวจง คำนวณหาค่าพรีซิชั่น รีคอล และ F1 รายการเอกสารผลลัพธ์ต่อไปนี้เป็นเอกสารที่ถูกเลือกขึ้นมาจากคอลเล็คชั่น 10,000 เอกสาร และเป็นเอกสารใน 20 อันดับแรกที่มีคะแนนสูงสุดเรียงจากซ้ายไปขวา โดยที่ R หมายถึงเป็นเอกสารที่ตรงกับข้อคำถาม และ N หมายถึง เอกสารที่ไม่ตรงกับข้อคำถามและมีเอกสารที่เกี่ยวข้องทั้งหมด 10 เอกสารในคอลเล็คชั่น R R N N N N N N R N R N N N R N N N N R จงหาค่าพริซิชั่นของระบบค้นคืนสารสนเทศนี่จากเอกสาร 20 อันดับแรกนี้ จงหาค่า F1 จงหาค่า AP จากเอกสาร 20 อันดับแรกนี้

แบบฝึกหัด (ต่อ) 4). ทดลองใช้ Google นักศึกษาคิดว่า Google ใช้หลักการของการสรุปเนื้อหาแบบใด ไดนามิกหรือคงที่ เพราะอะไร เปิดเว็บไซต์ Google.com (ไม่ใช้ Google.co.th)และพิมพ์คำว่า Jaguars ซึ่งหมายถึงเสือจากัวร์ จงตอบคำถามต่อไปนี้ 4.1) จงหาว่าในหน้าแรก (Page 1) และหน้าที่สอง (Page 2) มีเว็บไซต์ที่เกี่ยวข้องกับเสือจากัวร์ กี่เว็บไซต์ (ไม่นับลิงค์เกี่ยวกับรูปภาพ) หน้า 1 Relevant = ................. Non-relevant = .................. หน้า 2 Relevant = ..................Non-relevant = .................. 4.2) จากข้อ 4.1 จงเติมค่าในตาราง โดยที่ตำแหน่งเว็บไซต์ใดที่เกี่ยวข้องกับเสือจากัวร์ ให้มีค่าเท่ากับ 1 และถ้าไม่เกี่ยวของให้ใส่ค่า 0 4.3) จงหาค่า AP ของผลลัพธ์ดังกล่าว ตำแหน่ง 1 2 3 4 5 6 7 8 9 10 11 12 เกี่ยวข้องหรือไม่   13 14 15 16 17 18 19 20

แบบฝึกหัด (ต่อ) จากการเปรียบเทียบผลการค้นหาระหว่าง Google.com และ Alltheweb.com ท่านคิดว่าระบบใด ดีกว่ากัน จงระบุข้อดีของเว็บไซต์ทั้งสอง ทดลองเขียนโปรแกรมโดยใช้ภาษาอะไรก็ได้เพื่อทำการสร้างข้อความสรุปของเอกสารที่เป็นผลลัพธ์ ของการข้อคำถามในข้อ 6 โดยใช้วิธีการสรุปเนื้อหาแบบคงที่โดยแสดงเนื้อหาเฉพาะ 50 ตัวอักษรแรก เท่านั้น

คำถาม-ข้อสงสัย?