งานนำเสนอกำลังจะดาวน์โหลด โปรดรอ

งานนำเสนอกำลังจะดาวน์โหลด โปรดรอ

Information Retrieval

งานนำเสนอที่คล้ายกัน


งานนำเสนอเรื่อง: "Information Retrieval"— ใบสำเนางานนำเสนอ:

1 Information Retrieval
ผศ. ดร. ไกรศักดิ์ เกษร ภาควิชาวิทยากาคอมพิวเตอร์ฯ มหาวิทยาลัยนเรศวร Tel

2 1. Introduction to Information Retrieval System
แนะนำระบบค้นคืนข้อมูลสารสนเทศ

3 วัตถุประสงค์การเรียนรู้ประจำบท
เพื่อให้เข้าใจหลักการทำงานพื้นฐานของระบบค้นคืนข้อมูลสารสนเทศ เพื่อให้เข้าใจหลักการทำดัชนีข้อมูลเบื้องต้น เช่น การทำดัชนีแบบอินเวิร์ท เพื่อให้เข้าใจหลักการคิวรี่อย่างง่าย เช่น บูลีนคิวรี่ เพื่อให้เข้าใจหลักการเรียงลำดับผลลัพธ์ของการค้นหาข้อมูล

4 บทนำ ปัจจุบันผู้ใช้อินเทอร์เน็ตมีความเกี่ยวข้องกับการค้นหาข้อมูลที่ต้องการในทุกๆ วัน ไม่ว่าจะเป็นการค้นหาข้อมูลจากเว็บไซต์ต่างๆ หรือจากอีเมล์ ระบบค้นคืนข้อมูลหรือที่เรียกว่า โปรแกรมค้นหาข้อมูล เช่น บทที่ 1 พื้นฐานระบบค้นคืน สารสนเทศ Introduction to Information Retrieval System

5 ความหมายของระบบค้นคืนสารสนเทศ
“ระบบค้นคืนสารสนเทศคือ ระบบการเสนอข้อมูล (Representation) การจัดการข้อมูล (Organization) และการเข้าถึงข้อมูล (Access) จำนวนมหาศาลที่มีความหลากหลายซึ่งถูกเก็บไว้ในรูปแบบดิจิตอล” , Rijsbergen (1980)

6 ประเภทของระบบค้นคืนสารสนเทศ
การใช้งาน การค้นคืนสารสนเทศ แบบเดิม ตรรกศาสตร์ เว็กเตอร์ ความน่าจะเป็น แบบมีโครงสร้าง ต้นไม้ ออนโทโลยี การเรียกดูสารสนเทศ การเชื่อมโยงหรือไฮเปอร์ลิงค์ แบบไม่มีโครงสร้าง

7 ลักษณะข้อมูลและวิธีการค้นคืนสารสนเทศ

8 องค์ประกอบพื้นฐานของระบบการค้นคืนสารสนเทศ

9 Information Retrieval Processes
Indexing Querying Matching Ranking

10 Indexing หลีเลี่ยงการค้นหากแบบ “Linear scanning” ความเร็วในการค้นหา
Memory Hard disk (Serial ATA, Solid-State drive) CPU

11 ตัวอย่างที่ 1-1 การทำดัชนีแบบอินเวิร์ท
เก็บรวบรวมเอกสาร Tokenizing/Stemming Brian from Great Britain performs 100m freestyle men in Bejing, China Brian From Great Britain Performs 100m freestyle Men In Bejing China

12 ตัวอย่างการทำดัชนีแบบอินเวิร์ท
Brian From Great Britain Perform 100m freestyle Men in Bejing China Stop words removal

13 ตัวอย่างการทำดัชนีแบบอินเวิร์ท
1 2 3 เอกสารที่ 1 ความถี่ที่ปรากฎในเอกสาร เอกสารที่ 2 เอกสารที่ 3

14 Information Retrieval Processes
Indexing Querying Matching Ranking

15 Querying Retrieve information Boolean query/retrieval Browsing
AND (conjunction) OR (exclusive) NOT (negation)

16 การค้นหาข้อมูล ในการค้นคืนข้อมูลมีวิธีการพื้นฐานสองแบบคือ
การค้นดูข้อมูล (Browsing) การสอบถามข้อมูล (Querying) ซึ่งมีข้อดีและข้อเสียของแต่ละวิธีต่างกัน การค้นดูคือการส ารวจข้อมูล (Explore) การมองข้อมูล (View) โดยรวมซึ่งประสิทธิภาพของการเรียกดูข้อมูลขึ้นอยู่กับการจัดโครงสร้างข้อมูลที่ดี (Organize) ตัวอย่างของการเรียกดูข้อมูลที่เห็นได้ชัดในปัจจุบันคือการใช้เทคนิคไฮเปอร์ลิงค์ (Hyperlink) และ โครงสร้างแบบล าดับชั้น (Hierarchical structure) การค้นคืนสารสนเทศแบบตรรกศาสตร์(Boolean retrieval) การค้นคืนสารสนเทศแบบตรรกศาสตร์คือ รูปแบบการค้นคืนสารสนเทศที่เราสามารถสร้างข้อค าถามที่ใช้ตัวท างานทางตรรกะ เช่น AND OR หรือ NOT

17 AND AND (conjunction) คือการนำเอกสารที่คำใดคำหนึ่งในข้อคำถามปรากฏอยู่มารวมกัน และดึงเอกสารที่ ซ้อนทับกัน (Overlap) มาเป็นผลลัพธ์

18 OR ไม่สนใจเอกสารใดๆ ในพื้นที่สีขาว
OR (inclusive or exclusive disjunction) คือดึงเอกสารทั้งหมดที่มีคำใดคำหนึ่งในข้อคำถามหรือคำ ทั้งหมดในข้อคำาถามปรากฏในเอกสาร ตัวอย่างเช่น เอกสารชุด A และเอกสารชุด B เมื่อใช้ OR ข้อมูลที่จะทำการดึงมาเป็นผลลัพธ์คือข้อมูลทั้งหมดของ A และ B ไม่สนใจเอกสารใดๆ ในพื้นที่สีขาว

19 NOT สนใจเอกสารในพื้นที่สีดำ
NOT (Negation) คือการดึงเอกสารทั้งหมดที่ไม่มีคำในข้อคำถามปรากฏอยู่ เช่น ถ้าข้อมูลชุด A คือ เอกสารทั้งหมดที่มีคำในข้อค าถามปรากฏอยู่ ระบบจะดึงเอกสารอื่นๆ ที่ไม่อยู่ใน A มาเป็นผลลัพธ์ของการ ค้นหา สนใจเอกสารในพื้นที่สีดำ

20 ตัวอย่างที่ 1-2 การค้นหาข้อมูล
ต้องการค้นหาเอกสารที่เกี่ยวข้องกับ Great Britain และ Freestyle ดังนั้นผู้ใช้ทำการสร้างข้อคำถามตรรกศาสตร์ดังนี้ “Great Britain AND Freestyle” 1) ทำการตัดคำ (Tokenizing) และเปลี่ยนคำให้อยู่ในรูปแบบดั้งเดิม (Stemming) great britain / AND / freestyle 2) ทำการกำจัดคำที่ไม่สำคัญ (Stop words) ทิ้งไป (ในตัวอย่างนี้ไม่มีคำไม่สำคัญ) great britain / AND / freestyle 3) ตรวจสอบคำที่เป็นตัวทำการลอจิก great britain / AND / freestyle 4) ทำการแปลงข้อคำถามให้อยู่ในรูปแบบที่คอมพิวเตอร์เข้าใจและส่งต่อไปยังส่วนของการ ค้นหาเปรียบเทียบและเรียงลำดับข้อมูล “great britain”, “freestyle” มาก ….. น้อย

21 การค้นหาข้อมูล (Searching) การค้นหาข้อมูลบนไฟล์ดัชนีแบบอินเวิร์ทมีขั้นตอนการทำงาน
ผลลัพธ์ของการค้นหาข้อมูลคือเอกสารหมายเลข 1 และ 2

22 ตัวอย่างที่ 1-3 พิจารณาการค้นหาข้อมูลจากข้อคำถาม Brian AND Freestyle AND Great Britain ข้อคำถามดังกล่าวสามารถดำเนินการได้ 2 รูปแบบ (Brian AND Great Britain) AND Freestyle (Freestyle AND Great Britain) AND Brian ผลการดำเนินการทั้ง 2 รูปแบบได้ผลลัพธ์ต่างกันหรือไม่? รูปแบบไหนดีกว่ากัน? เพราะอะไร?

23 Query 1 (Brian AND Great Britain) AND Freestyle

24 Query 2 (Freestyle AND Great Britain) AND Brian

25 Information Retrieval Processes
Indexing Querying Matching Ranking

26 การเปรียบเทียบ (Matching)
การเปรียบเทียบแบบเนอิฟ (Naïve string matching) เป็นวิธีการเปรียบเทียบที่ง่ายที่สุดแต่มีประสิทธิภาพการทำงานต่ำสุด การเปรียบเทียบแบบประมาณ (Approximate string matching) หรือเรียกว่า “การเปรียบเทียบแบบเลือก (Fuzzy string matching)” คือเทคนิคการค้นหาคำข้อคำถามกับคำในดัชนีทีละคำจนหมดทุกคำ แต่ไม่จำเป็นต้องมีความเหมือนกันทุกประการ

27 การเปรียบเทียบ Approximate string matching (Fuzzy string matching)
Insertion: cot -> coat Deletion: coat -> cot Substitution: coat -> cost Transposition: cost -> cots

28 การเปรียบเทียบ Approximate string matching: programmer must specify the condition to compare Example: searching “coil” ถ้าค่าความต่างกำหนดให้เป็น 1 ดังนั้น คำที่ถือว่าตรงกับคำว่า coil คือคำว่า foil, coils, และ oil ส่วนคำว่า foal ถือว่าไม่ตรงกับคำในข้อคำถาม

29 Information Retrieval Processes
Indexing Querying Matching Ranking

30 Ranking Similarity value = [0,1] If there are n zones and
si is the similarity value of zone i

31 ตัวอย่างที่ 1-4 ผู้ใช้ค้นหาเอกสารใดๆ ที่มีคำว่า “shakespeare”
คำว่า shakespeare ปรากฎในส่วนของ Title และ Body ของเอกสาร กำหนดในให้แต่ละโซนมีค่าคะแนน (weight) ที่ต่างกันดังนี้ title =0.3, author=0.2, body=0.5 ดังนั้นค่าความคล้ายคลึง (0)(0.2) + (1)(0.3) + (1)(0.5) = 0.8

32 ประเด็นน่าสนใจ

33 สรุปเนื้อหาประจำบท อธิบายลักษณะสำคัญของระบบค้นคืนสารสนเทศและการค้นหาข้อมูลจากฐานข้อมูลนอกจากนี้ยังอธิบายพื้นฐานการทำงานของระบบการค้นคืนข้อมูลซึ่งสามารถแบ่งออกเป็นสองประเภทใหญ่ๆ ตามลักษณะของข้อมูลที่ต้องการค้นคืนได้แก่ ข้อมูลประเภทตัวอักษร ข้อมูลมัลติมีเดีย ซึ่งใช้เทคนิคการค้นคืนข้อมูล 3แบบคือค้นคืนโดยใช้คำหลัก (Keyword-based Information Retrieval) ค้นคืนโดยใช้คอนเทนท์(CBIR) และค้นคืนโดยพิจารณาจากความหมายของข้อค าถาม (Semantic Information Retrieval) หรือเรียกว่า การค้นคืนสารสนเทศเชิงความหมาย


ดาวน์โหลด ppt Information Retrieval

งานนำเสนอที่คล้ายกัน


Ads by Google