Information Retrieval

Slides:



Advertisements
งานนำเสนอที่คล้ายกัน
การสัมฤทธิ์ทางการเรียนวิชาห้องสมุดกับการรู้สารสนเทศของ นักศึกษาระดับชั้น ปวส.1 ด้วยการจัดการเรียนรู้โดยใช้สื่อประสม นางสาวพัชรี นาคทอง วิทยาลัยเทคโนโลยีหมู่บ้านครู
Advertisements

การประเมินผลโครงการ บทที่ 9 ผศ.ญาลดา พรประเสริฐ yalada.
เทคนิคการเขียนข่าว การเขียนข่าวเพื่อการประชาสัมพันธ์เบื้องต้น มีโครงสร้างการเขียนข่าว ประกอบด้วย 1.พาดหัวข่าว (Headline) 2.ความนำ (Lead) 3.ส่วนเชื่อม (Neck/Bridge)
การใช้งานโปรแกรม SPSS
น. ส. สุธาสินี แซ่ซู กลุ่ม B06 1 แนะนำโปรแกรมที่ นิสิตชอบ จัดทำ โดย น. ส. สุธาสินี แซ่ซู เอกบรรณารักษศาสตร์และ สารสนเทศศาสตร์ คณะมนุษย์ศาสตร์
1. Select query ใช้สำหรับดึงข้อมูลที่ต้องการ
กระบวนการของการอธิบาย
Intro Excel 2010 ข้อมูลจาก... ellession1.htm.
CSIT-URU อ. กฤษณ์ ชัยวัณณคุปต์ Mathematics and Computer Program, URU บทที่ 1 ความรู้ทั่วไปเกี่ยวกับ เทคโนโลยีสารสนเทศ Introduction to Information.
วิธีการเลือกซื้อ คอมพิวเตอร์. เนื้อหาในส่วนนี้จะให้รายระเอียดและขั้นตอน ในการเลือกซื้อ เครื่องคอมพิวเตอร์ เพื่อให้เราได้เครื่อง คอมพิวเตอร์ที่ตรงกับความ.
การเลือกข้อมูลจาก List การกำหนดเงื่อนไขการป้อนข้อมูลด้วย Data Validation การใส่ Comment / แสดง / แก้ไข / ลบ.
บทที่ 3 นักวิเคราะห์ระบบและการ วิเคราะห์ระบบ. 1. นักวิเคราะห์ระบบ (System Analysis) 1.1 ความหมายของนักวิเคราะห์ระบบ นักวิเคราะห์ระบบ (System Analysis:
การจัดกิจกรรมการ เรียนรู้แบบการทำ โครงงานคอมพิวเตอร์ การจัดกิจกรรมการ เรียนรู้แบบการทำ โครงงานคอมพิวเตอร์ ครูชาญณรงค์ ปานเลิศ โรงเรียนพระบางวิทยา ครูชาญณรงค์
คำสั่งควบคุมการทำงาน
เรื่อง กระบวนการเทคโนโลยีสารสนเทศ
การตรวจสอบคุณภาพเครื่องมือ
Microsoft Access 2007 การสร้างฟอร์ม
stack #2 ผู้สอน อาจารย์ ยืนยง กันทะเนตร
รายการ(List) [1] ผู้สอน อาจารย์ ยืนยง กันทะเนตร
หน่วยการเรียนที่ 6 เรื่อง การจัดการฐานข้อมูลด้วย PHP Function
Content Team: คู่มือการป้องกันสินค้าลอกเลียนแบบ 9 July 2015
บทที่ 1 สถาปัตยกรรมของระบบฐานข้อมูล (Database Architecture)
บทที่ 3 การวิเคราะห์ Analysis.
บทที่ 5 เครื่องมือสืบค้นข้อมูล (Search Engine)
BC320 Introduction to Computer Programming
Multistage Cluster Sampling
กลุ่มคำและประโยค ภาษาไทย ม. ๓
บทที่ 8 เงื่อนไขตัดสินใจ
บทที่ 1 ระบบสารสนเทศ (Information System)
ชุดที่ 1 ไป เมนูรอง.
บทที่ 3 แฟ้มข้อมูลและฐานข้อมูล
บทที่ ๒ เรื่องที่ ๑๐ การค้นคว้าหาความรู้ทาง อินเทอร์เน็ต
หลักการแต่ง คำประพันธ์ประเภท โคลง. หลักการแต่ง คำประพันธ์ประเภท โคลง.
บทที่ 8 การควบคุมระบบสารสนเทศทางการบัญชี : การควบคุมเฉพาะระบบงาน
การจัดการข้อมูล ดร. นพ. วรสิทธิ์ ศรศรีวิชัย
ขั้นตอนการออกแบบ ผังงาน (Flow Chart)
การเขียนโปรแกรมแบบวนซ้ำ: คำสั่ง while คำสั่ง do….while
การสร้างโมเดลจำลองความสัมพันธ์ ระหว่างข้อมูล E-R Model
วิธีการกำหนดค่า Microsoft SharePoint ของคุณ เว็บไซต์ออนไลน์
การประชุมเชิงปฏิบัติการพัฒนาศักยภาพบุคลากรทางการศึกษาด้านการสอบด้วยคอมพิวเตอร์ (Computer-based Assessment) การรู้เรื่องการอ่าน ด้านคณิตศาสตร์และด้านวิทยาศาสตร์
บริษัท พัฒนาวิชาการ (2535) จำกัด
SMS News Distribute Service
ผู้ช่วยศาสตราจารย์จุฑาวุฒิ จันทรมาลี
ผลการเรียนรู้ 1. สามารถบอกความหมายของการสืบค้นข้อมูลได้ 2. สามารถบอกประเภทของการสืบค้นข้อมูลได้ 3. สามารถตรวจสอบความน่าเชื่อถือของข้อมูลได้
วัฏจักรหิน วัฏจักรหิน : วัดวาอาราม หินงามบ้านเรา
การสร้างแบบสอบถาม และ การกำหนดเงื่อนไข.
Information Retrieval
บรรยายครั้งที่ 8 - กราฟฟิกวิศวกรรม 1
สาขาวิชาคอมพิวเตอร์ธุรกิจ โดย อาจารย์กิตติพงษ์ ภู่พัฒน์วิบูลย์
BASIC STATISTICS MEAN / MODE / MEDIAN / SD / CV.
Multimedia และระบบความจริงเสมือน Virtual Reality, VR
บทที่ 9 การเรียงลำดับข้อมูล (Sorting)
บทที่ 7 การประมวลผลอาร์เรย์
บทที่ 8 การแก้ไขข้อผิดพลาดโปรแกรม(Debugging)
สถาปัตยกรรมของฐานข้อมูล
OPERATOR ภาษาปาสคาล (Pascal)
งานนำเสนอสำหรับโครงการ นิทรรศการวิทยาศาสตร์
ตัวแบบมาร์คอฟ (Markov Model)
บทที่ 2 โครงสร้างข้อมูลแบบแถวลำดับหรืออาร์เรย์ (Array)
Array: One Dimension Programming I 9.
อินเทอร์เน็ตเบื้องต้น และการออกแบบเว็บไซต์
รูปนิสิต บทคัดย่อ ผลการทดลอง วัตถุประสงค์ วิธีการที่นำเสนอ บทนำ
การเติบโตของฟังก์ชัน (Growth of Functions)
การประเมินผลโครงการ บทที่ 9 ผศ.ญาลดา พรประเสริฐ yalada.
บทที่ 5 พัลส์เทคนิค
โครงการถ่ายทอดเทคโนโลยีถนนรีไซเคิลเพื่อลดขยะพลาสติกใน 4 ภูมิภาค
Decision: Single and Double Selection (if and if-else statement)
กระดาษทำการ (หลักการและภาคปฏิบัติ)
การใช้ระบบสารสนเทศในการวิเคราะห์ข่าว
ปรากฏการณ์ดอปเพลอร์ของเสียง Doppler Effect of Sound
ใบสำเนางานนำเสนอ:

Information Retrieval ผศ. ดร. ไกรศักดิ์ เกษร ภาควิชาวิทยากาคอมพิวเตอร์ฯ มหาวิทยาลัยนเรศวร kraisakk@nu.ac.th Tel. 055963263

1. Introduction to Information Retrieval System แนะนำระบบค้นคืนข้อมูลสารสนเทศ

วัตถุประสงค์การเรียนรู้ประจำบท เพื่อให้เข้าใจหลักการทำงานพื้นฐานของระบบค้นคืนข้อมูลสารสนเทศ เพื่อให้เข้าใจหลักการทำดัชนีข้อมูลเบื้องต้น เช่น การทำดัชนีแบบอินเวิร์ท เพื่อให้เข้าใจหลักการคิวรี่อย่างง่าย เช่น บูลีนคิวรี่ เพื่อให้เข้าใจหลักการเรียงลำดับผลลัพธ์ของการค้นหาข้อมูล

บทนำ ปัจจุบันผู้ใช้อินเทอร์เน็ตมีความเกี่ยวข้องกับการค้นหาข้อมูลที่ต้องการในทุกๆ วัน ไม่ว่าจะเป็นการค้นหาข้อมูลจากเว็บไซต์ต่างๆ หรือจากอีเมล์ ระบบค้นคืนข้อมูลหรือที่เรียกว่า โปรแกรมค้นหาข้อมูล เช่น บทที่ 1 พื้นฐานระบบค้นคืน สารสนเทศ Introduction to Information Retrieval System

ความหมายของระบบค้นคืนสารสนเทศ “ระบบค้นคืนสารสนเทศคือ ระบบการเสนอข้อมูล (Representation) การจัดการข้อมูล (Organization) และการเข้าถึงข้อมูล (Access) จำนวนมหาศาลที่มีความหลากหลายซึ่งถูกเก็บไว้ในรูปแบบดิจิตอล” , Rijsbergen (1980)

ประเภทของระบบค้นคืนสารสนเทศ การใช้งาน การค้นคืนสารสนเทศ แบบเดิม ตรรกศาสตร์ เว็กเตอร์ ความน่าจะเป็น แบบมีโครงสร้าง ต้นไม้ ออนโทโลยี การเรียกดูสารสนเทศ การเชื่อมโยงหรือไฮเปอร์ลิงค์ แบบไม่มีโครงสร้าง

ลักษณะข้อมูลและวิธีการค้นคืนสารสนเทศ

องค์ประกอบพื้นฐานของระบบการค้นคืนสารสนเทศ

Information Retrieval Processes Indexing Querying Matching Ranking

Indexing หลีเลี่ยงการค้นหากแบบ “Linear scanning” ความเร็วในการค้นหา Memory Hard disk (Serial ATA, Solid-State drive) CPU

ตัวอย่างที่ 1-1 การทำดัชนีแบบอินเวิร์ท เก็บรวบรวมเอกสาร Tokenizing/Stemming Brian from Great Britain performs 100m freestyle men in Bejing, China Brian From Great Britain Performs 100m freestyle Men In Bejing China

ตัวอย่างการทำดัชนีแบบอินเวิร์ท Brian From Great Britain Perform 100m freestyle Men in Bejing China Stop words removal

ตัวอย่างการทำดัชนีแบบอินเวิร์ท 1 2 3 เอกสารที่ 1 ความถี่ที่ปรากฎในเอกสาร เอกสารที่ 2 เอกสารที่ 3

Information Retrieval Processes Indexing Querying Matching Ranking

Querying Retrieve information Boolean query/retrieval Browsing AND (conjunction) OR (exclusive) NOT (negation)

การค้นหาข้อมูล ในการค้นคืนข้อมูลมีวิธีการพื้นฐานสองแบบคือ การค้นดูข้อมูล (Browsing) การสอบถามข้อมูล (Querying) ซึ่งมีข้อดีและข้อเสียของแต่ละวิธีต่างกัน การค้นดูคือการส ารวจข้อมูล (Explore) การมองข้อมูล (View) โดยรวมซึ่งประสิทธิภาพของการเรียกดูข้อมูลขึ้นอยู่กับการจัดโครงสร้างข้อมูลที่ดี (Organize) ตัวอย่างของการเรียกดูข้อมูลที่เห็นได้ชัดในปัจจุบันคือการใช้เทคนิคไฮเปอร์ลิงค์ (Hyperlink) และ โครงสร้างแบบล าดับชั้น (Hierarchical structure) การค้นคืนสารสนเทศแบบตรรกศาสตร์(Boolean retrieval) การค้นคืนสารสนเทศแบบตรรกศาสตร์คือ รูปแบบการค้นคืนสารสนเทศที่เราสามารถสร้างข้อค าถามที่ใช้ตัวท างานทางตรรกะ เช่น AND OR หรือ NOT

AND AND (conjunction) คือการนำเอกสารที่คำใดคำหนึ่งในข้อคำถามปรากฏอยู่มารวมกัน และดึงเอกสารที่ ซ้อนทับกัน (Overlap) มาเป็นผลลัพธ์

OR ไม่สนใจเอกสารใดๆ ในพื้นที่สีขาว OR (inclusive or exclusive disjunction) คือดึงเอกสารทั้งหมดที่มีคำใดคำหนึ่งในข้อคำถามหรือคำ ทั้งหมดในข้อคำาถามปรากฏในเอกสาร ตัวอย่างเช่น เอกสารชุด A และเอกสารชุด B เมื่อใช้ OR ข้อมูลที่จะทำการดึงมาเป็นผลลัพธ์คือข้อมูลทั้งหมดของ A และ B ไม่สนใจเอกสารใดๆ ในพื้นที่สีขาว

NOT สนใจเอกสารในพื้นที่สีดำ NOT (Negation) คือการดึงเอกสารทั้งหมดที่ไม่มีคำในข้อคำถามปรากฏอยู่ เช่น ถ้าข้อมูลชุด A คือ เอกสารทั้งหมดที่มีคำในข้อค าถามปรากฏอยู่ ระบบจะดึงเอกสารอื่นๆ ที่ไม่อยู่ใน A มาเป็นผลลัพธ์ของการ ค้นหา สนใจเอกสารในพื้นที่สีดำ

ตัวอย่างที่ 1-2 การค้นหาข้อมูล ต้องการค้นหาเอกสารที่เกี่ยวข้องกับ Great Britain และ Freestyle ดังนั้นผู้ใช้ทำการสร้างข้อคำถามตรรกศาสตร์ดังนี้ “Great Britain AND Freestyle” 1) ทำการตัดคำ (Tokenizing) และเปลี่ยนคำให้อยู่ในรูปแบบดั้งเดิม (Stemming) great britain / AND / freestyle 2) ทำการกำจัดคำที่ไม่สำคัญ (Stop words) ทิ้งไป (ในตัวอย่างนี้ไม่มีคำไม่สำคัญ) great britain / AND / freestyle 3) ตรวจสอบคำที่เป็นตัวทำการลอจิก great britain / AND / freestyle 4) ทำการแปลงข้อคำถามให้อยู่ในรูปแบบที่คอมพิวเตอร์เข้าใจและส่งต่อไปยังส่วนของการ ค้นหาเปรียบเทียบและเรียงลำดับข้อมูล “great britain”, “freestyle” มาก ….. น้อย

การค้นหาข้อมูล (Searching) การค้นหาข้อมูลบนไฟล์ดัชนีแบบอินเวิร์ทมีขั้นตอนการทำงาน ผลลัพธ์ของการค้นหาข้อมูลคือเอกสารหมายเลข 1 และ 2

ตัวอย่างที่ 1-3 พิจารณาการค้นหาข้อมูลจากข้อคำถาม Brian AND Freestyle AND Great Britain ข้อคำถามดังกล่าวสามารถดำเนินการได้ 2 รูปแบบ (Brian AND Great Britain) AND Freestyle (Freestyle AND Great Britain) AND Brian ผลการดำเนินการทั้ง 2 รูปแบบได้ผลลัพธ์ต่างกันหรือไม่? รูปแบบไหนดีกว่ากัน? เพราะอะไร?

Query 1 (Brian AND Great Britain) AND Freestyle

Query 2 (Freestyle AND Great Britain) AND Brian

Information Retrieval Processes Indexing Querying Matching Ranking

การเปรียบเทียบ (Matching) การเปรียบเทียบแบบเนอิฟ (Naïve string matching) เป็นวิธีการเปรียบเทียบที่ง่ายที่สุดแต่มีประสิทธิภาพการทำงานต่ำสุด การเปรียบเทียบแบบประมาณ (Approximate string matching) หรือเรียกว่า “การเปรียบเทียบแบบเลือก (Fuzzy string matching)” คือเทคนิคการค้นหาคำข้อคำถามกับคำในดัชนีทีละคำจนหมดทุกคำ แต่ไม่จำเป็นต้องมีความเหมือนกันทุกประการ

การเปรียบเทียบ Approximate string matching (Fuzzy string matching) Insertion: cot -> coat Deletion: coat -> cot Substitution: coat -> cost Transposition: cost -> cots

การเปรียบเทียบ Approximate string matching: programmer must specify the condition to compare Example: searching “coil” ถ้าค่าความต่างกำหนดให้เป็น 1 ดังนั้น คำที่ถือว่าตรงกับคำว่า coil คือคำว่า foil, coils, และ oil ส่วนคำว่า foal ถือว่าไม่ตรงกับคำในข้อคำถาม

Information Retrieval Processes Indexing Querying Matching Ranking

Ranking Similarity value = [0,1] If there are n zones and si is the similarity value of zone i

ตัวอย่างที่ 1-4 ผู้ใช้ค้นหาเอกสารใดๆ ที่มีคำว่า “shakespeare” คำว่า shakespeare ปรากฎในส่วนของ Title และ Body ของเอกสาร กำหนดในให้แต่ละโซนมีค่าคะแนน (weight) ที่ต่างกันดังนี้ title =0.3, author=0.2, body=0.5 ดังนั้นค่าความคล้ายคลึง (0)(0.2) + (1)(0.3) + (1)(0.5) = 0.8

ประเด็นน่าสนใจ

สรุปเนื้อหาประจำบท อธิบายลักษณะสำคัญของระบบค้นคืนสารสนเทศและการค้นหาข้อมูลจากฐานข้อมูลนอกจากนี้ยังอธิบายพื้นฐานการทำงานของระบบการค้นคืนข้อมูลซึ่งสามารถแบ่งออกเป็นสองประเภทใหญ่ๆ ตามลักษณะของข้อมูลที่ต้องการค้นคืนได้แก่ ข้อมูลประเภทตัวอักษร ข้อมูลมัลติมีเดีย ซึ่งใช้เทคนิคการค้นคืนข้อมูล 3แบบคือค้นคืนโดยใช้คำหลัก (Keyword-based Information Retrieval) ค้นคืนโดยใช้คอนเทนท์(CBIR) และค้นคืนโดยพิจารณาจากความหมายของข้อค าถาม (Semantic Information Retrieval) หรือเรียกว่า การค้นคืนสารสนเทศเชิงความหมาย