Information Retrieval

Slides:



Advertisements
งานนำเสนอที่คล้ายกัน
Chapter 3 Data Representation (การแทนข้อมูล)
Advertisements

ครุศาสตรมหาบัณฑิต สาขาวิชา การสอนภาษาอังกฤษเพื่อ วิชาการและงานอาชีพ
ศูนย์เรียนรู้ชุมชนเศรษฐกิจ พอเพียงบ้านซ่อง อ.พนมสารคาม จ.ฉะเชิงเทรา
สาระที่ ๒ การเขียน.
การบริหารจัดการโครงการ และการเบิกจ่ายงบประมาณ
ศึกษาข้อมูลท้องถิ่นบ้านสนาม
ยินดีต้อนรับ คณะกรรมการประเมินคุณภาพการศึกษาภายใน “สำนักส่งเสริมวิชาการและงานทะเบียน” วันอังคารที่ 23 สิงหาคม พ.ศ
Application of Electron Paramagnetic Resonance (EPR)
Lubna Shamshad (Ph.D Student) Supervisor Dr.GulRooh
Q n° R n°.
อาคารสำนักงานเขต พื้นที่การศึกษา (สพป./สพม.)
Chapter 3 Design of Discrete-Time control systems Frequency Response
ยินดีต้อนรับ นสต. ภ.๙.
การส่งเสริมจริยธรรมและคุณธรรม เพื่อการป้องกันการทุจริต
พอช.องค์การมหาชนของชุมชนไทย
ชั้นมัธยมศึกษาปีที่ ๖ โรงเรียนสาธิตมหาวิทยาลัยราชภัฏสวนสุนันทา
หน่วยที่ 2 การประกันคุณภาพภายในสถานศึกษา
หลักสูตรการศึกษานอกระบบ ระดับการศึกษาขั้นพื้นฐาน พุทธศักราช 2551
Multiple Input Multiple Output (MIMO)
บทที่ 7 TAS 17 (ปรับปรุง 2558): สัญญาเช่า (Leases)
หลักการสร้างมาตรวัดทางจิตวิทยา
โครงการส่งเสริมการพัฒนาคุณภาพงาน คณะวิทยาศาสตร์ มหาวิทยาลัยเชียงใหม่
แผนการจัดการเรียนรู้ กลุ่มสาระการเรียนรู้วิทยาศาสตร์
แนวการตรวจสอบภายใน การตรวจสอบรถราชการ
ทะเบียนราษฎร.
นายธนวิทย์ โพธิ์พฤกษ์ เลขที่ 8 นายอนุสรณ์ ขำหลง เลขที่ 29
เรื่อง การบริหารการศึกษาตาม พ.ร.บ ระเบียบบริหารราชการกระทรวงศึกษาธิการ
เอกสารประกอบการบรรยายครั้ง ๒ วิชาซื้อขาย - เช่าทรัพย์ - เช่าซื้อ
ระเบียบกระทรวงมหาดไทย
บทที่ 12 การวิเคราะห์สหสัมพันธ์และการถดถอย
DATA STRUCTURES AND ALGORITHMS
ขั้นตอนการจัดตั้งกลุ่มส่งเสริมอาชีพ จังหวัดนครราชสีมา ปี ๒๕๕๘/๕๙
หลักการจัดกิจกรรมนันทนาการ
การประชุมผู้บริหารระดับสูงกระทรวงวัฒนธรรม ครั้งที่ ๔/๒๕๖๐
การเบิกจ่ายเงินเกี่ยวกับค่าใช้จ่าย ในการบริหารงานของส่วนราชการ
การแก้ไขปัญหา สหกรณ์เครดิตยูเนี่ยนคลองจั่น จำกัด
ขั้นตอนของกิจกรรม : ปฏิบัติเป็นประจำ เพื่อให้เกิดการพัฒนาอย่างต่อเนื่อง
ตอนที่ 2.๒ บทบาทหน้าที่ของเจ้าหน้าที่ส่งเสริมการเกษตรระดับอำเภอ
บทที่ 4 การกระจาย อำนาจด้านการคลัง
งานเงินสมทบและการตรวจสอบ
ยินดีต้อนรับเข้าสู่บทเรียนคอมพิวเตอร์ วัยรุ่นไทยใส่ใจวัฒนธรรม เรื่อง
การพัฒนาระบบบริหารจัดการกำลังคนด้านสุขภาพ “การพัฒนาบุคลากร”
ค่าใช้จ่ายต่างๆ ในโครงการฯ
วันเสาร์ที่ 2 กรกฎาคม 2559 วิทยาลัยเทคโนโลยีอักษรพัทยา
วิชาสังคมศึกษา ม.3 สาระที่ 1 ศาสนา ศีลธรรม จริยธรรม.
มหาวิยาลัยราชภัฏนครราชสีมา
โครงการสนับสนุนสินเชื่อเกษตรกรชาวสวนยาง รายย่อยเพื่อประกอบอาชีพเสริม
ความหมายของหนี้สาธารณะ
การจัดการชั้นเรียน.
การบริหารการเงิน ในสถานศึกษา
องค์ประกอบและผลกระทบของธุรกิจไมซ์
โคลง ร่าย และ โดยครูธาริตา นพสุวรรณ
Matrix 1.Thamonaporn intasuwan no.7 2.Wannisa chawlaw no.13 3.Sunita taoklang no.17 4.Aungkhana mueagjinda no.20.
สมาชิกโต๊ะ 1 นายสุรวินทร์ รีเรียง นายภาณุวิชญ์ อนุศรี
นำเสนอ วัดเกาะชัน ด.ช.ปกรณ์ ร้อยจันทร์ ม.2/7 เลขที่ 19
รศ.ดร.อนันต์ จันทรโอภากร
การเขียนวิจารณ์วรรณกรรม ๒
การยืมเงิน จากแหล่งเงินงบประมาณรายได้
วิชา หลักการตลาด บทที่ 7 การออกแบบกลยุทธ์ราคา
ผังมโนทัศน์สาระการเรียนรู้ภาษาไทย ชั้นมัธยมศึกษาปีที่ ๑
สาระสำคัญพ.ร.บ.การทวงถามหนี้ พ.ศ.๒๕๕๘ สาระสำคัญพ.ร.บ.การทวงถามหนี้ พ.ศ.๒๕๕๘.
การบัญชีตามความรับผิดชอบและ การประเมินผลการปฏิบัติงาน
ตำบลหนองพลับ ประวัติความเป็นมา
แบบทดสอบ เรื่อง ความน่าจะเป็น.
การปฏิรูประบบศาลยุติธรรม หลังรัฐประหาร 2557
ธาตุ สารประกอบ และปฏิกิริยาเคมี
ข้อกำหนด/มาตรฐาน ด้านสุขาภิบาลอาหาร
การบริหารหลักสูตร ความหมาย : การดำเนินงานที่เกี่ยวข้องกับการทำหลักสูตร และเอกสารประกอบหลักสูตร ไปสู่การปฏิบัติในสถานการณ์จริงหรือกิจกรรมการเรียนการสอนให้เป็นไปตามเป้าหมายที่กำหนดไว้ในหลักสูตรโดยอาศัยการสนับสนุนและร่วมมือจากบุคคลที่เกี่ยวข้องกับการใช้หลักส
PHYSICS by P’Tum LINE
การพิจารณาสัญชาติของบุคคล
ใบสำเนางานนำเสนอ:

Information Retrieval ผศ. ดร. ไกรศักดิ์ เกษร ภาควิชาวิทยากาคอมพิวเตอร์ฯ มหาวิทยาลัยนเรศวร kraisakk@nu.ac.th Tel. 055963263

การค้นหาข้อมูลบนอินเทอร์เน็ต 3. Web Search Engine การค้นหาข้อมูลบนอินเทอร์เน็ต

วัตถุประสงค์การเรียนรู้ประจำบท เพื่อให้เข้าใจถึงหลักการค้นหาข้อมูลของ Search Engine เบื้องต้นในระบบอินเทอร์เน็ต เพื่อให้เข้าใจถึงหลักการทำดัชนีข้อมูลแบบต่างๆ ในระบบอินเทอร์เน็ต เพื่อให้เข้าใจถึงหลักการคิวรี่ข้อมูลและการให้คะแนนและเรียงลำดับผลลัพธ์การค้นหาในระบบอินเทอร์เน็ต เพื่อเปรียบเทียบการทำงานของระบบค้นหาข้อมูลบนอินเทอร์เน็ตที่กำลังเป็นที่นิยมในปัจจุบัน

การทำงานพื้นฐานของอินเทอร์เน็ต ไคลเอ็นท์-เซิฟเวอร์ (client-sever model) http (hypertext transfer protocol) เครื่องเซิฟเวอร์จะทำการส่งข้อมูลที่เครื่องไคลเอ็นท์ร้องขอกับมาให้โดยเอกสารที่ส่งกลับมาจะอยู่ในรูปแบบของ HTML ในปัจจุบันมีเอกสารนับพันล้านเอกสารกระจายอยู่บนเครื่องเซิฟเวอร์ต่างๆ บนเครือข่ายอินเทอร์เน็ต เอกสารเหล่านี้จะไม่มีประโยชน์ใดๆ หากผู้ใช้ไม่สามารถค้นหาได้

ระบบค้นหาข้อมูลบนอินเทอร์เน็ต มีการทำงาน 2 ลักษณะ pure search engine หรือ algorithmic search sponsored search engine เมื่อระบบค้นคืนข้อมูลทั้ง 2 แบบและนำผลลัพธ์จากการค้นหาทั้ง 2 แบบมาแสดงร่วมกันต่อผู้ใช้ ตัวอย่างเช่น Google

การคิวรี่ในระบบอินเทอร์เน็ต ลักษณะของผู้ใช้ระบบการค้นหาข้อมูลบนอินเทอร์เน็ตมีความแตกต่างจากผู้ใช้ระบบค้นคืนข้อมูลสารสนเทศในองค์กร คิวรี่ที่ผู้ใช้บนระบบอินเทอร์เน็ตสร้างขึ้นจึงไม่มีรูปแบบที่แน่นอน ระบบค้นคืนข้อมูลจึงต้องถูกออกแบบเพื่อรองรับคิวรี่ที่หลากหลายจากผู้ใช้ทั่วโลกให้มากที่สุดเท่าที่จะทำได้ ระบบใดมีผู้ใช้มากนั่นหมายถึงมีรายได้จากผู้สนับสนุนมากขึ้นเช่นกัน

เป้าหมายของ Google ตัวอย่างเช่น Google มีหลักการ 3 อย่างคือ (1) เน้นการเพิ่มค่าพรีซิชั่นมากกว่ารีคอลในผลลัพธ์ ซึ่งจะช่วยให้ผู้ใช้หาเอกสารที่ต้องการได้ในระยะเวลาอันสั้น (2) เข้าใจง่ายโดยที่หน้าจอผลลัพธ์จะไม่มีภาพประกอบเยอะ เพราะจะทำให้ดู วุ่ยวายและผู้ใช้อาจจะสับสนได้ (3) ลดเวลาในการตอบสนองของระบบ และแสดงผลลัพธ์ในกับผู้ใช้ในเวลาที่รวดเร็ว

ประเภทของคิวรี่ คิวรี่แบบค้นหาข้อมูล (Informational query) : คือคิวรี่ที่ใช้เพื่อค้นหาข้อมูลทั่วไป คิวรี่แบบนำทาง (Navigational query) : คือคิวรี่ที่ผู้ใช้ต้องการค้นหาเว็บไซต์เฉพาะเจาะจง ที่ผู้ใช้ต้องการดูข้อมูล คิวรี่แบบค้นหารายการ (Transactional query) : คือคิวรี่ที่ผู้ใช้ต้องการทำกิจกรรมบนอินเทอร์เน็ต เช่น การจองตั๋วเครื่องบิน การซื้อสินค้า หรือการดาวโหลดไฟล์

การทำดัชนีของระบบค้นคืนข้อมูลบนอินเทอร์เน็ต การรวบรวมเอกสารจากเว็บไซต์ต่างๆ แบบอัตโนมัติเรียกว่า เว็บคราวลิงก์ (Web crawling) เครื่องมือที่ทำหน้าที่ท่องไปตามเว็บต่างๆ นี้เรียกอีกชื่อหนึ่งว่า แมงมุม (Spider) หรือหุ่นยนต์ (Robot) การทำดัชนีบนอินเทอร์เน็ตแบ่งเป็น 2 แบบ การทำดัชนีแบบศูนย์กลาง (Centralized indexing architecture) การทำดัชนีแบบกระจาย (Distributed indexing architecture)

การทำดัชนีแบบศูนย์กลาง คราวเลอร์จะเริ่มจากเว็บไซต์ที่มีความนิยมสูงๆ อาจจะ 1 เว็บไซต์หรือหลายๆ เว็บไซต์พร้อมกัน โดยทำการคัดเลือกคำที่คิดว่าเป็นคีย์เวิรดออกมาจากเว็บเพจและไฮเปอร์ลิงค์ที่อยู่ในเว็บเพจนั้นๆ คีย์เวิรดที่ถูกส่งไปทำดัชนีที่เครื่องหลักส่วนกลาง

การทำงานของ Web crawling source: http://computer.howstuffworks.com

การทำดัชนีแบบศูนย์กลาง ทำให้เกิดความคับคั่งของข้อมูลในเครือข่ายสูง คราวเลอร์เพียงตัวเดียวไม่สามารถทำงานได้ทันเวลา วิธีแก้ คราวเลอร์จึงต้องมีการกระจายตัวกันทำงาน (Distributed) และคราวเลอร์แต่ละตัวต้องทำงานหลายๆ งานพร้อมกัน (Parallel) การที่มีคราวเลอร์หลายๆ ตัวทำงานพร้อมๆ ทำให้เกิดร้องขอข้อมูลไปยังเครื่องเซิฟเวอร์พร้อมๆ กันมากเกินไป ทำให้เครื่องเซิฟเวอร์ไม่สามารถบริการได้ทันหรือไม่สามารถให้บริการได้ในที่สุด (Crash) การทำงานของคราวเลอร์จึงต้องมีนโยบายจำกัดจำนวนอัตราการร้องขอข้อมูลจากเครื่องเซิฟเวอร์เครื่องใดเครื่องหนึ่ง เรียกว่า นโยบายสุภาพ (Politeness policies)

การทำดัชนีแบบกระจาย

การใช้ตัวดำเนินการตรรกะในระบบค้นคืนข้อมูลบนอินเทอร์เน็ต การค้นหาข้อมูลแบบบูลีน (Boolean search) AND, เราสามารถใช้เครื่องหมาย “+” แทนคำว่า AND ได้ OR, เว็บเพจต้องมีอย่างน้อยหนึ่งคำในคิวรี่ปรากฎอยู่จึงจะถูกเลือกขึ้นมา NOT, เว็บเพจที่ไม่ปรากฎคำที่ตามหลัง NOT จะถูกเลือกมาเป็นผลลัพธ์

การใช้ตัวดำเนินการตรรกะในระบบค้นคืนข้อมูลบนอินเทอร์เน็ต NEAR, หมายถึงคีย์เวิรดต่างๆ ในคิวรี่ต้องมีระห่างไม่เกินที่ระบุในคิวรี่ moon NEAR river AltaVista NEAR หมายถึง คีย์เวิร์ดต่างๆ จะปรากฎห่างกันไม่เกิน10 คำ AOL Search ใช้รูปแบบ NEAR/# ตัวอย่างเช่น NEAR/5 คีย์เวริดต่างๆ จะห่างกันไม่เกิน 5 คำ Lycos NEAR หมายถึง คีย์เวิร์ดต่างๆ จะปรากฎห่างกันไม่เกิน 25 คำ

การให้คะแนนและการเรียงลำดับเว็บเพจผลลัพธ์ ระบบค้นคืนข้อมูลบนอินเทอร์เน็ตการเรียงลำดับเว็บเพจที่เป็นผลลัพธ์จะนำเอาข้อมูลของลิงค์ไปพิจารณาด้วย วิธีการคำนวณหาคะแนนของเว็บเพจต่างๆ และการเรียงลำดับเว็บเพจผลลัพธ์โดยนำลิงค์มาเป็นตัวพิจารณาร่วมด้วย เรียกว่า การวิเคราะห์ลิงค์ (Link analysis) การเชื่อมต่อกันระหว่างเว็บเพจต่างๆ จะอยู่ในลักษณะของกราฟแบบมีทิศทาง (Directed graph) Anchor A B

การให้คะแนนและการเรียงลำดับเว็บเพจผลลัพธ์ Achor text จึงสำคัญในการให้ข้อมูลเกี่ยวกับเว็บเพจนั้นๆ และควรถูกนำไปใช้ในการทำดัชนี การให้น้ำหนักคำซึ่งอาจจะดูจากความถี่ของคำใน Achor text ซึ่งมีลักษณะการคำนวณเหมือนกับวิธี idf การให้คะแนนเว็บเพจแบบเพจแรงค์ (PageRank) จะมีการให้คะแนนกับเว็บเพจหรือโหนดในกราฟนั่นเอง

การให้คะแนนเว็บเพจแบบเพจแรงค์ (PageRank) ตัวอย่าง ผู้ใช้เริ่มใช้งานที่เว็บเพจ A และทำการเปิดเว็บอื่นๆ ผ่านเว็บเพจ A โดยที่เว็บเพจ A มีลิงค์เชื่อมต่อไปยังเว็บเพจอื่นๆ ได้แก่ B, C และ D ดังนั้นมีความน่าจะเป็นที่ผู้ใช้จะทำการคลิกเพื่อเปิดเว็บเพจแต่ละอันคือ 1/3 นั่นเอง A D C B

การให้คะแนนเว็บเพจแบบเพจแรงค์ (PageRank) วิธีการคำนวนหาค่าเพจแรงค์สามารถทำได้โดยใช้หลักการของมาร์คอฟเชนส์ (Markov chain) มาร์คอฟเชนส์สามารถแสดงในรูปแบบของเมตริกซ์ P= NxN โดยที่ N คือโหนดต่างๆ และ แต่ละค่าในเมตริกซ์คือความน่าจะเป็น (Transition probability) ในการคลิกของผู้ใช้เพื่อเปลี่ยนตำแหน่งไปยังอีกโหนดหนึ่ง

การให้คะแนนเว็บเพจแบบเพจแรงค์ (PageRank) กราฟแสดงความสัมพันธ์ของโหนด (เว็บเพจ) A B และ C โดยลูกศรหมายถึงลิงค์ต่างๆ และตัวเลขแสดงถึงความน่าจะเป็นที่ผู้ใช้จะทำการคลิกเพื่อเปิดอีกเว็บเพจหนึ่งขึ้นมา 0.5 1 C B A

การให้คะแนนเว็บเพจแบบเพจแรงค์ (PageRank) จากรูปความน่าจะเป็นในของแต่ละโหนดสามารถพิจารณาในรูปแบบของ เว็กเตอร์ความน่าจะเป็น (Proablity vector) ได้

การให้คะแนนเว็บเพจแบบเพจแรงค์ (PageRank) ถ้ามีลิงค์เชื่อมต่อระหว่างโหนด i ไปยังโหนด j ดังนั้น Aij = 1 แต่ไม่มีลิงค์เชื่อมต่อระหว่างโหนด Aij = 0 ถ้าแถวใดๆ ใน A ไม่มี 1 เลย ในใส่ค่า 1/N ของแต่ค่า Aij โดยที่ N คือจำนวนโหนดในกราฟ แถวใดที่มี 1 ให้นำ 1 มาบวกกันทั้งหมดและนำไปหาร Aij ที่เท่ากับ 1 ในแถวเดียวกัน คูณเมตริกซ์ A ด้วยค่า โดยที่ คือค่าเทเลพอร์ท บวกค่า เข้าไปในทุกๆ ค่าในเมตริกซ์ ผลลัพธ์ที่ได้คือเมตริกซ์ความน่าจะเป็นที่ผู้ใช้จะคลิกเพื่อเปลี่ยนเว็บเพจ (P)

การให้คะแนนเว็บเพจแบบเพจแรงค์ (PageRank) เว็บเพจ A อาจจะไม่มีลิงค์ไปยังเว็บเพจอื่นๆ เลยก็ได้ แต่ผู้ใช้สามารถที่จะเปิดเว็บเพจ B C หรือ D ขึ้นมาอ่านโดยพิมพ์ URL ไปที่เบราเซอร์วิธีการนี้เรียกว่า เทเลพอร์ท (Teleport) ในการกำหนดค่าเพจแรงค์ให้กับแต่โหนดในกราฟ เราจะใช้ เทเลพอร์ท ใน 2 กรณีคือ (1) เมื่อโหนดไม่มีลิงค์ไปยังโหนดอื่นๆ (2) ถ้าโหนดใดมีลิงค์เชื่อมต่อไปยังโหนดอื่นๆ แต่ว่ามีความน่าจะเป็นที่ผู้ใช้จะใช้วิธีเทเลพอร์ทเพื่อไปยังโหนดนั้นๆ น้อยกว่า 1 และมากกว่า 0 ( 0<𝛼<1 ) และมีความน่าจะเป็นที่ผู้ใช้จะทำการคลิกลิงค์ไปยังโหนดอื่นๆ ด้วยความน่าจะเป็น 1−𝛼

การให้คะแนนเว็บเพจแบบเพจแรงค์ (PageRank) ตัวอย่างที่ 3‑1 จงพิจารณากราฟซึ่งประกอบด้วย 3 โหนด (1, 2 และ 3) ซึ่งมีลิงค์เชื่อมต่อกันดังนี้ 1->2, 3->2, 2->1, 2-> 3 จงเขียนเมตริกซ์ซึ่งแสดงความน่าจะเป็นของการคลิกของผู้ใช้เพื่อนจะเปลี่ยนเว็บเพจ ด้วยค่าเทเลพอร์ท 𝛼=0.5 ทำการสร้างเมตริกซ์ A โดยที่ถ้ามีลิงค์เชื่อมต่อระหว่างโหนด i ไปยังโหนด j ดังนั้น Aij = 1 แต่ไม่มีลิงค์เชื่อมต่อระหว่างโหนด Aij = 0 1 3 2

การให้คะแนนเว็บเพจแบบเพจแรงค์ (PageRank) 1 2 3 2) ถ้าแถวใดๆ ใน A ไม่มี 1 เลย ในใส่ค่า 1/N ของแต่ละค่า Aij โดยที่ N คือจำนวนโหนดในกราฟ ในตัวอย่างนี้ทุกแถวมี 1 จึงข้ามไปทำขั้นตอนต่อไป 3) แถวใดที่มี 1 ให้นำ 1 มาบวกกันทั้งหมดและนำไปหาร Aij ที่เท่ากับ 1 ในแถวเดียวกัน 3.1) แถวที่ 1 (0+1+0) = 1 นำไปหารที่ตำแหน่ง (1,2) =1/1=1 3.2) แถวที่ 2 (1+0+1) = 2 นำไปหารที่ตำแหน่ง (2,1) =1/2 = 0.5 และ (2,3) = 1/2 = 0.5 3.3) แถวที่ 3 (0+1+0) = 1 นำไปหารที่ตำแหน่ง (3,2) =1/1=1 ดังนั้นจะได้ค่าในเมตริกซ์ดังนี้

การให้คะแนนเว็บเพจแบบเพจแรงค์ (PageRank) 1 2 3 0.5 4) คูณเมตริกซ์ A ด้วยค่า = 1- 0.5 = 0.5 ดังนั้นได้ค่าในเมตริกซ์ A คือ A= 1 2 3 0.5 0.25

การให้คะแนนเว็บเพจแบบเพจแรงค์ (PageRank) 1 2 3 0.17 0.67 0.42

ความน่าจะเป็นที่ผู้ใช้จะทำการเปลี่ยนไปอยู่ที่เว็บเพจอื่นๆ เราสามารถแสดงความน่าจะเป็นของโหนดที่ผู้ใช้อยู่ ณ เวลาใดเวลาหนึ่งในรูปแบบของเว็กเตอร์ ตัวอย่างเช่นถ้าเว็กเตอร์ประกอบด้วย 3 โหนดเราสามารถเขียนตำแหน่งของผู้ใช้ ณ เวลาที่ 0 ได้ว่า = 1,0,0 ณ เวลาที่ 0 ผู้ใช้จะเริ่มจากโหนดในเว็กเตอร์ที่มีค่าในเว็กเตอร์เท่ากับ 1 และที่เหลือเป็น 0 ณ เวลาที่ 1 เราสามารถหาค่าความน่าจะเป็นที่ผู้ใช้จะเปลี่ยนเว็บเพจไปยังเพจต่างๆ คือ โดย P คือเมตริกซ์ความหน้าจะเป็นที่ผู้ใช้จะเปลี่ยนเว็บเพจ

ความน่าจะเป็นที่ผู้ใช้จะทำการเปลี่ยนไปอยู่ที่เว็บเพจอื่นๆ (4‑1)

ความน่าจะเป็นที่ผู้ใช้จะทำการเปลี่ยนไปอยู่ที่เว็บเพจอื่นๆ ตัวอย่างที่ 3‑2 จากข้อมูลในตัวอย่างที่ 3‑1 จงหาว่า ณ เวลาที่ 4 เว็บเพจใดที่ผู้ใช้น่าจะอยู่ที่เว็บใดมากที่สุด ทำการคำนวณหาตำแหน่งของผู้ใช้ ณ เวลาที่ 1 ( ) ดังนั้น P= 1 2 3 0.17 0.67 0.42

ความน่าจะเป็นที่ผู้ใช้จะทำการเปลี่ยนไปอยู่ที่เว็บเพจอื่นๆ 2) ทำการคำนวณหาตำแหน่งของผู้ใช้ ณ เวลาที่ 2 3) ทำการคำนวณหาตำแหน่งของผู้ใช้ ณ เวลาที่ 3 4) ทำการคำนวณหาตำแหน่งของผู้ใช้ ณ เวลาที่ 4

การให้คะแนนเว็บเพจแบบฮับและออร์เทอริตี้ (Hub and Authorities) ที่ผ่านมาเป็นการให้คะแนนเว็บเพจโดยไม่สนใจว่าคิวรี่ของผู้ใช้จะเป็นอย่างไรหรือมีคำใดอยู่บ้าง วิธีการให้คะแนนแบบฮับและออร์เทอร์ริตี้ (Hub and Authorities) เว็บเพจหนึ่งๆ จะมีการให้คะแนนสองส่วน คือ ฮับและออร์เทอร์ริตี้ ดังนั้นในการเรียงลำดับผลลัพธ์ของวิธีการนี้จะมีการเรียงลำดับผลลัพธ์ 2 ส่วนด้วยเช่นกัน คือเรียงลำดับตามคะแนนของฮับและเรียงลำดับตามคะแนนของออร์เทอร์ริตี้

การให้คะแนนเว็บเพจแบบฮับและออร์เทอริตี้ (Hub and Authorities) สมมติให้เว็บเพจ v เป็นเว็บเพจที่อยู่ในชุดของเว็บเพจหนึ่ง h(v) คือคะแนนฮับ และ a(v) คือคะแนนออร์เทอร์ริตี้ ค่าเริ่มต้นของฮับและออร์เทอร์ริตี้จะเท่ากับ 1 เสมอหรับทุกๆ เว็บเพจ A คือเมตริกซ์แสดงความสัมพันธ์ของเว็บเพจต่างๆ และ Aij = 1 ถ้ามีลิงค์จากเว็บเพจ i ไปยังเว็บเพจ j แต่ถ้าไม่มีลิงค์ Aij = 0

การให้คะแนนเว็บเพจแบบฮับและออร์เทอริตี้ (Hub and Authorities) ในการคำนวณหาคะแนนฮับและออร์เทอร์ริตี้มีขั้นตอนคล้ายๆ กับเพจแรงค์คือมีการคำนวณเป็นขั้นๆ โดยเริ่มจาก ณ เวลาที่ 0 ไปเรื่อยๆ ตามขั้นตอนดังต่อไปนี้ ทำการสร้างเมตริกซ์ A ตามความสัมพันธ์ของเว็บเพจต่างๆ และใส่ค่าในเมตริกซ์ให้ถูกต้อง ทำการคำนวณ ทำการคำนวณหาค่า ℎ และ 𝑎 ตามสมการที่ (3‑4) และ (3‑5) วิธีการคำนวณแบบนี้มีชื่อเรียกอีกอย่างหนึ่งคือ HITS (Hyperlink-Induced Topic Search)

การให้คะแนนเว็บเพจแบบฮับและออร์เทอริตี้ (Hub and Authorities) ตัวอย่างที่ 3‑3 จงคำนวณหาคะแนนฮับและออร์เทอร์ริตี้ของชุดเว็บเพจซึ่งมีลิงค์เชื่อมโยงกันดังแสดงในรูปที่ 3‑10 ณ เวลาที่ 3 ถ้าสมมติให้คิวรี่คือคำว่า jaguar และมีการให้คะแนน 2 เท่ากับลิงค์ที่มี Achor text ตรงกับคำในคิวรี่ รูปที่ 3‑10 กราฟแสดงความสัมพันธ์ของเว็บเพจต่างๆ ข้อความที่อยู่บนลูกศรคือ Achor text

การให้คะแนนเว็บเพจแบบฮับและออร์เทอริตี้ (Hub and Authorities)

การให้คะแนนเว็บเพจแบบฮับและออร์เทอริตี้ (Hub and Authorities) 2) ทำการคำนวนค่า AT 3) ทำการคำนวณหาค่า ℎ และ 𝑎 ตามสมการที่ (3‑4)และ (3‑5) ณ เวลาที่ 1 ค่าเริ่มต้นของ ℎ และ 𝑎 เท่ากับ [1, 1, 1, 1, 1, 1, 1] ดังนั้น 4) ทำการคำนวณหาค่า ℎ และ 𝑎 ตามสมการที่ (3‑4)และ (3‑5) ณ เวลาที่ 2 5) ทำการคำนวณหาค่า ℎ และ 𝑎 ตามสมการที่ (3‑4)และ (3‑5) ณ เวลาที่ 3

Good Hubs and Authorities

การแต่งเว็บไซต์เพื่อให้ติดอันดับต้นๆ ของโปรแกรมค้นหาสารสนเทศ SEO (Search Engine Optimization) การจัดทำการปรับปรุงเว็บไซต์หรือเว็บเพ็จ เพื่อให้ติดอันดับต้นๆ ในหน้าผลลัพธ์การค้นหาของระบบค้นหาข้อมูล เป็นส่วนหนึ่งของการทำการตลาดผ่านโปรแกรมค้นหาสารสนเทศ (Search Engine Marketing-SEM)

การแต่งเว็บไซต์เพื่อให้ติดอันดับต้นๆ ของโปรแกรมค้นหาสารสนเทศ การทำ SEO ประกอบไปด้วยสองส่วนหลักๆ คือ ปัจจัยภายใน (SEO onpage) ปัจจัยภายนอก (SEO offpage)

การแต่งเว็บไซต์เพื่อให้ติดอันดับต้นๆ ของโปรแกรมค้นหาสารสนเทศ การทำ SEO เลือก Domain Name การปรับปรุงเนื้อหาที่สม่ำเสมอ แลกลิงค์กับเวบไซต์อื่นๆ ที่มีเนื้อหาเกี่ยวข้องกัน อย่ามีแค่ตัวอักษร ออกแบบเว็บไซต์ให้น่าใช้

การทำงานของ Google Google มีฐานข้อมูลจำนวนมากซึ่งแบ่งแยกตามลักษณะของเอกสารต่างๆ ดังนี้ Web ฐานข้อมูลดัชนีสำหรับเว็บเพจบนเครือข่ายอินเทอร์เน็ต รวมถึงเอกสาร PDF .ps .doc .xls .txt .ppt .rtf .asp .wpd และอื่นๆ อีกมากมาย Ads ฐานข้อมูลสำหรับเว็บเพจที่จ่ายเพื่อโฆษณาซึ่งโดยปกติจะแสดงทางด้านขวามือของหน้าจอผลลัพธ์การค้นหา ซึ่งจะแสดงภายใต้หัวข้อ ลิงค์ผู้สนับสนุน (Sponsored Links) Images ฐานข้อมูลรูปภาพ เพื่อใช้สำหรับค้นหารูปภาพโดยใช้ Google image search Videos ฐานข้อมูลสำหรับค้นหาวีดีโอ Groups ฐานข้อมูลการสนทนาต่างๆ (Discussion) News ฐานข้อมูลข่าวจากเว็บไซต์ข่าวต่างๆ เช่น CNN, BBC ซึ่งจะเก็บข้อมูลข่าวใน 30 วันจากวันที่ปัจจุบัน

การทำงานของ Google Book ฐานข้อมูลหนังสือ สำหรับค้นหาเนื้อหาในหนังสือต่างๆ ซึ่งจะให้ผู้ใช้อ่านข้อมูลในหนังสือเพียงบางส่วนเท่านั้น Scholar ฐานข้อมูลเกี่ยวกับบทความทางวิชาการที่เผยแพร่ทางการประชุมวิชาการ แม๊กกาซีน หรือเจอร์นอล Directory ฐานข้อมูลเกี่ยวกับการจัดกลุ่มประเภทเอกสารต่างๆ บนอินเทอร์เน็ตการเชื่อมโยงของเว็บเพจต่างๆ ภายในกลุ่มเดียวกัน ซึ่ง Google จะทำการคำนวณหาเพจแรงค์ไว้ให้เรียบร้อยแล้ว Froogle ฐานข้อมูลสำหรับการซื้อขายสิ้นค้าต่างๆ Map ฐานข้อมูลสำหรับค้นหาข้อมูลบนแผนที่ทั่วโลก Finance ฐานข้อมูลเกียวกับธุรกิจ การเงินต่างๆ

ฟิลด์ ความหมาย intitle: ทำการค้นหาเว็บเพจที่มีคำในคิวรี่ปรากฎอยู่ในชื่อเรื่อง (title) ของเว็บเพจ ซึ่งสามารถใช้ร่วมกับคำอื่นๆ คิวรี่แบบปกติได้ เช่น intitle:search engines. หมายถึงให้ค้นหาคำว่า 'search' ในชื่อเรื่องของเว็บเพจและค้นหาคำว่า 'engines' ในส่วนอื่นของเว็บเพจ inurl: ทำการค้นหาเว็บเพจที่มีคำในคิวรี่ปรากฎอยู่ใน URL (host name, path, or filename) สามารถใช้ร่วมกับคำอื่นๆ ในคิวรี่ปกติได้ เช่น inurl:searchengine watch. allintitle: ทำการค้นหาเว็บเพจที่มีคำทุกในคิวรี่ปรากฎอยู่ในชื่อเรื่องของเว็บเพจ เช่น allintitle:search engines link: ทำการค้นหาเว็บเพจที่มีคำในคิวรี่ปรากฎอยู่ในลิงค์ เช่น link:apple allinurl: ทำการค้นหาเว็บเพจที่มีคำทุกในคิวรี่ปรากฎอยู่ใน URL (host name, path, or filename). allinurl:apple mac site: ทำการค้นหาเว็บเพจที่มีคำในคิวรี่ปรากฎอยู่ในเว็บไซต์ อาจจะเป็นคำในไดเร็คทอรี่หรือชื่อไฟล์ก็ได้ site:notess.com/write allinanchor: ทำการค้นหาเว็บเพจที่มีคำในคิวรี่ปรากฎอยู่ในข้อความที่เป็นลิงค์ (Hypertext) เช่น allinanchor:ipad

การแสดงผลลัพธ์การค้นหา Google ใช้วิธีการ HITS และเว็บเพ็จต่างๆ จะถูกจัดกลุ่มไว้ ผลลัพธ์ที่แสดงจะถูก เลือกมาจากเว็บเพ็จ 2 เว็บเพ็จที่มีคะแนน HITS สูงสุดในแต่ละกลุ่ม ส่วนเว็บเพ็จอื่นๆ ที่ตรง กับข้อคำถามจะแสดงไว้ในลิงค์ [More results from…]

การเรียงลำดับผลลัพธ์ของ Google ใช้เทคนิคที่เรียกว่า PigeonRank™ จะพิจารณาจำนวนลิงค์ที่เชื่อมโยงเข้ามาที่เว็บเพ็จหนึ่ง (Incoming links) และจำนวนลิงค์ที่เชื่อมโยงไปยังเว็บเพ็จอื่นๆ (Outgoing links)

การเรียงลำดับผลลัพธ์ของ Google ค่าความเกี่ยวข้อง (Relevance score) ซึ่งแสดงถึงคะแนนความเกี่ยวข้องระหว่างข้อคำถามและ เว็บเพ็จต่างๆ และ ค่าความสำคัญ (Importance score) แสดงค่าความสำคัญของเว็บเพ็จต่างๆ

สรุปเนื้อหาประจำบท การทำดัชนีเว็บเพจต่างๆ ทำได้ 2 แบบคือ การทำดัชนีเว็บเพจต่างๆ ทำได้ 2 แบบคือ การทำดัชนีแบบศุนย์กลาง และ การทำดัชนีแบบกระจาย วิธีการหาคะแนนของเว็บเพจต่างๆ บนอินเทอร์เน็ต (Link Analysis) แบบที่นำคีย์เวิรดในคิวรี่มาพิจารณาด้วย ได้แก่วิธีการฮับและออร์เทอร์ริตี้ วิธีการที่ไม่นำคีย์เวิรดในคิวรี่มาพิจารณาร่วมในการให้คะแนนด้วย เรียกว่าวิธี เพจแรงค์