Information Retrieval

Information Retrieval
ผศ. ดร. ไกรศักดิ์ เกษร ภาควิชาวิทยากาคอมพิวเตอร์ฯ มหาวิทยาลัยนเรศวร Tel

การค้นหาข้อมูลบนอินเทอร์เน็ต
3. Web Search Engine การค้นหาข้อมูลบนอินเทอร์เน็ต

วัตถุประสงค์การเรียนรู้ประจำบท
เพื่อให้เข้าใจถึงหลักการค้นหาข้อมูลของ Search Engine เบื้องต้นในระบบอินเทอร์เน็ต เพื่อให้เข้าใจถึงหลักการทำดัชนีข้อมูลแบบต่างๆ ในระบบอินเทอร์เน็ต เพื่อให้เข้าใจถึงหลักการคิวรี่ข้อมูลและการให้คะแนนและเรียงลำดับผลลัพธ์การค้นหาในระบบอินเทอร์เน็ต เพื่อเปรียบเทียบการทำงานของระบบค้นหาข้อมูลบนอินเทอร์เน็ตที่กำลังเป็นที่นิยมในปัจจุบัน

การทำงานพื้นฐานของอินเทอร์เน็ต
ไคลเอ็นท์-เซิฟเวอร์ (client-sever model) http (hypertext transfer protocol) เครื่องเซิฟเวอร์จะทำการส่งข้อมูลที่เครื่องไคลเอ็นท์ร้องขอกับมาให้โดยเอกสารที่ส่งกลับมาจะอยู่ในรูปแบบของ HTML ในปัจจุบันมีเอกสารนับพันล้านเอกสารกระจายอยู่บนเครื่องเซิฟเวอร์ต่างๆ บนเครือข่ายอินเทอร์เน็ต เอกสารเหล่านี้จะไม่มีประโยชน์ใดๆ หากผู้ใช้ไม่สามารถค้นหาได้

ระบบค้นหาข้อมูลบนอินเทอร์เน็ต
มีการทำงาน 2 ลักษณะ pure search engine หรือ algorithmic search sponsored search engine เมื่อระบบค้นคืนข้อมูลทั้ง 2 แบบและนำผลลัพธ์จากการค้นหาทั้ง 2 แบบมาแสดงร่วมกันต่อผู้ใช้ ตัวอย่างเช่น Google

การคิวรี่ในระบบอินเทอร์เน็ต
ลักษณะของผู้ใช้ระบบการค้นหาข้อมูลบนอินเทอร์เน็ตมีความแตกต่างจากผู้ใช้ระบบค้นคืนข้อมูลสารสนเทศในองค์กร คิวรี่ที่ผู้ใช้บนระบบอินเทอร์เน็ตสร้างขึ้นจึงไม่มีรูปแบบที่แน่นอน ระบบค้นคืนข้อมูลจึงต้องถูกออกแบบเพื่อรองรับคิวรี่ที่หลากหลายจากผู้ใช้ทั่วโลกให้มากที่สุดเท่าที่จะทำได้ ระบบใดมีผู้ใช้มากนั่นหมายถึงมีรายได้จากผู้สนับสนุนมากขึ้นเช่นกัน

เป้าหมายของ Google ตัวอย่างเช่น Google มีหลักการ 3 อย่างคือ
(1) เน้นการเพิ่มค่าพรีซิชั่นมากกว่ารีคอลในผลลัพธ์ ซึ่งจะช่วยให้ผู้ใช้หาเอกสารที่ต้องการได้ในระยะเวลาอันสั้น (2) เข้าใจง่ายโดยที่หน้าจอผลลัพธ์จะไม่มีภาพประกอบเยอะ เพราะจะทำให้ดู วุ่ยวายและผู้ใช้อาจจะสับสนได้ (3) ลดเวลาในการตอบสนองของระบบ และแสดงผลลัพธ์ในกับผู้ใช้ในเวลาที่รวดเร็ว

ประเภทของคิวรี่ คิวรี่แบบค้นหาข้อมูล (Informational query) : คือคิวรี่ที่ใช้เพื่อค้นหาข้อมูลทั่วไป คิวรี่แบบนำทาง (Navigational query) : คือคิวรี่ที่ผู้ใช้ต้องการค้นหาเว็บไซต์เฉพาะเจาะจง ที่ผู้ใช้ต้องการดูข้อมูล คิวรี่แบบค้นหารายการ (Transactional query) : คือคิวรี่ที่ผู้ใช้ต้องการทำกิจกรรมบนอินเทอร์เน็ต เช่น การจองตั๋วเครื่องบิน การซื้อสินค้า หรือการดาวโหลดไฟล์

การทำดัชนีของระบบค้นคืนข้อมูลบนอินเทอร์เน็ต
การรวบรวมเอกสารจากเว็บไซต์ต่างๆ แบบอัตโนมัติเรียกว่า เว็บคราวลิงก์ (Web crawling) เครื่องมือที่ทำหน้าที่ท่องไปตามเว็บต่างๆ นี้เรียกอีกชื่อหนึ่งว่า แมงมุม (Spider) หรือหุ่นยนต์ (Robot) การทำดัชนีบนอินเทอร์เน็ตแบ่งเป็น 2 แบบ การทำดัชนีแบบศูนย์กลาง (Centralized indexing architecture) การทำดัชนีแบบกระจาย (Distributed indexing architecture)

การทำดัชนีแบบศูนย์กลาง
คราวเลอร์จะเริ่มจากเว็บไซต์ที่มีความนิยมสูงๆ อาจจะ 1 เว็บไซต์หรือหลายๆ เว็บไซต์พร้อมกัน โดยทำการคัดเลือกคำที่คิดว่าเป็นคีย์เวิรดออกมาจากเว็บเพจและไฮเปอร์ลิงค์ที่อยู่ในเว็บเพจนั้นๆ คีย์เวิรดที่ถูกส่งไปทำดัชนีที่เครื่องหลักส่วนกลาง

การทำงานของ Web crawling
source:

การทำดัชนีแบบศูนย์กลาง
ทำให้เกิดความคับคั่งของข้อมูลในเครือข่ายสูง คราวเลอร์เพียงตัวเดียวไม่สามารถทำงานได้ทันเวลา วิธีแก้ คราวเลอร์จึงต้องมีการกระจายตัวกันทำงาน (Distributed) และคราวเลอร์แต่ละตัวต้องทำงานหลายๆ งานพร้อมกัน (Parallel) การที่มีคราวเลอร์หลายๆ ตัวทำงานพร้อมๆ ทำให้เกิดร้องขอข้อมูลไปยังเครื่องเซิฟเวอร์พร้อมๆ กันมากเกินไป ทำให้เครื่องเซิฟเวอร์ไม่สามารถบริการได้ทันหรือไม่สามารถให้บริการได้ในที่สุด (Crash) การทำงานของคราวเลอร์จึงต้องมีนโยบายจำกัดจำนวนอัตราการร้องขอข้อมูลจากเครื่องเซิฟเวอร์เครื่องใดเครื่องหนึ่ง เรียกว่า นโยบายสุภาพ (Politeness policies)

การทำดัชนีแบบกระจาย

การใช้ตัวดำเนินการตรรกะในระบบค้นคืนข้อมูลบนอินเทอร์เน็ต
การค้นหาข้อมูลแบบบูลีน (Boolean search) AND, เราสามารถใช้เครื่องหมาย “+” แทนคำว่า AND ได้ OR, เว็บเพจต้องมีอย่างน้อยหนึ่งคำในคิวรี่ปรากฎอยู่จึงจะถูกเลือกขึ้นมา NOT, เว็บเพจที่ไม่ปรากฎคำที่ตามหลัง NOT จะถูกเลือกมาเป็นผลลัพธ์

การใช้ตัวดำเนินการตรรกะในระบบค้นคืนข้อมูลบนอินเทอร์เน็ต
NEAR, หมายถึงคีย์เวิรดต่างๆ ในคิวรี่ต้องมีระห่างไม่เกินที่ระบุในคิวรี่ moon NEAR river AltaVista NEAR หมายถึง คีย์เวิร์ดต่างๆ จะปรากฎห่างกันไม่เกิน10 คำ AOL Search ใช้รูปแบบ NEAR/# ตัวอย่างเช่น NEAR/5 คีย์เวริดต่างๆ จะห่างกันไม่เกิน 5 คำ Lycos NEAR หมายถึง คีย์เวิร์ดต่างๆ จะปรากฎห่างกันไม่เกิน 25 คำ

การให้คะแนนและการเรียงลำดับเว็บเพจผลลัพธ์
ระบบค้นคืนข้อมูลบนอินเทอร์เน็ตการเรียงลำดับเว็บเพจที่เป็นผลลัพธ์จะนำเอาข้อมูลของลิงค์ไปพิจารณาด้วย วิธีการคำนวณหาคะแนนของเว็บเพจต่างๆ และการเรียงลำดับเว็บเพจผลลัพธ์โดยนำลิงค์มาเป็นตัวพิจารณาร่วมด้วย เรียกว่า การวิเคราะห์ลิงค์ (Link analysis) การเชื่อมต่อกันระหว่างเว็บเพจต่างๆ จะอยู่ในลักษณะของกราฟแบบมีทิศทาง (Directed graph) Anchor A B

การให้คะแนนและการเรียงลำดับเว็บเพจผลลัพธ์
Achor text จึงสำคัญในการให้ข้อมูลเกี่ยวกับเว็บเพจนั้นๆ และควรถูกนำไปใช้ในการทำดัชนี การให้น้ำหนักคำซึ่งอาจจะดูจากความถี่ของคำใน Achor text ซึ่งมีลักษณะการคำนวณเหมือนกับวิธี idf การให้คะแนนเว็บเพจแบบเพจแรงค์ (PageRank) จะมีการให้คะแนนกับเว็บเพจหรือโหนดในกราฟนั่นเอง

การให้คะแนนเว็บเพจแบบเพจแรงค์ (PageRank)
ตัวอย่าง ผู้ใช้เริ่มใช้งานที่เว็บเพจ A และทำการเปิดเว็บอื่นๆ ผ่านเว็บเพจ A โดยที่เว็บเพจ A มีลิงค์เชื่อมต่อไปยังเว็บเพจอื่นๆ ได้แก่ B, C และ D ดังนั้นมีความน่าจะเป็นที่ผู้ใช้จะทำการคลิกเพื่อเปิดเว็บเพจแต่ละอันคือ 1/3 นั่นเอง A D C B

วิธีการคำนวนหาค่าเพจแรงค์สามารถทำได้โดยใช้หลักการของมาร์คอฟเชนส์ (Markov chain) มาร์คอฟเชนส์สามารถแสดงในรูปแบบของเมตริกซ์ P= NxN โดยที่ N คือโหนดต่างๆ และ แต่ละค่าในเมตริกซ์คือความน่าจะเป็น (Transition probability) ในการคลิกของผู้ใช้เพื่อเปลี่ยนตำแหน่งไปยังอีกโหนดหนึ่ง

กราฟแสดงความสัมพันธ์ของโหนด (เว็บเพจ) A B และ C โดยลูกศรหมายถึงลิงค์ต่างๆ และตัวเลขแสดงถึงความน่าจะเป็นที่ผู้ใช้จะทำการคลิกเพื่อเปิดอีกเว็บเพจหนึ่งขึ้นมา 0.5 1 C B A

จากรูปความน่าจะเป็นในของแต่ละโหนดสามารถพิจารณาในรูปแบบของ เว็กเตอร์ความน่าจะเป็น (Proablity vector) ได้

ถ้ามีลิงค์เชื่อมต่อระหว่างโหนด i ไปยังโหนด j ดังนั้น Aij = 1 แต่ไม่มีลิงค์เชื่อมต่อระหว่างโหนด Aij = 0 ถ้าแถวใดๆ ใน A ไม่มี 1 เลย ในใส่ค่า 1/N ของแต่ค่า Aij โดยที่ N คือจำนวนโหนดในกราฟ แถวใดที่มี 1 ให้นำ 1 มาบวกกันทั้งหมดและนำไปหาร Aij ที่เท่ากับ 1 ในแถวเดียวกัน คูณเมตริกซ์ A ด้วยค่า โดยที่ คือค่าเทเลพอร์ท บวกค่า เข้าไปในทุกๆ ค่าในเมตริกซ์ ผลลัพธ์ที่ได้คือเมตริกซ์ความน่าจะเป็นที่ผู้ใช้จะคลิกเพื่อเปลี่ยนเว็บเพจ (P)

เว็บเพจ A อาจจะไม่มีลิงค์ไปยังเว็บเพจอื่นๆ เลยก็ได้ แต่ผู้ใช้สามารถที่จะเปิดเว็บเพจ B C หรือ D ขึ้นมาอ่านโดยพิมพ์ URL ไปที่เบราเซอร์วิธีการนี้เรียกว่า เทเลพอร์ท (Teleport) ในการกำหนดค่าเพจแรงค์ให้กับแต่โหนดในกราฟ เราจะใช้ เทเลพอร์ท ใน 2 กรณีคือ (1) เมื่อโหนดไม่มีลิงค์ไปยังโหนดอื่นๆ (2) ถ้าโหนดใดมีลิงค์เชื่อมต่อไปยังโหนดอื่นๆ แต่ว่ามีความน่าจะเป็นที่ผู้ใช้จะใช้วิธีเทเลพอร์ทเพื่อไปยังโหนดนั้นๆ น้อยกว่า 1 และมากกว่า 0 ( 0<𝛼<1 ) และมีความน่าจะเป็นที่ผู้ใช้จะทำการคลิกลิงค์ไปยังโหนดอื่นๆ ด้วยความน่าจะเป็น 1−𝛼

ตัวอย่างที่ 3‑1 จงพิจารณากราฟซึ่งประกอบด้วย 3 โหนด (1, 2 และ 3) ซึ่งมีลิงค์เชื่อมต่อกันดังนี้ 1->2, 3->2, 2->1, 2-> 3 จงเขียนเมตริกซ์ซึ่งแสดงความน่าจะเป็นของการคลิกของผู้ใช้เพื่อนจะเปลี่ยนเว็บเพจ ด้วยค่าเทเลพอร์ท 𝛼=0.5 ทำการสร้างเมตริกซ์ A โดยที่ถ้ามีลิงค์เชื่อมต่อระหว่างโหนด i ไปยังโหนด j ดังนั้น Aij = 1 แต่ไม่มีลิงค์เชื่อมต่อระหว่างโหนด Aij = 0 1 3 2

1 2 3 2) ถ้าแถวใดๆ ใน A ไม่มี 1 เลย ในใส่ค่า 1/N ของแต่ละค่า Aij โดยที่ N คือจำนวนโหนดในกราฟ ในตัวอย่างนี้ทุกแถวมี 1 จึงข้ามไปทำขั้นตอนต่อไป 3) แถวใดที่มี 1 ให้นำ 1 มาบวกกันทั้งหมดและนำไปหาร Aij ที่เท่ากับ 1 ในแถวเดียวกัน 3.1) แถวที่ 1 (0+1+0) = 1 นำไปหารที่ตำแหน่ง (1,2) =1/1=1 3.2) แถวที่ 2 (1+0+1) = 2 นำไปหารที่ตำแหน่ง (2,1) =1/2 = 0.5 และ (2,3) = 1/2 = 0.5 3.3) แถวที่ 3 (0+1+0) = 1 นำไปหารที่ตำแหน่ง (3,2) =1/1=1 ดังนั้นจะได้ค่าในเมตริกซ์ดังนี้

1 2 3 0.5 4) คูณเมตริกซ์ A ด้วยค่า = = 0.5 ดังนั้นได้ค่าในเมตริกซ์ A คือ A= 1 2 3 0.5 0.25

1 2 3 0.17 0.67 0.42

ความน่าจะเป็นที่ผู้ใช้จะทำการเปลี่ยนไปอยู่ที่เว็บเพจอื่นๆ
เราสามารถแสดงความน่าจะเป็นของโหนดที่ผู้ใช้อยู่ ณ เวลาใดเวลาหนึ่งในรูปแบบของเว็กเตอร์ ตัวอย่างเช่นถ้าเว็กเตอร์ประกอบด้วย 3 โหนดเราสามารถเขียนตำแหน่งของผู้ใช้ ณ เวลาที่ 0 ได้ว่า = 1,0,0 ณ เวลาที่ 0 ผู้ใช้จะเริ่มจากโหนดในเว็กเตอร์ที่มีค่าในเว็กเตอร์เท่ากับ 1 และที่เหลือเป็น 0 ณ เวลาที่ 1 เราสามารถหาค่าความน่าจะเป็นที่ผู้ใช้จะเปลี่ยนเว็บเพจไปยังเพจต่างๆ คือ โดย P คือเมตริกซ์ความหน้าจะเป็นที่ผู้ใช้จะเปลี่ยนเว็บเพจ

(4‑1)

ตัวอย่างที่ 3‑2 จากข้อมูลในตัวอย่างที่ 3‑1 จงหาว่า ณ เวลาที่ 4 เว็บเพจใดที่ผู้ใช้น่าจะอยู่ที่เว็บใดมากที่สุด ทำการคำนวณหาตำแหน่งของผู้ใช้ ณ เวลาที่ 1 ( ) ดังนั้น P= 1 2 3 0.17 0.67 0.42

2) ทำการคำนวณหาตำแหน่งของผู้ใช้ ณ เวลาที่ 2 3) ทำการคำนวณหาตำแหน่งของผู้ใช้ ณ เวลาที่ 3 4) ทำการคำนวณหาตำแหน่งของผู้ใช้ ณ เวลาที่ 4

การให้คะแนนเว็บเพจแบบฮับและออร์เทอริตี้ (Hub and Authorities)
ที่ผ่านมาเป็นการให้คะแนนเว็บเพจโดยไม่สนใจว่าคิวรี่ของผู้ใช้จะเป็นอย่างไรหรือมีคำใดอยู่บ้าง วิธีการให้คะแนนแบบฮับและออร์เทอร์ริตี้ (Hub and Authorities) เว็บเพจหนึ่งๆ จะมีการให้คะแนนสองส่วน คือ ฮับและออร์เทอร์ริตี้ ดังนั้นในการเรียงลำดับผลลัพธ์ของวิธีการนี้จะมีการเรียงลำดับผลลัพธ์ 2 ส่วนด้วยเช่นกัน คือเรียงลำดับตามคะแนนของฮับและเรียงลำดับตามคะแนนของออร์เทอร์ริตี้

สมมติให้เว็บเพจ v เป็นเว็บเพจที่อยู่ในชุดของเว็บเพจหนึ่ง h(v) คือคะแนนฮับ และ a(v) คือคะแนนออร์เทอร์ริตี้ ค่าเริ่มต้นของฮับและออร์เทอร์ริตี้จะเท่ากับ 1 เสมอหรับทุกๆ เว็บเพจ A คือเมตริกซ์แสดงความสัมพันธ์ของเว็บเพจต่างๆ และ Aij = 1 ถ้ามีลิงค์จากเว็บเพจ i ไปยังเว็บเพจ j แต่ถ้าไม่มีลิงค์ Aij = 0

ในการคำนวณหาคะแนนฮับและออร์เทอร์ริตี้มีขั้นตอนคล้ายๆ กับเพจแรงค์คือมีการคำนวณเป็นขั้นๆ โดยเริ่มจาก ณ เวลาที่ 0 ไปเรื่อยๆ ตามขั้นตอนดังต่อไปนี้ ทำการสร้างเมตริกซ์ A ตามความสัมพันธ์ของเว็บเพจต่างๆ และใส่ค่าในเมตริกซ์ให้ถูกต้อง ทำการคำนวณ ทำการคำนวณหาค่า ℎ และ 𝑎 ตามสมการที่ (3‑4) และ (3‑5) วิธีการคำนวณแบบนี้มีชื่อเรียกอีกอย่างหนึ่งคือ HITS (Hyperlink-Induced Topic Search)

ตัวอย่างที่ 3‑3 จงคำนวณหาคะแนนฮับและออร์เทอร์ริตี้ของชุดเว็บเพจซึ่งมีลิงค์เชื่อมโยงกันดังแสดงในรูปที่ 3‑10 ณ เวลาที่ 3 ถ้าสมมติให้คิวรี่คือคำว่า jaguar และมีการให้คะแนน 2 เท่ากับลิงค์ที่มี Achor text ตรงกับคำในคิวรี่ รูปที่ 3‑10 กราฟแสดงความสัมพันธ์ของเว็บเพจต่างๆ ข้อความที่อยู่บนลูกศรคือ Achor text

2) ทำการคำนวนค่า AT 3) ทำการคำนวณหาค่า ℎ และ 𝑎 ตามสมการที่ (3‑4)และ (3‑5) ณ เวลาที่ 1 ค่าเริ่มต้นของ ℎ และ 𝑎 เท่ากับ [1, 1, 1, 1, 1, 1, 1] ดังนั้น 4) ทำการคำนวณหาค่า ℎ และ 𝑎 ตามสมการที่ (3‑4)และ (3‑5) ณ เวลาที่ 2 5) ทำการคำนวณหาค่า ℎ และ 𝑎 ตามสมการที่ (3‑4)และ (3‑5) ณ เวลาที่ 3

Good Hubs and Authorities

การแต่งเว็บไซต์เพื่อให้ติดอันดับต้นๆ ของโปรแกรมค้นหาสารสนเทศ
SEO (Search Engine Optimization) การจัดทำการปรับปรุงเว็บไซต์หรือเว็บเพ็จ เพื่อให้ติดอันดับต้นๆ ในหน้าผลลัพธ์การค้นหาของระบบค้นหาข้อมูล เป็นส่วนหนึ่งของการทำการตลาดผ่านโปรแกรมค้นหาสารสนเทศ (Search Engine Marketing-SEM)

การทำ SEO ประกอบไปด้วยสองส่วนหลักๆ คือ ปัจจัยภายใน (SEO onpage) ปัจจัยภายนอก (SEO offpage)

การทำ SEO เลือก Domain Name การปรับปรุงเนื้อหาที่สม่ำเสมอ แลกลิงค์กับเวบไซต์อื่นๆ ที่มีเนื้อหาเกี่ยวข้องกัน อย่ามีแค่ตัวอักษร ออกแบบเว็บไซต์ให้น่าใช้

การทำงานของ Google Google มีฐานข้อมูลจำนวนมากซึ่งแบ่งแยกตามลักษณะของเอกสารต่างๆ ดังนี้ Web ฐานข้อมูลดัชนีสำหรับเว็บเพจบนเครือข่ายอินเทอร์เน็ต รวมถึงเอกสาร PDF .ps .doc .xls .txt .ppt .rtf .asp .wpd และอื่นๆ อีกมากมาย Ads ฐานข้อมูลสำหรับเว็บเพจที่จ่ายเพื่อโฆษณาซึ่งโดยปกติจะแสดงทางด้านขวามือของหน้าจอผลลัพธ์การค้นหา ซึ่งจะแสดงภายใต้หัวข้อ ลิงค์ผู้สนับสนุน (Sponsored Links) Images ฐานข้อมูลรูปภาพ เพื่อใช้สำหรับค้นหารูปภาพโดยใช้ Google image search Videos ฐานข้อมูลสำหรับค้นหาวีดีโอ Groups ฐานข้อมูลการสนทนาต่างๆ (Discussion) News ฐานข้อมูลข่าวจากเว็บไซต์ข่าวต่างๆ เช่น CNN, BBC ซึ่งจะเก็บข้อมูลข่าวใน 30 วันจากวันที่ปัจจุบัน

การทำงานของ Google Book ฐานข้อมูลหนังสือ สำหรับค้นหาเนื้อหาในหนังสือต่างๆ ซึ่งจะให้ผู้ใช้อ่านข้อมูลในหนังสือเพียงบางส่วนเท่านั้น Scholar ฐานข้อมูลเกี่ยวกับบทความทางวิชาการที่เผยแพร่ทางการประชุมวิชาการ แม๊กกาซีน หรือเจอร์นอล Directory ฐานข้อมูลเกี่ยวกับการจัดกลุ่มประเภทเอกสารต่างๆ บนอินเทอร์เน็ตการเชื่อมโยงของเว็บเพจต่างๆ ภายในกลุ่มเดียวกัน ซึ่ง Google จะทำการคำนวณหาเพจแรงค์ไว้ให้เรียบร้อยแล้ว Froogle ฐานข้อมูลสำหรับการซื้อขายสิ้นค้าต่างๆ Map ฐานข้อมูลสำหรับค้นหาข้อมูลบนแผนที่ทั่วโลก Finance ฐานข้อมูลเกียวกับธุรกิจ การเงินต่างๆ

ฟิลด์ ความหมาย intitle: ทำการค้นหาเว็บเพจที่มีคำในคิวรี่ปรากฎอยู่ในชื่อเรื่อง (title) ของเว็บเพจ ซึ่งสามารถใช้ร่วมกับคำอื่นๆ คิวรี่แบบปกติได้ เช่น intitle:search engines. หมายถึงให้ค้นหาคำว่า 'search' ในชื่อเรื่องของเว็บเพจและค้นหาคำว่า 'engines' ในส่วนอื่นของเว็บเพจ inurl: ทำการค้นหาเว็บเพจที่มีคำในคิวรี่ปรากฎอยู่ใน URL (host name, path, or filename) สามารถใช้ร่วมกับคำอื่นๆ ในคิวรี่ปกติได้ เช่น inurl:searchengine watch. allintitle: ทำการค้นหาเว็บเพจที่มีคำทุกในคิวรี่ปรากฎอยู่ในชื่อเรื่องของเว็บเพจ เช่น allintitle:search engines link: ทำการค้นหาเว็บเพจที่มีคำในคิวรี่ปรากฎอยู่ในลิงค์ เช่น link:apple allinurl: ทำการค้นหาเว็บเพจที่มีคำทุกในคิวรี่ปรากฎอยู่ใน URL (host name, path, or filename). allinurl:apple mac site: ทำการค้นหาเว็บเพจที่มีคำในคิวรี่ปรากฎอยู่ในเว็บไซต์ อาจจะเป็นคำในไดเร็คทอรี่หรือชื่อไฟล์ก็ได้ site:notess.com/write allinanchor: ทำการค้นหาเว็บเพจที่มีคำในคิวรี่ปรากฎอยู่ในข้อความที่เป็นลิงค์ (Hypertext) เช่น allinanchor:ipad

การแสดงผลลัพธ์การค้นหา
Google ใช้วิธีการ HITS และเว็บเพ็จต่างๆ จะถูกจัดกลุ่มไว้ ผลลัพธ์ที่แสดงจะถูก เลือกมาจากเว็บเพ็จ 2 เว็บเพ็จที่มีคะแนน HITS สูงสุดในแต่ละกลุ่ม ส่วนเว็บเพ็จอื่นๆ ที่ตรง กับข้อคำถามจะแสดงไว้ในลิงค์ [More results from…]

การเรียงลำดับผลลัพธ์ของ Google
ใช้เทคนิคที่เรียกว่า PigeonRank™ จะพิจารณาจำนวนลิงค์ที่เชื่อมโยงเข้ามาที่เว็บเพ็จหนึ่ง (Incoming links) และจำนวนลิงค์ที่เชื่อมโยงไปยังเว็บเพ็จอื่นๆ (Outgoing links)

การเรียงลำดับผลลัพธ์ของ Google
ค่าความเกี่ยวข้อง (Relevance score) ซึ่งแสดงถึงคะแนนความเกี่ยวข้องระหว่างข้อคำถามและ เว็บเพ็จต่างๆ และ ค่าความสำคัญ (Importance score) แสดงค่าความสำคัญของเว็บเพ็จต่างๆ

สรุปเนื้อหาประจำบท การทำดัชนีเว็บเพจต่างๆ ทำได้ 2 แบบคือ
การทำดัชนีเว็บเพจต่างๆ ทำได้ 2 แบบคือ การทำดัชนีแบบศุนย์กลาง และ การทำดัชนีแบบกระจาย วิธีการหาคะแนนของเว็บเพจต่างๆ บนอินเทอร์เน็ต (Link Analysis) แบบที่นำคีย์เวิรดในคิวรี่มาพิจารณาด้วย ได้แก่วิธีการฮับและออร์เทอร์ริตี้ วิธีการที่ไม่นำคีย์เวิรดในคิวรี่มาพิจารณาร่วมในการให้คะแนนด้วย เรียกว่าวิธี เพจแรงค์

Information Retrieval

งานนำเสนอที่คล้ายกัน

งานนำเสนอเรื่อง: "Information Retrieval"— ใบสำเนางานนำเสนอ:

งานนำเสนอที่คล้ายกัน

เรื่องโครงการ

การติดต่อกลับ

เข้าสู่ระบบ

ลงทะเบียนผ่านเครือข่ายสังคม:

Information Retrieval

งานนำเสนอที่คล้ายกัน

งานนำเสนอเรื่อง: "Information Retrieval"— ใบสำเนางานนำเสนอ:

งานนำเสนอที่คล้ายกัน

เรื่องโครงการ

การติดต่อกลับ