งานนำเสนอกำลังจะดาวน์โหลด โปรดรอ

งานนำเสนอกำลังจะดาวน์โหลด โปรดรอ

Information Retrieval

งานนำเสนอที่คล้ายกัน


งานนำเสนอเรื่อง: "Information Retrieval"— ใบสำเนางานนำเสนอ:

1 Information Retrieval
ผศ. ดร. ไกรศักดิ์ เกษร ภาควิชาวิทยากาคอมพิวเตอร์ฯ มหาวิทยาลัยนเรศวร Tel

2 การค้นหาข้อมูลบนอินเทอร์เน็ต
3. Web Search Engine การค้นหาข้อมูลบนอินเทอร์เน็ต

3 วัตถุประสงค์การเรียนรู้ประจำบท
เพื่อให้เข้าใจถึงหลักการค้นหาข้อมูลของ Search Engine เบื้องต้นในระบบอินเทอร์เน็ต เพื่อให้เข้าใจถึงหลักการทำดัชนีข้อมูลแบบต่างๆ ในระบบอินเทอร์เน็ต เพื่อให้เข้าใจถึงหลักการคิวรี่ข้อมูลและการให้คะแนนและเรียงลำดับผลลัพธ์การค้นหาในระบบอินเทอร์เน็ต เพื่อเปรียบเทียบการทำงานของระบบค้นหาข้อมูลบนอินเทอร์เน็ตที่กำลังเป็นที่นิยมในปัจจุบัน

4 การทำงานพื้นฐานของอินเทอร์เน็ต
ไคลเอ็นท์-เซิฟเวอร์ (client-sever model) http (hypertext transfer protocol) เครื่องเซิฟเวอร์จะทำการส่งข้อมูลที่เครื่องไคลเอ็นท์ร้องขอกับมาให้โดยเอกสารที่ส่งกลับมาจะอยู่ในรูปแบบของ HTML ในปัจจุบันมีเอกสารนับพันล้านเอกสารกระจายอยู่บนเครื่องเซิฟเวอร์ต่างๆ บนเครือข่ายอินเทอร์เน็ต เอกสารเหล่านี้จะไม่มีประโยชน์ใดๆ หากผู้ใช้ไม่สามารถค้นหาได้

5 ระบบค้นหาข้อมูลบนอินเทอร์เน็ต
มีการทำงาน 2 ลักษณะ pure search engine หรือ algorithmic search sponsored search engine เมื่อระบบค้นคืนข้อมูลทั้ง 2 แบบและนำผลลัพธ์จากการค้นหาทั้ง 2 แบบมาแสดงร่วมกันต่อผู้ใช้ ตัวอย่างเช่น Google

6

7 การคิวรี่ในระบบอินเทอร์เน็ต
ลักษณะของผู้ใช้ระบบการค้นหาข้อมูลบนอินเทอร์เน็ตมีความแตกต่างจากผู้ใช้ระบบค้นคืนข้อมูลสารสนเทศในองค์กร คิวรี่ที่ผู้ใช้บนระบบอินเทอร์เน็ตสร้างขึ้นจึงไม่มีรูปแบบที่แน่นอน ระบบค้นคืนข้อมูลจึงต้องถูกออกแบบเพื่อรองรับคิวรี่ที่หลากหลายจากผู้ใช้ทั่วโลกให้มากที่สุดเท่าที่จะทำได้ ระบบใดมีผู้ใช้มากนั่นหมายถึงมีรายได้จากผู้สนับสนุนมากขึ้นเช่นกัน

8 เป้าหมายของ Google ตัวอย่างเช่น Google มีหลักการ 3 อย่างคือ
(1) เน้นการเพิ่มค่าพรีซิชั่นมากกว่ารีคอลในผลลัพธ์ ซึ่งจะช่วยให้ผู้ใช้หาเอกสารที่ต้องการได้ในระยะเวลาอันสั้น (2) เข้าใจง่ายโดยที่หน้าจอผลลัพธ์จะไม่มีภาพประกอบเยอะ เพราะจะทำให้ดู วุ่ยวายและผู้ใช้อาจจะสับสนได้ (3) ลดเวลาในการตอบสนองของระบบ และแสดงผลลัพธ์ในกับผู้ใช้ในเวลาที่รวดเร็ว

9 ประเภทของคิวรี่ คิวรี่แบบค้นหาข้อมูล (Informational query) : คือคิวรี่ที่ใช้เพื่อค้นหาข้อมูลทั่วไป คิวรี่แบบนำทาง (Navigational query) : คือคิวรี่ที่ผู้ใช้ต้องการค้นหาเว็บไซต์เฉพาะเจาะจง ที่ผู้ใช้ต้องการดูข้อมูล คิวรี่แบบค้นหารายการ (Transactional query) : คือคิวรี่ที่ผู้ใช้ต้องการทำกิจกรรมบนอินเทอร์เน็ต เช่น การจองตั๋วเครื่องบิน การซื้อสินค้า หรือการดาวโหลดไฟล์

10 การทำดัชนีของระบบค้นคืนข้อมูลบนอินเทอร์เน็ต
การรวบรวมเอกสารจากเว็บไซต์ต่างๆ แบบอัตโนมัติเรียกว่า เว็บคราวลิงก์ (Web crawling) เครื่องมือที่ทำหน้าที่ท่องไปตามเว็บต่างๆ นี้เรียกอีกชื่อหนึ่งว่า แมงมุม (Spider) หรือหุ่นยนต์ (Robot) การทำดัชนีบนอินเทอร์เน็ตแบ่งเป็น 2 แบบ การทำดัชนีแบบศูนย์กลาง (Centralized indexing architecture) การทำดัชนีแบบกระจาย (Distributed indexing architecture)

11 การทำดัชนีแบบศูนย์กลาง
คราวเลอร์จะเริ่มจากเว็บไซต์ที่มีความนิยมสูงๆ อาจจะ 1 เว็บไซต์หรือหลายๆ เว็บไซต์พร้อมกัน โดยทำการคัดเลือกคำที่คิดว่าเป็นคีย์เวิรดออกมาจากเว็บเพจและไฮเปอร์ลิงค์ที่อยู่ในเว็บเพจนั้นๆ คีย์เวิรดที่ถูกส่งไปทำดัชนีที่เครื่องหลักส่วนกลาง

12 การทำงานของ Web crawling
source:

13 การทำดัชนีแบบศูนย์กลาง
ทำให้เกิดความคับคั่งของข้อมูลในเครือข่ายสูง คราวเลอร์เพียงตัวเดียวไม่สามารถทำงานได้ทันเวลา วิธีแก้ คราวเลอร์จึงต้องมีการกระจายตัวกันทำงาน (Distributed) และคราวเลอร์แต่ละตัวต้องทำงานหลายๆ งานพร้อมกัน (Parallel) การที่มีคราวเลอร์หลายๆ ตัวทำงานพร้อมๆ ทำให้เกิดร้องขอข้อมูลไปยังเครื่องเซิฟเวอร์พร้อมๆ กันมากเกินไป ทำให้เครื่องเซิฟเวอร์ไม่สามารถบริการได้ทันหรือไม่สามารถให้บริการได้ในที่สุด (Crash) การทำงานของคราวเลอร์จึงต้องมีนโยบายจำกัดจำนวนอัตราการร้องขอข้อมูลจากเครื่องเซิฟเวอร์เครื่องใดเครื่องหนึ่ง เรียกว่า นโยบายสุภาพ (Politeness policies)

14 การทำดัชนีแบบกระจาย

15 การใช้ตัวดำเนินการตรรกะในระบบค้นคืนข้อมูลบนอินเทอร์เน็ต
การค้นหาข้อมูลแบบบูลีน (Boolean search) AND, เราสามารถใช้เครื่องหมาย “+” แทนคำว่า AND ได้ OR, เว็บเพจต้องมีอย่างน้อยหนึ่งคำในคิวรี่ปรากฎอยู่จึงจะถูกเลือกขึ้นมา NOT, เว็บเพจที่ไม่ปรากฎคำที่ตามหลัง NOT จะถูกเลือกมาเป็นผลลัพธ์

16 การใช้ตัวดำเนินการตรรกะในระบบค้นคืนข้อมูลบนอินเทอร์เน็ต
NEAR, หมายถึงคีย์เวิรดต่างๆ ในคิวรี่ต้องมีระห่างไม่เกินที่ระบุในคิวรี่ moon NEAR river AltaVista NEAR หมายถึง คีย์เวิร์ดต่างๆ จะปรากฎห่างกันไม่เกิน10 คำ AOL Search ใช้รูปแบบ NEAR/# ตัวอย่างเช่น NEAR/5 คีย์เวริดต่างๆ จะห่างกันไม่เกิน 5 คำ Lycos NEAR หมายถึง คีย์เวิร์ดต่างๆ จะปรากฎห่างกันไม่เกิน 25 คำ

17 การให้คะแนนและการเรียงลำดับเว็บเพจผลลัพธ์
ระบบค้นคืนข้อมูลบนอินเทอร์เน็ตการเรียงลำดับเว็บเพจที่เป็นผลลัพธ์จะนำเอาข้อมูลของลิงค์ไปพิจารณาด้วย วิธีการคำนวณหาคะแนนของเว็บเพจต่างๆ และการเรียงลำดับเว็บเพจผลลัพธ์โดยนำลิงค์มาเป็นตัวพิจารณาร่วมด้วย เรียกว่า การวิเคราะห์ลิงค์ (Link analysis) การเชื่อมต่อกันระหว่างเว็บเพจต่างๆ จะอยู่ในลักษณะของกราฟแบบมีทิศทาง (Directed graph) Anchor A B

18 การให้คะแนนและการเรียงลำดับเว็บเพจผลลัพธ์
Achor text จึงสำคัญในการให้ข้อมูลเกี่ยวกับเว็บเพจนั้นๆ และควรถูกนำไปใช้ในการทำดัชนี การให้น้ำหนักคำซึ่งอาจจะดูจากความถี่ของคำใน Achor text ซึ่งมีลักษณะการคำนวณเหมือนกับวิธี idf การให้คะแนนเว็บเพจแบบเพจแรงค์ (PageRank) จะมีการให้คะแนนกับเว็บเพจหรือโหนดในกราฟนั่นเอง

19 การให้คะแนนเว็บเพจแบบเพจแรงค์ (PageRank)
ตัวอย่าง ผู้ใช้เริ่มใช้งานที่เว็บเพจ A และทำการเปิดเว็บอื่นๆ ผ่านเว็บเพจ A โดยที่เว็บเพจ A มีลิงค์เชื่อมต่อไปยังเว็บเพจอื่นๆ ได้แก่ B, C และ D ดังนั้นมีความน่าจะเป็นที่ผู้ใช้จะทำการคลิกเพื่อเปิดเว็บเพจแต่ละอันคือ 1/3 นั่นเอง A D C B

20 การให้คะแนนเว็บเพจแบบเพจแรงค์ (PageRank)
วิธีการคำนวนหาค่าเพจแรงค์สามารถทำได้โดยใช้หลักการของมาร์คอฟเชนส์ (Markov chain) มาร์คอฟเชนส์สามารถแสดงในรูปแบบของเมตริกซ์ P= NxN โดยที่ N คือโหนดต่างๆ และ แต่ละค่าในเมตริกซ์คือความน่าจะเป็น (Transition probability) ในการคลิกของผู้ใช้เพื่อเปลี่ยนตำแหน่งไปยังอีกโหนดหนึ่ง

21 การให้คะแนนเว็บเพจแบบเพจแรงค์ (PageRank)
กราฟแสดงความสัมพันธ์ของโหนด (เว็บเพจ) A B และ C โดยลูกศรหมายถึงลิงค์ต่างๆ และตัวเลขแสดงถึงความน่าจะเป็นที่ผู้ใช้จะทำการคลิกเพื่อเปิดอีกเว็บเพจหนึ่งขึ้นมา 0.5 1 C B A

22 การให้คะแนนเว็บเพจแบบเพจแรงค์ (PageRank)
จากรูปความน่าจะเป็นในของแต่ละโหนดสามารถพิจารณาในรูปแบบของ เว็กเตอร์ความน่าจะเป็น (Proablity vector) ได้

23 การให้คะแนนเว็บเพจแบบเพจแรงค์ (PageRank)
ถ้ามีลิงค์เชื่อมต่อระหว่างโหนด i ไปยังโหนด j ดังนั้น Aij = 1 แต่ไม่มีลิงค์เชื่อมต่อระหว่างโหนด Aij = 0 ถ้าแถวใดๆ ใน A ไม่มี 1 เลย ในใส่ค่า 1/N ของแต่ค่า Aij โดยที่ N คือจำนวนโหนดในกราฟ แถวใดที่มี 1 ให้นำ 1 มาบวกกันทั้งหมดและนำไปหาร Aij ที่เท่ากับ 1 ในแถวเดียวกัน คูณเมตริกซ์ A ด้วยค่า โดยที่ คือค่าเทเลพอร์ท บวกค่า เข้าไปในทุกๆ ค่าในเมตริกซ์ ผลลัพธ์ที่ได้คือเมตริกซ์ความน่าจะเป็นที่ผู้ใช้จะคลิกเพื่อเปลี่ยนเว็บเพจ (P)

24 การให้คะแนนเว็บเพจแบบเพจแรงค์ (PageRank)
เว็บเพจ A อาจจะไม่มีลิงค์ไปยังเว็บเพจอื่นๆ เลยก็ได้ แต่ผู้ใช้สามารถที่จะเปิดเว็บเพจ B C หรือ D ขึ้นมาอ่านโดยพิมพ์ URL ไปที่เบราเซอร์วิธีการนี้เรียกว่า เทเลพอร์ท (Teleport) ในการกำหนดค่าเพจแรงค์ให้กับแต่โหนดในกราฟ เราจะใช้ เทเลพอร์ท ใน 2 กรณีคือ (1) เมื่อโหนดไม่มีลิงค์ไปยังโหนดอื่นๆ (2) ถ้าโหนดใดมีลิงค์เชื่อมต่อไปยังโหนดอื่นๆ แต่ว่ามีความน่าจะเป็นที่ผู้ใช้จะใช้วิธีเทเลพอร์ทเพื่อไปยังโหนดนั้นๆ น้อยกว่า 1 และมากกว่า 0 ( 0<𝛼<1 ) และมีความน่าจะเป็นที่ผู้ใช้จะทำการคลิกลิงค์ไปยังโหนดอื่นๆ ด้วยความน่าจะเป็น 1−𝛼

25 การให้คะแนนเว็บเพจแบบเพจแรงค์ (PageRank)
ตัวอย่างที่ 3‑1 จงพิจารณากราฟซึ่งประกอบด้วย 3 โหนด (1, 2 และ 3) ซึ่งมีลิงค์เชื่อมต่อกันดังนี้ 1->2, 3->2, 2->1, 2-> 3 จงเขียนเมตริกซ์ซึ่งแสดงความน่าจะเป็นของการคลิกของผู้ใช้เพื่อนจะเปลี่ยนเว็บเพจ ด้วยค่าเทเลพอร์ท 𝛼=0.5 ทำการสร้างเมตริกซ์ A โดยที่ถ้ามีลิงค์เชื่อมต่อระหว่างโหนด i ไปยังโหนด j ดังนั้น Aij = 1 แต่ไม่มีลิงค์เชื่อมต่อระหว่างโหนด Aij = 0 1 3 2

26 การให้คะแนนเว็บเพจแบบเพจแรงค์ (PageRank)
1 2 3 2) ถ้าแถวใดๆ ใน A ไม่มี 1 เลย ในใส่ค่า 1/N ของแต่ละค่า Aij โดยที่ N คือจำนวนโหนดในกราฟ ในตัวอย่างนี้ทุกแถวมี 1 จึงข้ามไปทำขั้นตอนต่อไป 3) แถวใดที่มี 1 ให้นำ 1 มาบวกกันทั้งหมดและนำไปหาร Aij ที่เท่ากับ 1 ในแถวเดียวกัน 3.1) แถวที่ 1 (0+1+0) = 1 นำไปหารที่ตำแหน่ง (1,2) =1/1=1 3.2) แถวที่ 2 (1+0+1) = 2 นำไปหารที่ตำแหน่ง (2,1) =1/2 = 0.5 และ (2,3) = 1/2 = 0.5 3.3) แถวที่ 3 (0+1+0) = 1 นำไปหารที่ตำแหน่ง (3,2) =1/1=1 ดังนั้นจะได้ค่าในเมตริกซ์ดังนี้

27 การให้คะแนนเว็บเพจแบบเพจแรงค์ (PageRank)
1 2 3 0.5 4) คูณเมตริกซ์ A ด้วยค่า = = 0.5 ดังนั้นได้ค่าในเมตริกซ์ A คือ A= 1 2 3 0.5 0.25

28 การให้คะแนนเว็บเพจแบบเพจแรงค์ (PageRank)
1 2 3 0.17 0.67 0.42

29 ความน่าจะเป็นที่ผู้ใช้จะทำการเปลี่ยนไปอยู่ที่เว็บเพจอื่นๆ
เราสามารถแสดงความน่าจะเป็นของโหนดที่ผู้ใช้อยู่ ณ เวลาใดเวลาหนึ่งในรูปแบบของเว็กเตอร์ ตัวอย่างเช่นถ้าเว็กเตอร์ประกอบด้วย 3 โหนดเราสามารถเขียนตำแหน่งของผู้ใช้ ณ เวลาที่ 0 ได้ว่า = 1,0,0 ณ เวลาที่ 0 ผู้ใช้จะเริ่มจากโหนดในเว็กเตอร์ที่มีค่าในเว็กเตอร์เท่ากับ 1 และที่เหลือเป็น 0 ณ เวลาที่ 1 เราสามารถหาค่าความน่าจะเป็นที่ผู้ใช้จะเปลี่ยนเว็บเพจไปยังเพจต่างๆ คือ โดย P คือเมตริกซ์ความหน้าจะเป็นที่ผู้ใช้จะเปลี่ยนเว็บเพจ

30 ความน่าจะเป็นที่ผู้ใช้จะทำการเปลี่ยนไปอยู่ที่เว็บเพจอื่นๆ
(4‑1)

31 ความน่าจะเป็นที่ผู้ใช้จะทำการเปลี่ยนไปอยู่ที่เว็บเพจอื่นๆ
ตัวอย่างที่ 3‑2 จากข้อมูลในตัวอย่างที่ 3‑1 จงหาว่า ณ เวลาที่ 4 เว็บเพจใดที่ผู้ใช้น่าจะอยู่ที่เว็บใดมากที่สุด ทำการคำนวณหาตำแหน่งของผู้ใช้ ณ เวลาที่ 1 ( ) ดังนั้น P= 1 2 3 0.17 0.67 0.42

32 ความน่าจะเป็นที่ผู้ใช้จะทำการเปลี่ยนไปอยู่ที่เว็บเพจอื่นๆ
2) ทำการคำนวณหาตำแหน่งของผู้ใช้ ณ เวลาที่ 2 3) ทำการคำนวณหาตำแหน่งของผู้ใช้ ณ เวลาที่ 3 4) ทำการคำนวณหาตำแหน่งของผู้ใช้ ณ เวลาที่ 4

33 การให้คะแนนเว็บเพจแบบฮับและออร์เทอริตี้ (Hub and Authorities)
ที่ผ่านมาเป็นการให้คะแนนเว็บเพจโดยไม่สนใจว่าคิวรี่ของผู้ใช้จะเป็นอย่างไรหรือมีคำใดอยู่บ้าง วิธีการให้คะแนนแบบฮับและออร์เทอร์ริตี้ (Hub and Authorities) เว็บเพจหนึ่งๆ จะมีการให้คะแนนสองส่วน คือ ฮับและออร์เทอร์ริตี้ ดังนั้นในการเรียงลำดับผลลัพธ์ของวิธีการนี้จะมีการเรียงลำดับผลลัพธ์ 2 ส่วนด้วยเช่นกัน คือเรียงลำดับตามคะแนนของฮับและเรียงลำดับตามคะแนนของออร์เทอร์ริตี้

34 การให้คะแนนเว็บเพจแบบฮับและออร์เทอริตี้ (Hub and Authorities)
สมมติให้เว็บเพจ v เป็นเว็บเพจที่อยู่ในชุดของเว็บเพจหนึ่ง h(v) คือคะแนนฮับ และ a(v) คือคะแนนออร์เทอร์ริตี้ ค่าเริ่มต้นของฮับและออร์เทอร์ริตี้จะเท่ากับ 1 เสมอหรับทุกๆ เว็บเพจ A คือเมตริกซ์แสดงความสัมพันธ์ของเว็บเพจต่างๆ และ Aij = 1 ถ้ามีลิงค์จากเว็บเพจ i ไปยังเว็บเพจ j แต่ถ้าไม่มีลิงค์ Aij = 0

35 การให้คะแนนเว็บเพจแบบฮับและออร์เทอริตี้ (Hub and Authorities)
ในการคำนวณหาคะแนนฮับและออร์เทอร์ริตี้มีขั้นตอนคล้ายๆ กับเพจแรงค์คือมีการคำนวณเป็นขั้นๆ โดยเริ่มจาก ณ เวลาที่ 0 ไปเรื่อยๆ ตามขั้นตอนดังต่อไปนี้ ทำการสร้างเมตริกซ์ A ตามความสัมพันธ์ของเว็บเพจต่างๆ และใส่ค่าในเมตริกซ์ให้ถูกต้อง ทำการคำนวณ ทำการคำนวณหาค่า ℎ และ 𝑎 ตามสมการที่ (3‑4) และ (3‑5) วิธีการคำนวณแบบนี้มีชื่อเรียกอีกอย่างหนึ่งคือ HITS (Hyperlink-Induced Topic Search)

36 การให้คะแนนเว็บเพจแบบฮับและออร์เทอริตี้ (Hub and Authorities)
ตัวอย่างที่ 3‑3 จงคำนวณหาคะแนนฮับและออร์เทอร์ริตี้ของชุดเว็บเพจซึ่งมีลิงค์เชื่อมโยงกันดังแสดงในรูปที่ 3‑10 ณ เวลาที่ 3 ถ้าสมมติให้คิวรี่คือคำว่า jaguar และมีการให้คะแนน 2 เท่ากับลิงค์ที่มี Achor text ตรงกับคำในคิวรี่ รูปที่ 3‑10 กราฟแสดงความสัมพันธ์ของเว็บเพจต่างๆ ข้อความที่อยู่บนลูกศรคือ Achor text

37 การให้คะแนนเว็บเพจแบบฮับและออร์เทอริตี้ (Hub and Authorities)

38 การให้คะแนนเว็บเพจแบบฮับและออร์เทอริตี้ (Hub and Authorities)
2) ทำการคำนวนค่า AT 3) ทำการคำนวณหาค่า ℎ และ 𝑎 ตามสมการที่ (3‑4)และ (3‑5) ณ เวลาที่ 1 ค่าเริ่มต้นของ ℎ และ 𝑎 เท่ากับ [1, 1, 1, 1, 1, 1, 1] ดังนั้น 4) ทำการคำนวณหาค่า ℎ และ 𝑎 ตามสมการที่ (3‑4)และ (3‑5) ณ เวลาที่ 2 5) ทำการคำนวณหาค่า ℎ และ 𝑎 ตามสมการที่ (3‑4)และ (3‑5) ณ เวลาที่ 3

39 Good Hubs and Authorities

40 การแต่งเว็บไซต์เพื่อให้ติดอันดับต้นๆ ของโปรแกรมค้นหาสารสนเทศ
SEO (Search Engine Optimization) การจัดทำการปรับปรุงเว็บไซต์หรือเว็บเพ็จ เพื่อให้ติดอันดับต้นๆ ในหน้าผลลัพธ์การค้นหาของระบบค้นหาข้อมูล เป็นส่วนหนึ่งของการทำการตลาดผ่านโปรแกรมค้นหาสารสนเทศ (Search Engine Marketing-SEM)

41 การแต่งเว็บไซต์เพื่อให้ติดอันดับต้นๆ ของโปรแกรมค้นหาสารสนเทศ
การทำ SEO ประกอบไปด้วยสองส่วนหลักๆ คือ ปัจจัยภายใน (SEO onpage) ปัจจัยภายนอก (SEO offpage)

42 การแต่งเว็บไซต์เพื่อให้ติดอันดับต้นๆ ของโปรแกรมค้นหาสารสนเทศ
การทำ SEO เลือก Domain Name การปรับปรุงเนื้อหาที่สม่ำเสมอ แลกลิงค์กับเวบไซต์อื่นๆ ที่มีเนื้อหาเกี่ยวข้องกัน อย่ามีแค่ตัวอักษร ออกแบบเว็บไซต์ให้น่าใช้

43 การทำงานของ Google Google มีฐานข้อมูลจำนวนมากซึ่งแบ่งแยกตามลักษณะของเอกสารต่างๆ ดังนี้ Web ฐานข้อมูลดัชนีสำหรับเว็บเพจบนเครือข่ายอินเทอร์เน็ต รวมถึงเอกสาร PDF .ps .doc .xls .txt .ppt .rtf .asp .wpd และอื่นๆ อีกมากมาย Ads ฐานข้อมูลสำหรับเว็บเพจที่จ่ายเพื่อโฆษณาซึ่งโดยปกติจะแสดงทางด้านขวามือของหน้าจอผลลัพธ์การค้นหา ซึ่งจะแสดงภายใต้หัวข้อ ลิงค์ผู้สนับสนุน (Sponsored Links) Images ฐานข้อมูลรูปภาพ เพื่อใช้สำหรับค้นหารูปภาพโดยใช้ Google image search Videos ฐานข้อมูลสำหรับค้นหาวีดีโอ Groups ฐานข้อมูลการสนทนาต่างๆ (Discussion) News ฐานข้อมูลข่าวจากเว็บไซต์ข่าวต่างๆ เช่น CNN, BBC ซึ่งจะเก็บข้อมูลข่าวใน 30 วันจากวันที่ปัจจุบัน

44 การทำงานของ Google Book ฐานข้อมูลหนังสือ สำหรับค้นหาเนื้อหาในหนังสือต่างๆ ซึ่งจะให้ผู้ใช้อ่านข้อมูลในหนังสือเพียงบางส่วนเท่านั้น Scholar ฐานข้อมูลเกี่ยวกับบทความทางวิชาการที่เผยแพร่ทางการประชุมวิชาการ แม๊กกาซีน หรือเจอร์นอล Directory ฐานข้อมูลเกี่ยวกับการจัดกลุ่มประเภทเอกสารต่างๆ บนอินเทอร์เน็ตการเชื่อมโยงของเว็บเพจต่างๆ ภายในกลุ่มเดียวกัน ซึ่ง Google จะทำการคำนวณหาเพจแรงค์ไว้ให้เรียบร้อยแล้ว Froogle ฐานข้อมูลสำหรับการซื้อขายสิ้นค้าต่างๆ Map ฐานข้อมูลสำหรับค้นหาข้อมูลบนแผนที่ทั่วโลก Finance ฐานข้อมูลเกียวกับธุรกิจ การเงินต่างๆ

45 ฟิลด์ ความหมาย intitle: ทำการค้นหาเว็บเพจที่มีคำในคิวรี่ปรากฎอยู่ในชื่อเรื่อง (title) ของเว็บเพจ ซึ่งสามารถใช้ร่วมกับคำอื่นๆ คิวรี่แบบปกติได้ เช่น intitle:search engines. หมายถึงให้ค้นหาคำว่า 'search' ในชื่อเรื่องของเว็บเพจและค้นหาคำว่า 'engines' ในส่วนอื่นของเว็บเพจ inurl: ทำการค้นหาเว็บเพจที่มีคำในคิวรี่ปรากฎอยู่ใน URL (host name, path, or filename) สามารถใช้ร่วมกับคำอื่นๆ ในคิวรี่ปกติได้ เช่น inurl:searchengine watch. allintitle: ทำการค้นหาเว็บเพจที่มีคำทุกในคิวรี่ปรากฎอยู่ในชื่อเรื่องของเว็บเพจ เช่น allintitle:search engines link: ทำการค้นหาเว็บเพจที่มีคำในคิวรี่ปรากฎอยู่ในลิงค์ เช่น link:apple allinurl: ทำการค้นหาเว็บเพจที่มีคำทุกในคิวรี่ปรากฎอยู่ใน URL (host name, path, or filename). allinurl:apple mac site: ทำการค้นหาเว็บเพจที่มีคำในคิวรี่ปรากฎอยู่ในเว็บไซต์ อาจจะเป็นคำในไดเร็คทอรี่หรือชื่อไฟล์ก็ได้ site:notess.com/write allinanchor: ทำการค้นหาเว็บเพจที่มีคำในคิวรี่ปรากฎอยู่ในข้อความที่เป็นลิงค์ (Hypertext) เช่น allinanchor:ipad

46 การแสดงผลลัพธ์การค้นหา
Google ใช้วิธีการ HITS และเว็บเพ็จต่างๆ จะถูกจัดกลุ่มไว้ ผลลัพธ์ที่แสดงจะถูก เลือกมาจากเว็บเพ็จ 2 เว็บเพ็จที่มีคะแนน HITS สูงสุดในแต่ละกลุ่ม ส่วนเว็บเพ็จอื่นๆ ที่ตรง กับข้อคำถามจะแสดงไว้ในลิงค์ [More results from…]

47 การเรียงลำดับผลลัพธ์ของ Google
ใช้เทคนิคที่เรียกว่า PigeonRank™ จะพิจารณาจำนวนลิงค์ที่เชื่อมโยงเข้ามาที่เว็บเพ็จหนึ่ง (Incoming links) และจำนวนลิงค์ที่เชื่อมโยงไปยังเว็บเพ็จอื่นๆ (Outgoing links)

48 การเรียงลำดับผลลัพธ์ของ Google
ค่าความเกี่ยวข้อง (Relevance score) ซึ่งแสดงถึงคะแนนความเกี่ยวข้องระหว่างข้อคำถามและ เว็บเพ็จต่างๆ และ ค่าความสำคัญ (Importance score) แสดงค่าความสำคัญของเว็บเพ็จต่างๆ

49 สรุปเนื้อหาประจำบท การทำดัชนีเว็บเพจต่างๆ ทำได้ 2 แบบคือ
การทำดัชนีเว็บเพจต่างๆ ทำได้ 2 แบบคือ การทำดัชนีแบบศุนย์กลาง และ การทำดัชนีแบบกระจาย วิธีการหาคะแนนของเว็บเพจต่างๆ บนอินเทอร์เน็ต (Link Analysis) แบบที่นำคีย์เวิรดในคิวรี่มาพิจารณาด้วย ได้แก่วิธีการฮับและออร์เทอร์ริตี้ วิธีการที่ไม่นำคีย์เวิรดในคิวรี่มาพิจารณาร่วมในการให้คะแนนด้วย เรียกว่าวิธี เพจแรงค์


ดาวน์โหลด ppt Information Retrieval

งานนำเสนอที่คล้ายกัน


Ads by Google