Information Retrieval ผศ. ดร. ไกรศักดิ์ เกษร ภาควิชาวิทยากาคอมพิวเตอร์ฯ มหาวิทยาลัยนเรศวร kraisakk@nu.ac.th Tel. 055963263
การค้นหาข้อมูลบนอินเทอร์เน็ต 3. Web Search Engine การค้นหาข้อมูลบนอินเทอร์เน็ต
วัตถุประสงค์การเรียนรู้ประจำบท เพื่อให้เข้าใจถึงหลักการค้นหาข้อมูลของ Search Engine เบื้องต้นในระบบอินเทอร์เน็ต เพื่อให้เข้าใจถึงหลักการทำดัชนีข้อมูลแบบต่างๆ ในระบบอินเทอร์เน็ต เพื่อให้เข้าใจถึงหลักการคิวรี่ข้อมูลและการให้คะแนนและเรียงลำดับผลลัพธ์การค้นหาในระบบอินเทอร์เน็ต เพื่อเปรียบเทียบการทำงานของระบบค้นหาข้อมูลบนอินเทอร์เน็ตที่กำลังเป็นที่นิยมในปัจจุบัน
การทำงานพื้นฐานของอินเทอร์เน็ต ไคลเอ็นท์-เซิฟเวอร์ (client-sever model) http (hypertext transfer protocol) เครื่องเซิฟเวอร์จะทำการส่งข้อมูลที่เครื่องไคลเอ็นท์ร้องขอกับมาให้โดยเอกสารที่ส่งกลับมาจะอยู่ในรูปแบบของ HTML ในปัจจุบันมีเอกสารนับพันล้านเอกสารกระจายอยู่บนเครื่องเซิฟเวอร์ต่างๆ บนเครือข่ายอินเทอร์เน็ต เอกสารเหล่านี้จะไม่มีประโยชน์ใดๆ หากผู้ใช้ไม่สามารถค้นหาได้
ระบบค้นหาข้อมูลบนอินเทอร์เน็ต มีการทำงาน 2 ลักษณะ pure search engine หรือ algorithmic search sponsored search engine เมื่อระบบค้นคืนข้อมูลทั้ง 2 แบบและนำผลลัพธ์จากการค้นหาทั้ง 2 แบบมาแสดงร่วมกันต่อผู้ใช้ ตัวอย่างเช่น Google
การคิวรี่ในระบบอินเทอร์เน็ต ลักษณะของผู้ใช้ระบบการค้นหาข้อมูลบนอินเทอร์เน็ตมีความแตกต่างจากผู้ใช้ระบบค้นคืนข้อมูลสารสนเทศในองค์กร คิวรี่ที่ผู้ใช้บนระบบอินเทอร์เน็ตสร้างขึ้นจึงไม่มีรูปแบบที่แน่นอน ระบบค้นคืนข้อมูลจึงต้องถูกออกแบบเพื่อรองรับคิวรี่ที่หลากหลายจากผู้ใช้ทั่วโลกให้มากที่สุดเท่าที่จะทำได้ ระบบใดมีผู้ใช้มากนั่นหมายถึงมีรายได้จากผู้สนับสนุนมากขึ้นเช่นกัน
เป้าหมายของ Google ตัวอย่างเช่น Google มีหลักการ 3 อย่างคือ (1) เน้นการเพิ่มค่าพรีซิชั่นมากกว่ารีคอลในผลลัพธ์ ซึ่งจะช่วยให้ผู้ใช้หาเอกสารที่ต้องการได้ในระยะเวลาอันสั้น (2) เข้าใจง่ายโดยที่หน้าจอผลลัพธ์จะไม่มีภาพประกอบเยอะ เพราะจะทำให้ดู วุ่ยวายและผู้ใช้อาจจะสับสนได้ (3) ลดเวลาในการตอบสนองของระบบ และแสดงผลลัพธ์ในกับผู้ใช้ในเวลาที่รวดเร็ว
ประเภทของคิวรี่ คิวรี่แบบค้นหาข้อมูล (Informational query) : คือคิวรี่ที่ใช้เพื่อค้นหาข้อมูลทั่วไป คิวรี่แบบนำทาง (Navigational query) : คือคิวรี่ที่ผู้ใช้ต้องการค้นหาเว็บไซต์เฉพาะเจาะจง ที่ผู้ใช้ต้องการดูข้อมูล คิวรี่แบบค้นหารายการ (Transactional query) : คือคิวรี่ที่ผู้ใช้ต้องการทำกิจกรรมบนอินเทอร์เน็ต เช่น การจองตั๋วเครื่องบิน การซื้อสินค้า หรือการดาวโหลดไฟล์
การทำดัชนีของระบบค้นคืนข้อมูลบนอินเทอร์เน็ต การรวบรวมเอกสารจากเว็บไซต์ต่างๆ แบบอัตโนมัติเรียกว่า เว็บคราวลิงก์ (Web crawling) เครื่องมือที่ทำหน้าที่ท่องไปตามเว็บต่างๆ นี้เรียกอีกชื่อหนึ่งว่า แมงมุม (Spider) หรือหุ่นยนต์ (Robot) การทำดัชนีบนอินเทอร์เน็ตแบ่งเป็น 2 แบบ การทำดัชนีแบบศูนย์กลาง (Centralized indexing architecture) การทำดัชนีแบบกระจาย (Distributed indexing architecture)
การทำดัชนีแบบศูนย์กลาง คราวเลอร์จะเริ่มจากเว็บไซต์ที่มีความนิยมสูงๆ อาจจะ 1 เว็บไซต์หรือหลายๆ เว็บไซต์พร้อมกัน โดยทำการคัดเลือกคำที่คิดว่าเป็นคีย์เวิรดออกมาจากเว็บเพจและไฮเปอร์ลิงค์ที่อยู่ในเว็บเพจนั้นๆ คีย์เวิรดที่ถูกส่งไปทำดัชนีที่เครื่องหลักส่วนกลาง
การทำงานของ Web crawling source: http://computer.howstuffworks.com
การทำดัชนีแบบศูนย์กลาง ทำให้เกิดความคับคั่งของข้อมูลในเครือข่ายสูง คราวเลอร์เพียงตัวเดียวไม่สามารถทำงานได้ทันเวลา วิธีแก้ คราวเลอร์จึงต้องมีการกระจายตัวกันทำงาน (Distributed) และคราวเลอร์แต่ละตัวต้องทำงานหลายๆ งานพร้อมกัน (Parallel) การที่มีคราวเลอร์หลายๆ ตัวทำงานพร้อมๆ ทำให้เกิดร้องขอข้อมูลไปยังเครื่องเซิฟเวอร์พร้อมๆ กันมากเกินไป ทำให้เครื่องเซิฟเวอร์ไม่สามารถบริการได้ทันหรือไม่สามารถให้บริการได้ในที่สุด (Crash) การทำงานของคราวเลอร์จึงต้องมีนโยบายจำกัดจำนวนอัตราการร้องขอข้อมูลจากเครื่องเซิฟเวอร์เครื่องใดเครื่องหนึ่ง เรียกว่า นโยบายสุภาพ (Politeness policies)
การทำดัชนีแบบกระจาย
การใช้ตัวดำเนินการตรรกะในระบบค้นคืนข้อมูลบนอินเทอร์เน็ต การค้นหาข้อมูลแบบบูลีน (Boolean search) AND, เราสามารถใช้เครื่องหมาย “+” แทนคำว่า AND ได้ OR, เว็บเพจต้องมีอย่างน้อยหนึ่งคำในคิวรี่ปรากฎอยู่จึงจะถูกเลือกขึ้นมา NOT, เว็บเพจที่ไม่ปรากฎคำที่ตามหลัง NOT จะถูกเลือกมาเป็นผลลัพธ์
การใช้ตัวดำเนินการตรรกะในระบบค้นคืนข้อมูลบนอินเทอร์เน็ต NEAR, หมายถึงคีย์เวิรดต่างๆ ในคิวรี่ต้องมีระห่างไม่เกินที่ระบุในคิวรี่ moon NEAR river AltaVista NEAR หมายถึง คีย์เวิร์ดต่างๆ จะปรากฎห่างกันไม่เกิน10 คำ AOL Search ใช้รูปแบบ NEAR/# ตัวอย่างเช่น NEAR/5 คีย์เวริดต่างๆ จะห่างกันไม่เกิน 5 คำ Lycos NEAR หมายถึง คีย์เวิร์ดต่างๆ จะปรากฎห่างกันไม่เกิน 25 คำ
การให้คะแนนและการเรียงลำดับเว็บเพจผลลัพธ์ ระบบค้นคืนข้อมูลบนอินเทอร์เน็ตการเรียงลำดับเว็บเพจที่เป็นผลลัพธ์จะนำเอาข้อมูลของลิงค์ไปพิจารณาด้วย วิธีการคำนวณหาคะแนนของเว็บเพจต่างๆ และการเรียงลำดับเว็บเพจผลลัพธ์โดยนำลิงค์มาเป็นตัวพิจารณาร่วมด้วย เรียกว่า การวิเคราะห์ลิงค์ (Link analysis) การเชื่อมต่อกันระหว่างเว็บเพจต่างๆ จะอยู่ในลักษณะของกราฟแบบมีทิศทาง (Directed graph) Anchor A B
การให้คะแนนและการเรียงลำดับเว็บเพจผลลัพธ์ Achor text จึงสำคัญในการให้ข้อมูลเกี่ยวกับเว็บเพจนั้นๆ และควรถูกนำไปใช้ในการทำดัชนี การให้น้ำหนักคำซึ่งอาจจะดูจากความถี่ของคำใน Achor text ซึ่งมีลักษณะการคำนวณเหมือนกับวิธี idf การให้คะแนนเว็บเพจแบบเพจแรงค์ (PageRank) จะมีการให้คะแนนกับเว็บเพจหรือโหนดในกราฟนั่นเอง
การให้คะแนนเว็บเพจแบบเพจแรงค์ (PageRank) ตัวอย่าง ผู้ใช้เริ่มใช้งานที่เว็บเพจ A และทำการเปิดเว็บอื่นๆ ผ่านเว็บเพจ A โดยที่เว็บเพจ A มีลิงค์เชื่อมต่อไปยังเว็บเพจอื่นๆ ได้แก่ B, C และ D ดังนั้นมีความน่าจะเป็นที่ผู้ใช้จะทำการคลิกเพื่อเปิดเว็บเพจแต่ละอันคือ 1/3 นั่นเอง A D C B
การให้คะแนนเว็บเพจแบบเพจแรงค์ (PageRank) วิธีการคำนวนหาค่าเพจแรงค์สามารถทำได้โดยใช้หลักการของมาร์คอฟเชนส์ (Markov chain) มาร์คอฟเชนส์สามารถแสดงในรูปแบบของเมตริกซ์ P= NxN โดยที่ N คือโหนดต่างๆ และ แต่ละค่าในเมตริกซ์คือความน่าจะเป็น (Transition probability) ในการคลิกของผู้ใช้เพื่อเปลี่ยนตำแหน่งไปยังอีกโหนดหนึ่ง
การให้คะแนนเว็บเพจแบบเพจแรงค์ (PageRank) กราฟแสดงความสัมพันธ์ของโหนด (เว็บเพจ) A B และ C โดยลูกศรหมายถึงลิงค์ต่างๆ และตัวเลขแสดงถึงความน่าจะเป็นที่ผู้ใช้จะทำการคลิกเพื่อเปิดอีกเว็บเพจหนึ่งขึ้นมา 0.5 1 C B A
การให้คะแนนเว็บเพจแบบเพจแรงค์ (PageRank) จากรูปความน่าจะเป็นในของแต่ละโหนดสามารถพิจารณาในรูปแบบของ เว็กเตอร์ความน่าจะเป็น (Proablity vector) ได้
การให้คะแนนเว็บเพจแบบเพจแรงค์ (PageRank) ถ้ามีลิงค์เชื่อมต่อระหว่างโหนด i ไปยังโหนด j ดังนั้น Aij = 1 แต่ไม่มีลิงค์เชื่อมต่อระหว่างโหนด Aij = 0 ถ้าแถวใดๆ ใน A ไม่มี 1 เลย ในใส่ค่า 1/N ของแต่ค่า Aij โดยที่ N คือจำนวนโหนดในกราฟ แถวใดที่มี 1 ให้นำ 1 มาบวกกันทั้งหมดและนำไปหาร Aij ที่เท่ากับ 1 ในแถวเดียวกัน คูณเมตริกซ์ A ด้วยค่า โดยที่ คือค่าเทเลพอร์ท บวกค่า เข้าไปในทุกๆ ค่าในเมตริกซ์ ผลลัพธ์ที่ได้คือเมตริกซ์ความน่าจะเป็นที่ผู้ใช้จะคลิกเพื่อเปลี่ยนเว็บเพจ (P)
การให้คะแนนเว็บเพจแบบเพจแรงค์ (PageRank) เว็บเพจ A อาจจะไม่มีลิงค์ไปยังเว็บเพจอื่นๆ เลยก็ได้ แต่ผู้ใช้สามารถที่จะเปิดเว็บเพจ B C หรือ D ขึ้นมาอ่านโดยพิมพ์ URL ไปที่เบราเซอร์วิธีการนี้เรียกว่า เทเลพอร์ท (Teleport) ในการกำหนดค่าเพจแรงค์ให้กับแต่โหนดในกราฟ เราจะใช้ เทเลพอร์ท ใน 2 กรณีคือ (1) เมื่อโหนดไม่มีลิงค์ไปยังโหนดอื่นๆ (2) ถ้าโหนดใดมีลิงค์เชื่อมต่อไปยังโหนดอื่นๆ แต่ว่ามีความน่าจะเป็นที่ผู้ใช้จะใช้วิธีเทเลพอร์ทเพื่อไปยังโหนดนั้นๆ น้อยกว่า 1 และมากกว่า 0 ( 0<𝛼<1 ) และมีความน่าจะเป็นที่ผู้ใช้จะทำการคลิกลิงค์ไปยังโหนดอื่นๆ ด้วยความน่าจะเป็น 1−𝛼
การให้คะแนนเว็บเพจแบบเพจแรงค์ (PageRank) ตัวอย่างที่ 3‑1 จงพิจารณากราฟซึ่งประกอบด้วย 3 โหนด (1, 2 และ 3) ซึ่งมีลิงค์เชื่อมต่อกันดังนี้ 1->2, 3->2, 2->1, 2-> 3 จงเขียนเมตริกซ์ซึ่งแสดงความน่าจะเป็นของการคลิกของผู้ใช้เพื่อนจะเปลี่ยนเว็บเพจ ด้วยค่าเทเลพอร์ท 𝛼=0.5 ทำการสร้างเมตริกซ์ A โดยที่ถ้ามีลิงค์เชื่อมต่อระหว่างโหนด i ไปยังโหนด j ดังนั้น Aij = 1 แต่ไม่มีลิงค์เชื่อมต่อระหว่างโหนด Aij = 0 1 3 2
การให้คะแนนเว็บเพจแบบเพจแรงค์ (PageRank) 1 2 3 2) ถ้าแถวใดๆ ใน A ไม่มี 1 เลย ในใส่ค่า 1/N ของแต่ละค่า Aij โดยที่ N คือจำนวนโหนดในกราฟ ในตัวอย่างนี้ทุกแถวมี 1 จึงข้ามไปทำขั้นตอนต่อไป 3) แถวใดที่มี 1 ให้นำ 1 มาบวกกันทั้งหมดและนำไปหาร Aij ที่เท่ากับ 1 ในแถวเดียวกัน 3.1) แถวที่ 1 (0+1+0) = 1 นำไปหารที่ตำแหน่ง (1,2) =1/1=1 3.2) แถวที่ 2 (1+0+1) = 2 นำไปหารที่ตำแหน่ง (2,1) =1/2 = 0.5 และ (2,3) = 1/2 = 0.5 3.3) แถวที่ 3 (0+1+0) = 1 นำไปหารที่ตำแหน่ง (3,2) =1/1=1 ดังนั้นจะได้ค่าในเมตริกซ์ดังนี้
การให้คะแนนเว็บเพจแบบเพจแรงค์ (PageRank) 1 2 3 0.5 4) คูณเมตริกซ์ A ด้วยค่า = 1- 0.5 = 0.5 ดังนั้นได้ค่าในเมตริกซ์ A คือ A= 1 2 3 0.5 0.25
การให้คะแนนเว็บเพจแบบเพจแรงค์ (PageRank) 1 2 3 0.17 0.67 0.42
ความน่าจะเป็นที่ผู้ใช้จะทำการเปลี่ยนไปอยู่ที่เว็บเพจอื่นๆ เราสามารถแสดงความน่าจะเป็นของโหนดที่ผู้ใช้อยู่ ณ เวลาใดเวลาหนึ่งในรูปแบบของเว็กเตอร์ ตัวอย่างเช่นถ้าเว็กเตอร์ประกอบด้วย 3 โหนดเราสามารถเขียนตำแหน่งของผู้ใช้ ณ เวลาที่ 0 ได้ว่า = 1,0,0 ณ เวลาที่ 0 ผู้ใช้จะเริ่มจากโหนดในเว็กเตอร์ที่มีค่าในเว็กเตอร์เท่ากับ 1 และที่เหลือเป็น 0 ณ เวลาที่ 1 เราสามารถหาค่าความน่าจะเป็นที่ผู้ใช้จะเปลี่ยนเว็บเพจไปยังเพจต่างๆ คือ โดย P คือเมตริกซ์ความหน้าจะเป็นที่ผู้ใช้จะเปลี่ยนเว็บเพจ
ความน่าจะเป็นที่ผู้ใช้จะทำการเปลี่ยนไปอยู่ที่เว็บเพจอื่นๆ (4‑1)
ความน่าจะเป็นที่ผู้ใช้จะทำการเปลี่ยนไปอยู่ที่เว็บเพจอื่นๆ ตัวอย่างที่ 3‑2 จากข้อมูลในตัวอย่างที่ 3‑1 จงหาว่า ณ เวลาที่ 4 เว็บเพจใดที่ผู้ใช้น่าจะอยู่ที่เว็บใดมากที่สุด ทำการคำนวณหาตำแหน่งของผู้ใช้ ณ เวลาที่ 1 ( ) ดังนั้น P= 1 2 3 0.17 0.67 0.42
ความน่าจะเป็นที่ผู้ใช้จะทำการเปลี่ยนไปอยู่ที่เว็บเพจอื่นๆ 2) ทำการคำนวณหาตำแหน่งของผู้ใช้ ณ เวลาที่ 2 3) ทำการคำนวณหาตำแหน่งของผู้ใช้ ณ เวลาที่ 3 4) ทำการคำนวณหาตำแหน่งของผู้ใช้ ณ เวลาที่ 4
การให้คะแนนเว็บเพจแบบฮับและออร์เทอริตี้ (Hub and Authorities) ที่ผ่านมาเป็นการให้คะแนนเว็บเพจโดยไม่สนใจว่าคิวรี่ของผู้ใช้จะเป็นอย่างไรหรือมีคำใดอยู่บ้าง วิธีการให้คะแนนแบบฮับและออร์เทอร์ริตี้ (Hub and Authorities) เว็บเพจหนึ่งๆ จะมีการให้คะแนนสองส่วน คือ ฮับและออร์เทอร์ริตี้ ดังนั้นในการเรียงลำดับผลลัพธ์ของวิธีการนี้จะมีการเรียงลำดับผลลัพธ์ 2 ส่วนด้วยเช่นกัน คือเรียงลำดับตามคะแนนของฮับและเรียงลำดับตามคะแนนของออร์เทอร์ริตี้
การให้คะแนนเว็บเพจแบบฮับและออร์เทอริตี้ (Hub and Authorities) สมมติให้เว็บเพจ v เป็นเว็บเพจที่อยู่ในชุดของเว็บเพจหนึ่ง h(v) คือคะแนนฮับ และ a(v) คือคะแนนออร์เทอร์ริตี้ ค่าเริ่มต้นของฮับและออร์เทอร์ริตี้จะเท่ากับ 1 เสมอหรับทุกๆ เว็บเพจ A คือเมตริกซ์แสดงความสัมพันธ์ของเว็บเพจต่างๆ และ Aij = 1 ถ้ามีลิงค์จากเว็บเพจ i ไปยังเว็บเพจ j แต่ถ้าไม่มีลิงค์ Aij = 0
การให้คะแนนเว็บเพจแบบฮับและออร์เทอริตี้ (Hub and Authorities) ในการคำนวณหาคะแนนฮับและออร์เทอร์ริตี้มีขั้นตอนคล้ายๆ กับเพจแรงค์คือมีการคำนวณเป็นขั้นๆ โดยเริ่มจาก ณ เวลาที่ 0 ไปเรื่อยๆ ตามขั้นตอนดังต่อไปนี้ ทำการสร้างเมตริกซ์ A ตามความสัมพันธ์ของเว็บเพจต่างๆ และใส่ค่าในเมตริกซ์ให้ถูกต้อง ทำการคำนวณ ทำการคำนวณหาค่า ℎ และ 𝑎 ตามสมการที่ (3‑4) และ (3‑5) วิธีการคำนวณแบบนี้มีชื่อเรียกอีกอย่างหนึ่งคือ HITS (Hyperlink-Induced Topic Search)
การให้คะแนนเว็บเพจแบบฮับและออร์เทอริตี้ (Hub and Authorities) ตัวอย่างที่ 3‑3 จงคำนวณหาคะแนนฮับและออร์เทอร์ริตี้ของชุดเว็บเพจซึ่งมีลิงค์เชื่อมโยงกันดังแสดงในรูปที่ 3‑10 ณ เวลาที่ 3 ถ้าสมมติให้คิวรี่คือคำว่า jaguar และมีการให้คะแนน 2 เท่ากับลิงค์ที่มี Achor text ตรงกับคำในคิวรี่ รูปที่ 3‑10 กราฟแสดงความสัมพันธ์ของเว็บเพจต่างๆ ข้อความที่อยู่บนลูกศรคือ Achor text
การให้คะแนนเว็บเพจแบบฮับและออร์เทอริตี้ (Hub and Authorities)
การให้คะแนนเว็บเพจแบบฮับและออร์เทอริตี้ (Hub and Authorities) 2) ทำการคำนวนค่า AT 3) ทำการคำนวณหาค่า ℎ และ 𝑎 ตามสมการที่ (3‑4)และ (3‑5) ณ เวลาที่ 1 ค่าเริ่มต้นของ ℎ และ 𝑎 เท่ากับ [1, 1, 1, 1, 1, 1, 1] ดังนั้น 4) ทำการคำนวณหาค่า ℎ และ 𝑎 ตามสมการที่ (3‑4)และ (3‑5) ณ เวลาที่ 2 5) ทำการคำนวณหาค่า ℎ และ 𝑎 ตามสมการที่ (3‑4)และ (3‑5) ณ เวลาที่ 3
Good Hubs and Authorities
การแต่งเว็บไซต์เพื่อให้ติดอันดับต้นๆ ของโปรแกรมค้นหาสารสนเทศ SEO (Search Engine Optimization) การจัดทำการปรับปรุงเว็บไซต์หรือเว็บเพ็จ เพื่อให้ติดอันดับต้นๆ ในหน้าผลลัพธ์การค้นหาของระบบค้นหาข้อมูล เป็นส่วนหนึ่งของการทำการตลาดผ่านโปรแกรมค้นหาสารสนเทศ (Search Engine Marketing-SEM)
การแต่งเว็บไซต์เพื่อให้ติดอันดับต้นๆ ของโปรแกรมค้นหาสารสนเทศ การทำ SEO ประกอบไปด้วยสองส่วนหลักๆ คือ ปัจจัยภายใน (SEO onpage) ปัจจัยภายนอก (SEO offpage)
การแต่งเว็บไซต์เพื่อให้ติดอันดับต้นๆ ของโปรแกรมค้นหาสารสนเทศ การทำ SEO เลือก Domain Name การปรับปรุงเนื้อหาที่สม่ำเสมอ แลกลิงค์กับเวบไซต์อื่นๆ ที่มีเนื้อหาเกี่ยวข้องกัน อย่ามีแค่ตัวอักษร ออกแบบเว็บไซต์ให้น่าใช้
การทำงานของ Google Google มีฐานข้อมูลจำนวนมากซึ่งแบ่งแยกตามลักษณะของเอกสารต่างๆ ดังนี้ Web ฐานข้อมูลดัชนีสำหรับเว็บเพจบนเครือข่ายอินเทอร์เน็ต รวมถึงเอกสาร PDF .ps .doc .xls .txt .ppt .rtf .asp .wpd และอื่นๆ อีกมากมาย Ads ฐานข้อมูลสำหรับเว็บเพจที่จ่ายเพื่อโฆษณาซึ่งโดยปกติจะแสดงทางด้านขวามือของหน้าจอผลลัพธ์การค้นหา ซึ่งจะแสดงภายใต้หัวข้อ ลิงค์ผู้สนับสนุน (Sponsored Links) Images ฐานข้อมูลรูปภาพ เพื่อใช้สำหรับค้นหารูปภาพโดยใช้ Google image search Videos ฐานข้อมูลสำหรับค้นหาวีดีโอ Groups ฐานข้อมูลการสนทนาต่างๆ (Discussion) News ฐานข้อมูลข่าวจากเว็บไซต์ข่าวต่างๆ เช่น CNN, BBC ซึ่งจะเก็บข้อมูลข่าวใน 30 วันจากวันที่ปัจจุบัน
การทำงานของ Google Book ฐานข้อมูลหนังสือ สำหรับค้นหาเนื้อหาในหนังสือต่างๆ ซึ่งจะให้ผู้ใช้อ่านข้อมูลในหนังสือเพียงบางส่วนเท่านั้น Scholar ฐานข้อมูลเกี่ยวกับบทความทางวิชาการที่เผยแพร่ทางการประชุมวิชาการ แม๊กกาซีน หรือเจอร์นอล Directory ฐานข้อมูลเกี่ยวกับการจัดกลุ่มประเภทเอกสารต่างๆ บนอินเทอร์เน็ตการเชื่อมโยงของเว็บเพจต่างๆ ภายในกลุ่มเดียวกัน ซึ่ง Google จะทำการคำนวณหาเพจแรงค์ไว้ให้เรียบร้อยแล้ว Froogle ฐานข้อมูลสำหรับการซื้อขายสิ้นค้าต่างๆ Map ฐานข้อมูลสำหรับค้นหาข้อมูลบนแผนที่ทั่วโลก Finance ฐานข้อมูลเกียวกับธุรกิจ การเงินต่างๆ
ฟิลด์ ความหมาย intitle: ทำการค้นหาเว็บเพจที่มีคำในคิวรี่ปรากฎอยู่ในชื่อเรื่อง (title) ของเว็บเพจ ซึ่งสามารถใช้ร่วมกับคำอื่นๆ คิวรี่แบบปกติได้ เช่น intitle:search engines. หมายถึงให้ค้นหาคำว่า 'search' ในชื่อเรื่องของเว็บเพจและค้นหาคำว่า 'engines' ในส่วนอื่นของเว็บเพจ inurl: ทำการค้นหาเว็บเพจที่มีคำในคิวรี่ปรากฎอยู่ใน URL (host name, path, or filename) สามารถใช้ร่วมกับคำอื่นๆ ในคิวรี่ปกติได้ เช่น inurl:searchengine watch. allintitle: ทำการค้นหาเว็บเพจที่มีคำทุกในคิวรี่ปรากฎอยู่ในชื่อเรื่องของเว็บเพจ เช่น allintitle:search engines link: ทำการค้นหาเว็บเพจที่มีคำในคิวรี่ปรากฎอยู่ในลิงค์ เช่น link:apple allinurl: ทำการค้นหาเว็บเพจที่มีคำทุกในคิวรี่ปรากฎอยู่ใน URL (host name, path, or filename). allinurl:apple mac site: ทำการค้นหาเว็บเพจที่มีคำในคิวรี่ปรากฎอยู่ในเว็บไซต์ อาจจะเป็นคำในไดเร็คทอรี่หรือชื่อไฟล์ก็ได้ site:notess.com/write allinanchor: ทำการค้นหาเว็บเพจที่มีคำในคิวรี่ปรากฎอยู่ในข้อความที่เป็นลิงค์ (Hypertext) เช่น allinanchor:ipad
การแสดงผลลัพธ์การค้นหา Google ใช้วิธีการ HITS และเว็บเพ็จต่างๆ จะถูกจัดกลุ่มไว้ ผลลัพธ์ที่แสดงจะถูก เลือกมาจากเว็บเพ็จ 2 เว็บเพ็จที่มีคะแนน HITS สูงสุดในแต่ละกลุ่ม ส่วนเว็บเพ็จอื่นๆ ที่ตรง กับข้อคำถามจะแสดงไว้ในลิงค์ [More results from…]
การเรียงลำดับผลลัพธ์ของ Google ใช้เทคนิคที่เรียกว่า PigeonRank™ จะพิจารณาจำนวนลิงค์ที่เชื่อมโยงเข้ามาที่เว็บเพ็จหนึ่ง (Incoming links) และจำนวนลิงค์ที่เชื่อมโยงไปยังเว็บเพ็จอื่นๆ (Outgoing links)
การเรียงลำดับผลลัพธ์ของ Google ค่าความเกี่ยวข้อง (Relevance score) ซึ่งแสดงถึงคะแนนความเกี่ยวข้องระหว่างข้อคำถามและ เว็บเพ็จต่างๆ และ ค่าความสำคัญ (Importance score) แสดงค่าความสำคัญของเว็บเพ็จต่างๆ
สรุปเนื้อหาประจำบท การทำดัชนีเว็บเพจต่างๆ ทำได้ 2 แบบคือ การทำดัชนีเว็บเพจต่างๆ ทำได้ 2 แบบคือ การทำดัชนีแบบศุนย์กลาง และ การทำดัชนีแบบกระจาย วิธีการหาคะแนนของเว็บเพจต่างๆ บนอินเทอร์เน็ต (Link Analysis) แบบที่นำคีย์เวิรดในคิวรี่มาพิจารณาด้วย ได้แก่วิธีการฮับและออร์เทอร์ริตี้ วิธีการที่ไม่นำคีย์เวิรดในคิวรี่มาพิจารณาร่วมในการให้คะแนนด้วย เรียกว่าวิธี เพจแรงค์