งานนำเสนอกำลังจะดาวน์โหลด โปรดรอ

งานนำเสนอกำลังจะดาวน์โหลด โปรดรอ

WEB SEARCH 1.Suprasamol Tuppiree 2.Manunya Chithongsri 3.Pipat Chatrungruengchai.

งานนำเสนอที่คล้ายกัน


งานนำเสนอเรื่อง: "WEB SEARCH 1.Suprasamol Tuppiree 2.Manunya Chithongsri 3.Pipat Chatrungruengchai."— ใบสำเนางานนำเสนอ:

1 WEB SEARCH 1.Suprasamol Tuppiree 2.Manunya Chithongsri 3.Pipat Chatrungruengchai

2 2. SYSTEM FEATURES The Google search engine has two important features that help it produce high precision results. First, It makes use of the link structure of the Web to calculate a quality ranking for each web page. This ranking is called PageRank and is described in detail. Second, Google utilizes link to improve search results.

3 2.1 PAGERANK: BRINGING ORDER TO THE WEB  2.1.1 Description of PageRank Calculation  2.1.2 Intuitive Justification

4 2.2 ANCHOR TEXT 2.3 OTHER FEATURES

5 3. RELATED WORK Search research on the web has a short and concise history. The World Wide Web Worm (WWWW) was one of the first web search engines. It was subsequently followed by several other academic search engines, many of which are now public companies. Compared to the growth of the Web and the importance of search engines there are precious few documents about recent search engines.

6 3.1 INFORMATION RETRIEVAL 3.2 DIFFERENCES BETWEEN THE WEB AND WELL CONTROLLED COLLECTIONS

7 System Anatomy

8

9 Major of Data Structure 1.Big File – 64 bit Integers allocation and deallocation of multiple files 2.Repository – used zlib compression : 3 of 1 compression 3.Document Index – used Index Sequential Access Mode (ISAM) 1. current document status 2. a pointer into the repository 3. a document checksum 4. various statistics. 4.Lexicon 1.List of variable 2.Hash Table 5.Hit Lists – Size 2 bytes 6.Forward Index – 24 bits wordID, 8 hit bits 7.Invert Index

10 Crawling the Web 300 connections/once No need DNS Lookup ค้นหาคำเหมือน โดยโยนคำค้นหา ที่ผิดพลาดทิ้ ไปแล้วค้นหากันใหม่อีกครั้ง จึงได้ที่ถูกต้อง และ รวดเร็ว

11 Indexing the web 1.Parsing – developing the huge array possible error 2.Indexing document in to Barrel - convert document to wordID 3.Sorting – divided package to fit with memory by wordID sorter Searching 1. Parse the query. 2. Convert words into wordIDs 3. Seek to the start of the doclist inthe short barrel for every word. 4. Scan through the doclists untilthere is a document that matchesall the search terms. 5. Compute the rank of thatdocument for the query.

12 5 Results and Performance( ผลและประสิทธิภาพ ) ตัวชี้วัดที่สำคัญที่สุดของการค้นหาเครื่องยนต์ คือคุณภาพของผลการค้นหา ซึ่ง Google แสดงให้ เห็นว่าการค้นหาง่ายการการค้นหาในเชิงพานิชย์ ซึ่ง แสดงการใช้แท่นยึดข้อความและ ความใกล้ชิด ผลการศึกษานี้แสดงให้เห็นถึงบางส่วนของ คุณสมบัติของ Google ผลลัพธ์ที่ได้จะโดย เซิร์ฟเวอร์คลัสเตอร์ นี้จะช่วยให้มากเมื่อลอดผ่านผล ชุด จำนวนผลมาจากโดเมน whitehouse.gov ซึ่ง เป็นสิ่งที่หนึ่งพอสมควรอาจจะคาดหวังจากการ ดังกล่าวค้นหา ปัจจุบันส่วนใหญ่การค้าที่สำคัญ เครื่องมือค้นหาไม่พบผลลัพธ์ใด ๆจาก whitehouse.gov มากน้อยที่เหมาะสม คน ขอให้สังเกตว่ามีชื่อไม่มีผลครั้งแรก นี้เป็นเพราะ มันไม่ได้การรวบรวมข้อมูล แต่ Google เป็นที่พึ่งที่ ยึดเหนี่ยว ข้อความที่จะตรวจสอบนี้เป็นคำตอบที่ดี แบบสอบถาม รูปแสดงผลของ Google สำหรับผลการค้นหา " บิลคลินตัน "

13 5.1 Storage Requirements (การจัดเก็บข้อมูลความต้องการ) นอกจากคุณภาพการค้นหาที่มีคุณภาพที่ ถูกออกแบบมาเพื่อให้มีประสิทธิภาพแล้ว ในอีก เรื่องคือการจัดเก็บข้อมูลที่มีประสิทธิภาพ ดัง แสดงในตาราง มีรายละเอียดของสถิติและ ต้องการจัดเก็บข้อมูลของ Google

14 5.2 System Performance( ประสิทธิภาพของระบบ ) มันเป็นสิ่งสำคัญสำหรับเครื่องมือค้นหารวบรวมข้อมูลและดัชนีอย่างมีประสิทธิภาพ สำหรับ Google จะมีการรวบรวมข้อมูลและการจัดทำดัชนีของข้อมูลและการเรียงลำดับ ซึ่งเป็นเรื่องยากที่จะวัด ว่าการรวบรวมข้อมูล โดยรวมเอาดิสก์เต็มเพราะขึ้นชื่อเซิร์ฟเวอร์ล้มเหลวหรือจำนวนของปัญหาอื่น ๆ ที่หยุดระบบทั้งหมดมันต้องใช้เวลาประมาณ 9 วันในการดาวน์โหลด 26 ล้านหน้า (รวมถึง ข้อผิดพลาด) แต่เมื่อเป็นระบบทำงานได้อย่างราบรื่นมันวิ่งได้เร็วขึ้นมากการดาวน์โหลดที่ผ่านมา11 ล้านหน้าในเวลาเพียง 63 ชั่วโมงโดยเฉลี่ยเพียงกว่า 4ล้านหน้าต่อวันหรือ 48.5 หน้าต่อวินาที สามารถวิ่งดัชนีและซอฟต์แวร์รวบรวมข้อมูลพร้อมกัน ดัชนีวิ่งเพียงเร็วกว่าโปรแกรมรวบรวมข้อมูล นี้ เป็นส่วนใหญ่เพราะเราใช้เวลาเพียงเวลาพอที่เพิ่มประสิทธิภาพการทำดัชนีเพื่อที่ว่ามันจะไม่เป็นคอ ขวด เหล่านี้รวมถึงการเพิ่มประสิทธิภาพการปรับปรุงจำนวนมากเพื่อดัชนีเอกสารและการจัดวาง โครงสร้างข้อมูลที่สำคัญเกี่ยวกับดิสก์ภายใน ดัชนีวิ่งที่ประมาณ 54 หน้าต่อ

15 5.3 Search Performance (ผลการดำเนินงานการค้นหา) version ปัจจุบันของ Google ตอบแบบสอบถามมากที่สุดระหว่าง 1 ถึง 10 วินาที เวลาส่วน ใหญ่จะครอบงำ disk IO มากกว่า NFS (ตั้งแต่ดิสก์จะแผ่กระจายไปทั่วจำนวนเครื่อง) นอกจากนี้ Google ไม่ได้มีการเพิ่มประสิทธิภาพใด ๆ เช่นแคชแบบสอบถาม subindices ในข้อตกลงร่วมกัน และอื่น ๆ โดยต้องการตั้งใจที่จะเพิ่มความเร็วใน Google มากผ่านการกระจายและฮาร์ดแวร์ ซอฟแวร์และการปรับปรุงอัลกอริทึม เพื่อให้สามารถที่จะจัดการกับหลายร้อยคำสั่งได้

16 6.Conclusions(สรุปผลการวิจัย) google ถูกออกแบบให้สามารถปรับขนาด ของ search engine โดยเป้าหมายหลักคือการ ค้นหาที่มีคุณภาพสูง ซึ่ง google มีพนักงานด้าน เทคนิคในการปรับปรุงการค้นหาให้มีคุณภาพ ทั้ง เรื่องของการค้นหาตำแหน่ง การยึดข้อความและ ข้อมูลเป็นหลัก นอกจากนี้ google ยังมี สถาปัตยกรรมที่สมบูรณ์สำหรับการรวบรวม web pages,indexs และการค้นหาที่มีประสิทธิภาพ

17 6.1 Future Work(การทำงานในอนาคต) Google จะมีขั้นตอนการสมาร์ทที่จะตัดสินใจว่าหน้าเว็บเก่าควรจะ recrawled และสิ่งที่ คนใหม่ควรจะรวบรวมข้อมูล หนึ่งแนวโน้มของการวิจัยคือการใช้พร็อกซี่แคชเพื่อสร้าง ฐานข้อมูลการค้นหา เนื่องจากมีความต้องการขับเคลื่อน ดังนั้น Google ได้วางแผนที่จะเพิ่ม คุณสมบัติง่ายต่อการสนับสนุนโดยการค้นหาในเชิงพาณิชย์ โดยมีการสำรวจความคิดเห็น ดังกล่าวเป็นความเกี่ยวข้องและการจัดกลุ่ม(Google ขณะนี้สนับสนุนโฮสต์ที่เรียบง่ายตามการ จัดกลุ่ม) นอกจากนี้ยังวางแผนที่จะสนับสนุนบริบทของผู้ใช้ (เช่นตำแหน่งของผู้ใช้) และมีการ ทำงานที่จะขยายการใช้งานของโครงสร้างและการเชื่อมโยงข้อความเชื่อมโยง จากการทดลอง แสดงให้เห็นความง่ายของ PageRank สามารถส่วนบุคคลโดยการเพิ่มน้ำหนักของหน้าบ้าน ของผู้ใช้หรือบุ๊ก สำหรับการเชื่อมโยงข้อความ นอกจากนี้ข้อความในข้อความเชื่อมโยงตัวเอง การค้นหาเว็บเครื่องยนต์เป็นสภาพแวดล้อมที่หลากหลายมากสำหรับความคิดการวิจัย คาดว่า ส่วนนี้จะสามารถทำงานในอนาคตจะกลายเป็นสั้นมากในอนาคตอันใกล้

18 6.2 High Quality Search (การค้นหาที่มีคุณภาพสูง) ปัญหาการ search engine ในเชิงพานิชย์ในปัจจุบันนั้นเวลาค้นหาทำให้เสียเวลามาก เพราะขยายวงกว้างมากทำให้ผลการค้นหายากมาก ดังนั้น Google ได้ออกแบบการค้นหาที่มี คุณภาพสูงเพื่อรองรับเว็บไซต์ที่ขยายเติบโตขึ้นเรื่อยๆ ทำให้การค้นหาได้รวดเร็วมากขึ้น โดย การค้นหาข้อความสามารถพบได้ง่าย Google ได้ใช้การค้นหาโดยการเชื่อมโยงโครงสร้างและ การเชื่อมโยงข้อความ และยังใช้ความใกล้ชิดของข้อมูลและข้อมูลตัวอักษร ซึ่งจะส่งกลับผล การค้นหาที่มีคุณภาพสูง กว่าเครื่องมือค้นหาในเชิงพาณิชย์ในปัจจุบัน การวิเคราะห์โครงสร้างโดยการเชื่อมโยงผ่าน PageRank ช่วยให้ Google สามารถประเมินคุณภาพของหน้าเว็บ และการใช้ข้อความที่เชื่อมโยงเป็นรายละเอียดของสิ่งที่ จุดเชื่อมโยงไปยังจะช่วยให้ความสัมพันธ์การจัดการที่ดีสำหรับการค้นหาจำนวนมาก

19 6.3 Scalable Architecture (สถาปัตยกรรมที่ปรับขยายได้) นอกเหนือจากการคุณภาพของการค้นหาของ Google ยังถูกออกแบบมาเพื่อปรับขนาด ให้มีประสิทธิภาพเพื่อรับมือกับเว็บไซต์ทั้งหมด Google ยังมีโครงสร้างข้อมูลที่สำคัญทำให้การ ใช้งานที่มีประสิทธิภาพของพื้นที่จัดเก็บที่ใช้ได้ นอกจากนี้การรวบรวมข้อมูลการจัดทำดัชนีและ มีการดำเนินงานที่มีประสิทธิภาพการเรียงลำดับพอที่จะสามารถที่จะสร้าง ดัชนีของส่วนที่สำคัญของเว็บ - 24 ล้านหน้าในเวลาน้อยกว่าหนึ่งสัปดาห์ คาดว่าจะสามารถ ในการสร้างดัชนี 100 ล้านหน้าในน้อยกว่าเดือน

20 6.4 A Research Tool(เครื่องมือวิจัย) Google เป็นเครื่องมือในการวิจัยข้อมูล ซึ่ง Google ได้เก็บเอกสารอื่นๆมากมายที่ทางการ ประชุมและการวิจัยอีกมากมาย นั้นคือ Google (หรือระบบที่คล้ายกัน) ไม่ได้เป็นเพียงเครื่องมือ ในการวิจัยที่มีคุณค่า แต่อย่างใดอย่างหนึ่งที่จำเป็นสำหรับการใช้งานที่หลากหลาย ซึ่ง Google จะเป็นทรัพยากรสำหรับผู้ค้นหาและนักวิจัยทั่วโลกและจะจุดประกายรุ่นต่อไปของเทคโนโลยี เครื่องมือค้นหา


ดาวน์โหลด ppt WEB SEARCH 1.Suprasamol Tuppiree 2.Manunya Chithongsri 3.Pipat Chatrungruengchai.

งานนำเสนอที่คล้ายกัน


Ads by Google