การค้นหาสารสนเทศบนอินเตอร์เน็ต
การค้นหาที่เปลี่ยนไป - การค้นหาข้อมูลบนอินเตอร์เน็ตทำได้ตลอดเวลา 24 ชั่วโมง ไม่มีวันหยุด การค้นหาทำได้ทุกแห่งหน เช่น ที่บ้าน ที่ทำงาน มหาวิทยาลัย เป็นต้น การค้นหาสามารถทำได้ทุกรูปแบบ ไม่ว่าจะเป็น ข้อความ เสียง ภาพนิ่ง ภาพเคลื่อนไหว แผนที่
จักรกลค้นหา จักกลค้นหาบนอินเตอร์เน็ต สามารถค้นหาข้อมูลได้หลากหลาย ที่โดดเด่น คือ Google มีคนเข้าค้นหาในหนึ่งวินาทีมีมากกว่า 10 ล้านคน เวลาที่ใช้ในการค้นหา รวดเร็วมากจนไม่น่าเชื่อ ว่าสามารถให้ข้อมูลกลับมาในระยะเวลาไม่ถึงหนึ่งวินาที
ประเภทการค้นหา 1. Web Search เป็นการค้นหาทั่วไป ที่บริษัทเสิร์จเอ็นจิน ทุกแห่งให้บริการ การค้นหา - หากใส่คำสำคัญน้อย ก็จะได้คำตอบออกมาเป็นจำนวนมาก จึงควรใส่คำสำคัญให้มาก - ควรเขียนคำตามลำดับก่อนหลัง และใส่ “…” ปิดหัวปิดท้าย - stop word ไม่มีผลกับการค้นหา เช่น the …
ประเภทการค้นหา 2. Directory Search เป็นบริการค้นหาประเภทของเรื่อง ซึ่งมีการจัดไว้เป็นหมวดหมู่ หากสนใจเรื่องใดก็สามารถคลิกเข้าไปดูได้ - เป็นหน้าที่ของผู้จัดทำเว็บไซต์ที่จะต้องทำการจัดกลุ่มข้อมูลให้เป็นหมวดหมู่ จากระบบฐานข้อมูล
ประเภทการค้นหา 3. Book Search เป็นการค้นหาหนังสือตามชื่อเรื่อง ตามชื่อผู้แต่ง หรือตามชื่อสำนักพิมพ์ เมื่อค้นหาพบก็ให้สามารถอ่านได้เฉพาะหน้าสารบัญ หรือ บางบท แหล่งข้อมูลของหนังสือ มาจากสำหนักพิมพ์ต่าง ๆ
ประเภทการค้นหา 4. Earth Search เป็นบริการค้นหาแผนที่โลก ตามตำแหน่งพิกัดบนพื้นโลก ตามชื่อประเทศ ชื่อเมือง หรือสถานที่สำคัญ ซึ่งผลลัพธ์ที่ได้เป็นการแสดงภาพถ่ายทางอากาศ สถานที่สำคัญต่าง ๆ สามารถเข้าถึงได้โดยบุคคลทั่วไป ซึ่งก็มีทั้งข้อดีและข้อเสีย
ประเภทการค้นหา 5. News Search เป็นการค้นหาข่าวที่เกิดขึ้นทั่วไป ซึ่งมีผ้นำหลักคือ CNN, BBC ที่นำเสนอข่าวในสื่อโทรทัศน์ และบนอินเตอร์เน็ต และสามารถย้อนหลังดูข่าวที่เกิดขึ้นในอดีตได้
จักกลค้นหา (Search Engine) จักรกลค้นหา หรือ เสิร์จเอ็นจิน คือ ระบบสืบค้นเอกสารที่สร้างขึ้นเพื่อช่วยค้นหาสารสนเทศ ซึ่งจัดเก็บอยู่ในระบบคอมพิวเตอร์ ที่เป็นทั้งของส่วนตัว องค์กร หรือบนเครือข่าย
จักกลค้นหา (Search Engine) การทำงานของเสิร์จเอ็นจิน มี 3 ขั้นตอน การแสวงหาข้อมูล การสร้างดัรรชนี การค้นหาสารสนเทศ
การแสวงหาข้อมูลบนเว็บ (Web Crawling) เป็นกระบวนการแรกของเสิร์จเอ็นจิน ที่จะให้ได้มาซึ่งข้อมูล มีการส่งตัวเสาะแสวงหาท่องไปตามเว็บไซต์ต่าง ๆ เราเรียกว่า ตัวแมงมุม (spider) หรือ ตัวเลื้อยบนเว็บ (web crawler)
การแสวงหาข้อมูลบนเว็บ (Web Crawling) หลักการเสาะหาข้อมูลบนเว็บ 1. วิธีการคัดสรร (selection) เป็นการเลือกว่าหน้าใดที่จะทำการคัดสำเนา 2. วิธีการเยือนซ้ำ (re-visit) เป็นการตรวจความสดใหม่และอายุของหน้าเว็บ 3. วิธีการเยือนแบบมีมารยาท (politeness) ไม่รบกวนเว็บไซต์มากจนเป็นภาระหนักจนเกินไป 4. วิธีการเยือนแบบคู่ขนาน (parallielization) แบ่งงานให้กับครอเลอร์หลาย ๆ ตัวให้ไปทำงาน
การสร้างดัชนี (Indexing) ข้อมูลที่นำมาสร้างดัชนีมีมากมายมหาศาล มีความหลากหลาย ภาษามนุษย์มีหลายภาษา เช่น อังกฤษ ไทย จีน ญี่ปุ่น แต่ละภาษาก็มีเอกลักษณ์เฉพาะตัว การสร้างดัชนีบนเว็บมีอยู่ 2 ขั้นตอน 1. การวิเคราะห์คำศัพท์ (passing) 2. การสร้างดรรชนีของเอกสารและจัดเก็บ (Indexing document into barrels)
ผู้กำกับการสืบค้น (Metasearchers) ผู้กำกับสืบค้น หมายถึง เว็บเซิร์ฟเวอร์หรือเครืองที่ทำหน้าที่เป็นตัวกลางของเสิร์จเอ็นจิน โดยส่งคำถามไปยังแต่ละแหล่งข้อมูล เมื่อได้คำตอบกลับมา จะทำหน้าที่รวบรวมคำตอบอย่างเป็นระบบ และส่งต่อไปยังผู้ใช้บริการที่ถาม ตัวอย่างเช่น webcrawler, metacrawler, sawysearch, all4one เป็นต้น ประโยชน์ คือ สามารถจัดรูปแบบตามลักษณะของข้อมูล ได้ความสมบูรณ์ของผลลัพธ์มากกว่า เพราะไปค้นหาจากหลายแหล่ง
ปฎิบัติ ให้นิสิตเขียนโปรแกรมเพื่อทำการค้นหาข้อมูลในฐานข้อมูลที่กำหนด