Data resource management การจัดการทรัพยากรข้อมูล Data resource management Lecturer: Pipatpong sae-phoo
ความหมายของข้อมูล (Data) ข้อมูล (Data) คือ ข้อเท็จจริงที่มีการรวบรวมไว้และมีความหมาย อาจเกี่ยวข้องกับคน สิ่งของ หรือเหตุการณ์ อื่นๆ ซึ่งในการประมวลผลของคอมพิวเตอร์จะมีการนำเข้าข้อมูลและประมวลผลเพื่อให้ได้สารสนเทศ (information) สำหรับการช่วยตัดสินใจและนำเอาไปใช้ประโยชน์อื่นๆอีกได้ตามต้องการ รายการสั่งของ วันที่สั่ง จำนวนที่สั่ง ราคาต่อหน่วย (บาท) 11/08/57 5 50.00 05/11/57 20 25.00 20/01/58 10 5.00 12/05/58 3 150.00 29/06/58 8 75.00 30/09/58 13 15.00 05/10/58 22 250.00 110857 5 50 00 051157 20 25 00 200158 10 5 00 120558 3 150 00 290658 8 75 00 300958 13 15 00 051058 22 250 00 ปกติแล้วข้อมูลที่นำมาใช้ประมวลผลจะมีอยู่กระจัดกระจายทั่วไป เมื่อต้องการใช้งานจำเป็นต้องมีการ รวบรวมและจัดเรียงใหม่ให้อยู่ในรูปแบบที่สามารถใช้งานได้อย่างเป็นระบบ เพื่อนำข้อมูลนั้นไปใช้ได้ ตรงตามความต้องการและมีระเบียบมากยิ่งขึ้น
แหล่งข้อมูล (Data source) แหล่งข้อมูลได้มาจาก 2 แหล่งคือ แหล่งข้อมูลภายใน (Internal Data Source) เป็นแหล่งข้อมูลที่อยู่ภายนองค์กร ข้อมูลที่ได้อาจมาจาก พนักงานหรือเป็นข้อมูลที่มีอยู่แล้วในองค์กร เช่น ยอดขายประจำปี, ข้อมูลผู้ถือหุ้น, รายงานกำไร-ขาดทุน หรือ รายชื่อพนักงาน เป็นต้น ข้อมูลเหล่านี้เป็นข้อมูลภายในองค์กรที่สามารถเปิดเผยให้บุคคลภายนอกทราบ หรือไม่ก็ได้ แหล่งข้อมูลภายนอก (External Data source) เป็นแหล่งข้อมูลที่มาจากภายนอกองค์กร โดยทั่วไปแล้ว สามารถนำข้อมูลต่างๆเหล่านั้นมาใช้ประโยชน์ในองค์กรได้ หรือนำมาประกอบการการประมวลผลด้วย คอมพิวเตอร์เพื่อให้ได้ระบบงานที่สมบูรณ์ขึ้น เช่น ข้อมูลลูกค้า, เจ้าหนี้, อัตราดอกเบี้ยสถาบันการเงิน รวมถึง ข้อมูลของบริษัทคู่แข่ง เป็นต้น ข้อมูลจากแหล่งภายนอกนี้ได้จากบริษัทผู้ให้บริการข้อมูลหรือจาก หนังสือพิมพ์, วิทยุ, สื่อต่างๆ จาก social media เป็นต้น
คุณสมบัติของข้อมูลที่ดีคือ? ความถูกต้อง (Accuracy) ข้อมูลที่ดีต้องมีความถูกต้องเพื่อสามารถนำไปใช้ประโยชน์ได้ ส่วนข้อมูลที่ ไม่เป็นจริง มีความคลาดเคลื่อน อาจก่อให้เกิดความเสียหายเมื่อนำไปใช้ต่อ เพราะการประมวลผลโดย คอมพิวเตอร์จะอิงตามข้อมูลเข้า ถ้าข้อมูลเข้าไปแบบผิดๆ ผลลัพธ์จากการประมวลผลก็จะผิดตามไป ด้วย มีความเป็นปัจจุบัน (Update) ข้อมูลที่ดีต้องมีการแก้ไขหรืออัพเดทอยู่ตลอดเวลา หรือทำให้เป็น ปัจจุบันมากขึ้น เช่น ข้อมูลราคาน้ำมันในรอบบัญชีเก่าจะไม่สามารถนำมาใช้คำนวณในรอบบัญชี ปัจจุบันได้ เพราะราคาน้ำมันมีการเปลี่ยนแปลงอยู่เสมอ ตรงความต้องการ (Relevance) สำรวจความต้องการของข้อมูล ขอบเขตของข้อมูลที่จะนำไปใช้ เพื่อให้สอดคล้องและตรงกับความต้องการของหน่วยงานมากที่สุด ถึงแม้ข้อมูลนั้นจะถูกต้องมากแค่ ไหนก็ตามแต่ถ้าไม่สอดคล้องกับความต้องการ ข้อมูลนั้นก็จะนำไปใช้ไม่ได้เลย
คุณสมบัติของข้อมูลที่ดีคือ? (ต่อ) ความสมบูรณ์ (Complete) ข้อมูลต้องมีความสมบูรณ์มากพอที่จะนำไปใช้ให้เกิดประโยชน์อย่างเต็มที่ และการรวรวมข้อมูลสามารถทำได้มากกว่าหนึ่งครั้ง สามารถตรวจสอบได้ (Verifiable) ข้อมูลอาจมาจากแหล่งข้อมูลหลายๆที่ซึ่งข้อมูลเหล่านั้นอาจะเป็น ข้อมูลที่เชื่อถือได้หรือไม่น่าเชื่อถือก็ได้ ดังนั้นหากต้องการนำข้อมูลมาใช้ในการประมวลผล ควรเลือก ข้อมูลที่สามารถตรวจสอบหาแหล่งที่มาหรือแหล่งที่มีหลักฐานอ้างอิงได้
การจัดเก็บในรูปแบบแฟ้มข้อมูล บิต (bit หรือ Binary Digit) คือหน่วยของข้อมูลที่เล็กที่สุดที่เก็บอยู่ในหน่วยความจำภายใน คอมพิวเตอร์ ซึ่ง Bit จะแทนด้วยตัวเลขหนึ่งตัว คือ 0 หรือ 1 อย่างใดอย่างหนึ่ง เรียกตัวเลข 0 หรือ 1 ว่า เป็น 1 บิต ไบต์ (byte) คือหน่วยของข้อมูลที่นำบิตหลายๆบิตมารวมกัน แทนตัวอักษรแต่ละตัว เช่น A, B, …, Z, 0, 1, 2, … ,9 และสัญลักษณ์พิเศษอื่นๆ เช่น $, &, +, -, *, / ฯลฯ โดยตัวอักษร 1 ตัวจะแทนด้วยบิต 8 บิต ฟิลด์ (field) หน่วยของข้อมูลที่เกิดจากการนำตัวอักขระหลายๆตัวมารวมกัน เป็นคำที่มีความหมาย เฉพาะเจาะจงลงไป เช่น “TG601” เป็นรหัสเที่ยวบิน เป็นต้น
การจัดเก็บในรูปแบบแฟ้มข้อมูล (ต่อ) เรคอร์ด (record) คือกลุ่มของฟิลด์ที่สัมพันธ์กัน โดยใน 1 เรคอร์ด จะประกอบด้วยฟิลด์ต่างๆ รวมกัน เป็นชุดๆ เช่น เรคอร์ดของข้อมูลนักศึกษา 1 คน จะประกอบด้วยฟิลด์ที่เกี่ยวข้อง เช่น รหัสประจำตัว, ชื่อ-นามสกุล, วันเกิด, ที่อยู่, เบอร์โทรศัพท์ เป็นต้น ไฟล์ (file) หรือแฟ้มข้อมูล คือกลุ่มของเรคอร์ดที่สัมพันธ์กัน (มีฟิลด์ตรงกัน) เช่น ในแฟ้มข้อมูล รายชื่อนักศึกษา ก็จะประกอบด้วยข้อมูลรายชื่อนักศึกษาทุกคนของสถาบัน เป็นต้น อย่างไรก็ตามข้อมูลแต่ละฟิลด์ของคนละเรคอร์ดกันอาจจะซ้ำกันได้ เช่น นักศึกษามีชื่อซ้ำกัน เป็นต้น ดังนั้นเพื่อใช้อ้างอิงถึงข้อมูลเรคอร์ดนั้นให้แตกต่างจากเรคอร์ดอื่นได้ ซึ่งเรียกว่า คีย์ฟิลด์ (key field)
Problem of files-based system โครงสร้างแฟ้มข้อมูล (File Structure) Example Personnel File Database (Project Database) Department File 1109 Montree Maneevong 04-08-1975 1008 Srisuda Warongkorn 25-04-1985 1112 Mana Tangsriruk 18-11-1984 Files (Personal File) Records (Record containing ID, Firstname, Lastname, Birthdate) 1109 Montree Maneevong 04-08-1975 Bytes 1000110 (Letter F in ASCII) Bit 0, 1 (Digit 0 or 1)
แฟ้มข้อมูลรายชื่อนักศึกษา Field รหัสนักศึกษา ชื่อ นามสกุล วันเกิด 620101513 มงคล น้ำนิ่ง 16 / 07 / 44 620101103 กนก ทิพย์กมล 19 / 12 / 44 620102452 ศิริอักษร 07 / 03 / 44 620102453 กมลขจรจิตร 04 / 01 / 45 620103561 กมลเทพ อมรพันธ์ 22 / 02 / 44 620103432 โสภา สถาพร 26 / 11 / 43 620104562 อำภา สุนทร 13 / 04 / 44 Record File แฟ้มข้อมูลรายชื่อนักศึกษา
ปัญหาของการจัดเก็บแฟ้มข้อมูล เมื่อข้อมูลมีความซ้ำซ้อนมากขึ้นและมีผู้ใช้หลายคน ปัญหาก็จะตามมา เช่น ชื่อลูกค้าของฝ่ายขาย อาจจะไม่ตรงกับชื่อลูกค้ารายเดียวกันในไฟล์ของฝ่ายบัญชี เป็นต้น ข้อมูลลูกค้า Customer Records ข้อมูลพนักงานEmployee Records ข้อมูลสินค้าคงคลัง Inventory Records ข้อมูลการขาย Sales Records ฝ่ายบริการลูกค้า Customer Service Department ฝ่ายบุคคล Personnel Department ฝ่ายจัดซื้อ Purchasing Department ฝ่ายขาย Sales Department แฟ้มข้อมูลที่แต่ละหน่วยงานจัดเก็บกันเองต่างหาก
ระบบฐานข้อมูล (Database System) ฐานข้อมูล คือ กลุ่มของแฟ้มข้อมูลที่มีความสัมพันธ์กันและถูกนำมารวมกัน เช่น ฐานข้อมูลในบริษัทแห่งหนึ่ง อาจประกอบไปด้วยแฟ้มข้อมูลหลายแฟ้ม โดยที่แต่ละแฟ้มจะมีความสัมพันธ์กัน ได้แก่ ข้อมูลพนักงาน ข้อมูล แผนกในบริษัท ข้อมูลลูกค้า ข้อมูลสินค้า ข้อมูลการขาย เป็นต้น ฝ่ายบริการลูกค้า Customer Service Department ฝ่ายบุคคล Personnel Department ข้อมูลพนักงานEmployee Records ข้อมูลลูกค้า Customer Records ฝ่ายจัดซื้อ Purchasing Department ฝ่ายขาย Sales Department ข้อมูลการขาย Sales Records ข้อมูลสินค้าคงคลัง Inventory Records แฟ้มข้อมูลที่เก็บรวบรวมกันให้อยู่ในรูปแบบของฐานข้อมูล (Database)
ข้อดีของการจัดเก็บข้อมูลลงในฐานข้อมูล ลดความซ้ำซ้อนกันของข้อมูล (Data Redundancy) ความขัดแย้งของข้อมูล (Data Inconsistency) การรักษาความคงสภาพของข้อมูล (Improved Data Integrity) การใช้ข้อมูลร่วมกัน (Shared Data) ง่ายต่อการเข้าถึงข้อมูล (Easier Access) ลดระยะเวลาการพัฒนาระบบงาน (Reduced Development Time)
ระบบจัดการฐานข้อมูล (DBMS) ข้อมูลพนักงาน ระบบเงินเดือน สลิปเงินเดือน ข้อมูลลูกค้า ระบบจัดการฐานข้อมูล (DBMS) ระบบงานขาย รายงานยอดขาย ข้อมูลการขาย ระบบสินค้าคงคลัง ใบสั่งซื้อ ข้อมูลสินค้าคงคลัง นอกจากนี้ ฐานข้อมูลยังช่วยในเรื่องการรักษาความปลอดภัยของข้อมูล โดยผู้ดูแลระบบสามารกำหนดสิทธิ์การเข้าถึงข้อมูลแก่ผู้ใช้ได้ เพื่อป้องกันผู้ไม่เกี่ยวข้องเข้าถึงข้อมูลได้
การจัดการกับไฟล์ (file management) ความหมายของไฟล์ (Files) ไฟล์ (Files) คือ เป็นหน่วยในการเก็บข้อมูลในคอมพิวเตอร์ ซึ่งอาจจะเก็บอยู่ ในสื่อบันทึกข้อมูลต่างๆ เช่น ฮาร์ดดิสก์ แฟลชไดร์ฟ หรือพื้นที่เก็บข้อมูลใน เครื่องสมาร์ตโฟนที่มักใช้หน่วยความจำแบบแฟลชและมีบางรุ่นอาจใส่ Micro SD Card เพิ่มได้ เป็นต้น สามารถอ้างอิงได้โดยระบุชื่อไฟล์และส่วนขยาย
การจัดการกับไฟล์ (file management) (ต่อ) ชื่อไฟล์ (File Name) ในยุคแรกๆของคอมพิวเตอร์สามารถตั้งชื่อไฟล์ได้ไม่เกิน 8 อักขระเท่านั้น แต่ตอนนี้สามารถตั้งชื่อไฟล์ได้มากถึง 256 อักขระโดยจะไม่นิยมให้มี ช่องว่าง (Blank) ระหว่างชื่อไฟล์ หากจำเป็นที่จะต้อมีการเว้นวรรคก็มักจะใช้ เครื่องหมายขีดล่างแทน เช่น computer_list, marketing_customer_file เป็นต้น ส่วนขยาย (Extensions) เป็นส่วนที่ช่วยให้ระบบปฎิบัติการเข้าใจรูปแบบหรือชนิด ของไฟล์ได้ง่ายมากยิ่งขึ้น ประกอบด้วยอักขระประมาณ 3-4 ตัว ที่เขียนเพิ่มต่อจากชื่อ ของไฟล์ แล้วคั่นด้วยเครื่องหมายจุด (.) ซึ่งเทียบได้กับ “นามสกุลของไฟล์” เช่น .pdf, .html, .doc, .xlsx เป็นต้น
ลำดับโครงสร้างไฟล์ (Hierarchical file system) เมื่อต้องการเก็บข้อมูลก็จะมีการจัดเก็บไฟล์ที่แยกโครงสร้างออกเป็นส่วนๆ เหมือนกิ่งก้านสาขาของต้นไม้แต่ละกิ่งที่เรียกสั้นๆว่า โฟลเดอร์ (Folder) ซึ่ง เป็นที่รวมไฟล์ข้อมูลเรื่องเดียวกันเข้าไว้เป็นหมวดหู่เพื่อง่ายต่อการใช้งาน
VS
ลำดับโครงสร้างไฟล์ (Hierarchical file system) (ต่อ) โครงสร้างของไฟล์แบ่งออกเป็น 2 ส่วนย่อยได้ดังนี้ ไดเร็คทอรี่ (Directory) เป็นโฟลเดอร์หลักสำหรับจัดเก็บหมวดหมู่ไฟล์ขั้นสูงสุดในระบบ บางครั้ง อาจเรียกว่า Root Directory ซึ่งบางระบบปฎิบัติการจะรวมทุกไดรฟไว้ในไดเร็คทอรี่เดียวกัน แต่ สำหรับ windows จะแยกกัน เช่น D:\ คือ Root Directory ของไดรฟ D: ซับไดเร็คทอรี่ (Sub Directory) เป็นโฟลเดอร์ย่อยที่ถูกแบ่งและจัดเก็บไว้ออกมาอีกชั้นนึง โดยที่เรา สามารถเอาข้อมูลหรือไฟล์จัดเก็บลงไปในซับไดเร็คทอรี่ได้เช่นเดียวกัน นอกจากนั้นยังสามารถแบ่ง หรือสร้างซับไดเร็คทอรี่ย่อยๆ ลงไปได้อีกแบบไม่จำกัด เสมือนกับการแผ่กิ่งก้านสาขาของต้นไม้ นั่นเอง
โครงสร้างแบบต้นไม้ในระบบปฎิบัติการ
example C:\Business\Courses\Comp101.doc Root Directory ของไดรฟ C: Sub-Directory Business Courses ชื่อไฟล์ นามสกุลไฟล์ (Word) จากตัวอย่างนี้ C:\ คือ Root Directory ของไดรฟ C: ซึ่งเป็นต้นทางที่จัดเก็บไฟล์เอกสาร Microsoft word ที่ชื่อ Comp101.doc โดยไฟล์นี้อยู่ภายใต้ซับไดเร็คทอรี่ที่มีชื่อว่า Courses ซึ่งอยู่ภายใต้ซับไดเร็คทอรี่ที่ชื่อว่า Business อีกชั้นนึง
คำสั่งสำหรับจัดการไฟล์ข้อมูล ผลลัพธ์ move สำหรับย้ายไฟล์จากที่เดิมไปยังแหล่งเก็บใหม่ copy สำหรับคัดลอกหรือสำเนาไฟล์ไปยังแหล่งเก็บใหม่ delete สำหรับลบข้อมูลไฟล์ที่ไม่ต้องการออกจากระบบ rename สำหรับเปลี่ยนชื่อไฟล์ข้อมูลใหม่ (F2)
ฐานข้อมูลเชิงสัมพันธ์ (Relational Database) ฐานข้อมูลเชิงสัมพันธ์ คือ การจัดเก็บข้อมูลในลักษณะที่เป็นกลุ่มของข้อมูลที่มีความสัมพันธ์กัน ในฐานข้อมูล หนึ่งๆ สามารถที่จะมีตารางตั้งแต่ 1 ตารางเป็นต้นไป และในแต่ละตารางนั้นก็สามารถมีได้หลายคอลัมน์ (Column) หลายแถว (Row) เช่น เราต้องการเก็บข้อมูลพนักงาน ในตารางของข้อมูลพนักงานก็จะประกอบด้วย คอลัมน์ ที่อธิบายชื่อ นามสกุล ที่อยู่ เงินเดือน แผนกที่สังกัด เป็นต้น และในตารางนั้น ก็สามารถที่จะมีข้อมูล พนักงานได้มากกว่า 1 คน (Row) และตารางข้อมูลพนักงานนั้นอาจจะมีความสัมพันธ์กับตารางอื่น เช่น ตารางที่ เก็บชื่อและจำนวนบุตรของพนักงาน ฐานข้อมูลเชิงสัมพันธ์ถูกออกแบบมาเพื่อลดความซ้ำซ้อนของการเก็บข้อมูล และสามารถเรียกใช้ ข้อมูลได้อย่างมีประสิทธิภาพ โดยมีหลักดังนี้ 1. ตารางจะต้องมีชื่อไม่ซ้ำกัน 2. แต่ละฟิลด์จะบรรจะประเภทข้อมูลเพียงชนิดเดียวเท่านั้นแน่นอน 3. ข้อมูลในแต่ละเรคอร์ดจะต้องไม่ซ้ำกัน
เครื่องมือค้นข้อมูลของ RDBMS ในฐานข้อมูลแบบ Relational จะใช้ภาษาหรือชุดคำสั่งที่เรียกว่า Structured Query Language (SQL) คำสั่งชุดนี้ จะใช้คำภาษาอังกฤษเพื่อให้ผู้ใช้ป้อนเข้าไปเพื่อเรียกดูข้อมูล แก้ไข เพิ่ม ลบ ตามเงื่อนไงที่กำหนด ตัวอย่างคำสั่งภาษา SQL SELECT INSERT UPDATE DELETE
ตัวอย่างการใช้คำสั่งภาษา SQL เพื่อแสดงผลข้อมูลในโปรแกรม Microsoft Access
Non-Relational Database หรือ NoSQL จะถูกนำไปใช้งานกับข้อมูลที่มีขนาดใหญ่ ข้อมูลไม่มีโครงสร้างที่ชัดเจนใช้สำหรับการวิเคราะห์ข้อมูลแบบ offline เช่น ระบบการวิเคราะห์ข้อมูลจาก Social network, ข้อเป็นต้นความภาพ เสียง วิดีโอ แผนที่ เป็นต้น ตัวอย่างฐานข้อมูลแบบ Non-Relational Database หรือ NoSQL เช่น MangoDB, Amazon DynamoDB, Apache Cassandra เป็นต้น
ข้อดีของ Non-Relational Database หรือ NoSQL รองรับผู้ใช้งานจำนวนมาก รองรับข้อมูลขนาดใหญ่ รองรับรูปแบบข้อมูลที่หลากหลาย สามารถขยายระบบได้ง่าย
ข้อเสียของ Non-Relational Database หรือ NoSQL ไม่เหมาะกับงานที่เน้นการประมวลผลแบบไล่ไปทีละรายการ (transaction processing) ควบคุมได้ยาก เรื่องของระบบ admin ที่ยังไม่ดี หรือไม่มีเลย ขาดผู้มีความรู้และผู้เชี่ยวชาญ
การประมวลผลแฟ้มข้อมูล และระบบฐานข้อมูล 1. การประมวลผลแบบชุด (Batch Processing) คือ การประมวลผลโดยผู้ใช้จะทำการรวบรวมเอกสาร ที่ต้องการประมวลผลไว้เป็นชุดๆ ซึ่งแต่ละชุดอาจจะกำหนดเท่ากับเอกสาร 10 หรือ 20 รายการหรือ มากกว่าก็ได้แต่ให้มีขนาดเท่ากัน แล้วป้อนข้อมูลดังกล่าวสู่เครื่องคอมพิวเตอร์ จากนั้นจึงใช้คำสั่งให้ ประมวลผลพร้อมกันที่ละชุดตัวอย่าง 2. การประมวลผลแบบโต้ตอบ (Interactive) หมายถึง การทำงานในลักษณะที่มีการโต้ตอบระหว่าง ผู้ใช้กับเครื่องคอมพิวเตอร์ โดยผู้ใช้สามารถที่จะตรวจสอบข้อมูลได้ตลอดเวลา 3. การประมวลผลแบบออนไลน์ (Online processing) คือ การประมวลผลร่วมกันระหว่างคอมพิวเตอร์ ที่ ต่อพ่วงกับระบบสื่อสาร (Communication) โดยอาศัยอุปกรณ์ต่อพ่วง
อ้างอิง https://sites.google.com/site/ewqfdsfeqphanthdsaeq2w/than-khxmul-cheing- samphanth http://www.bua- yai.ac.th/buayai/buayai_web/html_web/unit_1/information_process.html https://sites.google.com/site/karcadkarkhxmulkarcadkarkhxmul/kar-pramwl-phl- faem-khxmul-laea-rabb-than-khxmul
Exercises คุณสมบัติของข้อมูลที่ดีประกอบด้วยอะไรบ้าง จงอธิบาย ข้อมูลภายในสถาบันการศึกษาที่นิสิตสังกัดอยู่ มีอะไรบ้าง จงยกตัวอย่างประกอบ เหตุดจึงได้นำเอาฐานข้อมูลมาใช้งาน จงอธิบายและยกตัวอย่างประกอบ ภาษาที่ใช้สอบถามหรือเข้าถึงข้อมูลโดยผ่านรูปแบบการใช้คำสั่งเฉพาะ เรียกว่าภาษาอะไร จงยกตัวอย่างของคำสั่ง ความสามารถโดยทั่วไปของ DBMS มีอะไรบ้าง จงอธิบาย