17 Planes in Unicode
ประวัติความเป็นมา Unicode Consortium ได้ถูกก่อตั้งขึ้น ในเดือนมกราคม 1991 ในรัฐแคลิฟอร์เนีย ประเทศสหรัฐอเมริกา 4 ปีหลังจากความคิดใหม่เกี่ยวกับการเข้ารหัสตัวอักษรที่เรียกว่า Unicode ถูกเสนอให้พิจารณาแรกเริ่มโดยวิศวกรจาก Xerox (Joe Becker) และ Apple (Lee Collins and Mark Davis) Objective Universal (addressing the needs of world languages) Uniform (fixed-width codes for efficient access), and Unique (bit sequence has only one interpretation into character codes)
โดยมีการแบ่งออกเป็นระนาบซึ่งมีทั้งหมด 17 ระนาบ
หลักการทำงานของ Unicode แต่ละตัวอักขระที่ใช้ในภาษาต่างๆ จะมีรหัสเฉพาะของตน แต่รูปแบบของการเข้ารหัสแบบ Unicode นั้นมีได้หลายแบบ เป็นการแปลงรหัส Unicode ที่กำหนดหรือที่เรียกว่า Unicode transformation format (UTF) ใช้จำนวน 32 บิตสำหรับแต่ละอักขระ (4 bytes/character) (เรียกว่า UTF-32) ตัวอักขระที่ใช้บ่อยๆ เก็บ 16 บิต (UTF-16)
ตารางรหัส Unicode ที่เป็นภาษาไทย
การแบ่งระนาบของ Unicode Unicode นั้นจะแบ่งออกเป็นส่วนต่างๆได้หลายส่วน โดยการจัดแยกออกเป็นส่วนย่อยๆไว้ใน 17 ระนาบ รวมทั้งหมด 1,114,112 ตัวอักษร โดยแบ่งได้เป็นระยะทั้งหมดคือ 0hex ถึง 10FFFFhexและโดยปกติในการอ้างถึง Unicode จะใช้รูปแบบ “U+” ตามด้วยตัวเลขฐานสิบหกเพื่อบ่งบอกตำแหน่งของตัวอักษร
ระนาบสำหรับตัวอักษรพื้นฐาน (ระนาบที่ 0) Basic Multilingual Plane จะทำงานโดยในแต่ละชุดของอักขระจะประกอบด้วยรหัส 256 รหัสในการชี้ตำแหน่งของอักขระ Basic Multilingual Plane (BMP), เป็นระนาบที่มีอักขระบรรจุอยู่มากที่สุด โดยอักขระสมัยใหม่และอักขระพิเศษเกือบทั้งหมดจะถูกบรรจุอยู่ระนาบนี้ ใน Unicode 5.1
ระนาบเพิ่มเติมสำหรับตัวอักษร(ระนาบที่ 1) Supplementary Multilingual Plane (SMP) ในระนาบนี้ส่วนใหญ่จะใช้ในการเก็บอักขระที่เกี่ยวข้องกับประวัติศาสตร์ รวมไปถึงสัญลักษณ์ทางดนตรีและคณิตศาสตร์ ในการอ้างถึงค่าใน SMP มีด้วยกัน2 วิธี คือ โดยการค่อขยาย Unicode จาก 16 บิตไปเป็น 32 บิต และอ้างถึงโดยตรงโดยใช้ 32 บิต (UTF-32) ส่วนอีกวิธีหนึ่งคือ จะใช้ความยาวเป็นจำนวนคู่ของ 16 บิต (Surrogate Pair)
ระนาบเพิ่มเติมสำหรับอักษรภาพแสดงความหมาย (ระนาบที่ 2) Supplementary Ideographic Plane (SIP) ถูกใช้ไปแล้วประมาณ 40,000 ในการแทนคำที่ใช้แทนความคิดหรือคำพูด CJK Unified Ideographs Extension B (20000–2A6DF) CJK Compatibility Ideographs Supplement (2F800–2FA1F)
ระนาบเพิ่มเติมสำหรับตัวอักษรลำดับที่3(ระนาบที่ 3) Tertiary Ideographic Plane ใช้แทนภาษาจีนโบราณในยุคสามก๊ก (Old Hanzi Period) 00030000-000317FF Oracle Bone Script 00031800-00031FFF unassigned 00032000-00032FFF Bronze Script 00033000-00033FFF unassigned 00034000-000368FF Small Seal Script 00036900-0003FFFD unassigned
ระนาบที่ยังไม่ได้นำไปใช้งาน (ระนาบที่ 4 ถึง ระนาบที่ 13) ยังไม่มีการกำหนดค่าให้กับระนาบที่ 4 ถึง ระนาบที่ 13 รวมถึงยังไม่ได้มีการกำหนดขนาด
ระนาบสำหรับวัตถุประสงค์พิเศษ (ระนาบที่ 14) Plane 14 (E in hexadecimal), ส่วนเพิ่มเติมสำหรับวัตถุประสงค์เฉพาะ (SSP: Supplementary Special- purpose Plane) ปัจจุบันใช้แทนค่าตัวอักขระที่ไม่ใช่กราฟิกในสองกลุ่มคือ 128 ใช้แทน ค่าตัวอักขระแบบแทก (Tag Language) ที่ยังไม่สามารถแทนค่าได้ตามปกติตัวอย่างเช่นในภาษา เอกซ์เอ็มแอล(XML) และกลุ่มระเบียน 240 ใช้แทนค่าตัวอักขระที่ไม่สามารถเขียนแทนได้ในข้อความทั่วไป มีการกำหนดค่าดังนี้ 000E0000-000E007F Tag characters 000E0080-000E00FF unassigned 000E0100-000E01EF Variation Selectors 000E01F0-000EFFFD unassigned
ระนาบสงวนการใช้งาน (ระนาบที่ 15 และ ระนาบที่ 16) ระนาบทั้ง 15 และ 16 นี้ถูกออกแบบโดยกรรมการชุดอื่น ที่ไม่ใช่จากหน่วยงานของไอเอสโอ หรือ คณะกรรมการของยูนิโค้ด เพื่อรองรับการทำงานของอักขระบางกลุ่มที่มีลักษณะพิเศษ เช่น เขียนจากขวาไปซ้าย เป็นต้น Title in here Title in here
Thank You!