HTML Unicode (UTF-8) रेफरेंस मैनुअल
- पिछला पृष्ठ HTML सूचक
- अगला पृष्ठ लातिन आधार
यूनिकोड फेडरेशन
यूनिकोड फेडरेशन ने Unicode मानक विकसित किया है। उनका लक्ष्य उनके मानक यूनिकोड ट्रांसफॉर्म फॉर्मेट (UTF) के माध्यम से मौजूदा अक्षरसंग्रह को प्रतिस्थापित करना है。
यूनिकोड मानक सफल हो गया है और HTML, XML, Java, JavaScript, ई-मेल, ASP, PHP आदि के माध्यम से लागू हो रहा है। कई ऑपरेटिंग सिस्टमों और सभी आधुनिक ब्राउज़रों में Unicode मानक का समर्थन है。
यूनिकोड फेडरेशन एक अग्रणी मानक विकास संगठन (जैसे ISO, W3C और ECMA) के साथ सहयोग करता है。
यूनिकोड अक्षरसंग्रह
यूनिकोड को विभिन्न अक्षरसंग्रह के माध्यम से अभिव्यक्त किया जा सकता है। सबसे अधिक उपयोग किये जाने वाले कोडिंग UTF-8 और UTF-16 हैं:
अक्षरसमूह | व्याख्या |
---|---|
UTF-8 |
UTF8 के अक्षर की लंबाई 1 से 4 बाइट हो सकती है。 UTF-8 यूनिकोड मानक के किसी भी अक्षर को प्रदर्शित कर सकता है。 UTF-8 एक्सीसी के साथ पीछे की अनुकूलता है। UTF-8 ई-मेल और वेब पृष्ठों के लिए अधिकारिक कोडिंग है |
UTF-16 |
16 बिट Unicode ट्रांसफॉर्मफॉर्मेट Unicode का बदली लंबाई चार्ज कोडिंग है, जो पूरे Unicode रिपोजिटारी को कोड करने में सक्षम है। UTF-16 प्रमुख ऑपरेटिंग सिस्टम और इनवायरनमें इस्तेमाल किया जाता है, जैसे Microsoft Windows, Java और .NET。 |
टिप्पणी:Unicode के पहले 128 अक्षर (ASCII से समान) एकल आठ-बाइट कोडिंग के लिए इस्तेमाल करते हैं, ये आठ-बाइटों के द्विपदांश के मान से एक-साथ ASCII के समान हैं, इसलिए प्रभावी ASCII टेक्स्ट भी वैध UTF-8 कोडिंग है।
सूचना:HTML 4 UTF-8 का समर्थन करता है। HTML 5 UTF-8 और UTF-16 का समर्थन करता है!
HTML5 मानक: Unicode UTF-8
ISO-8859 में अक्षरसमूह का आकार सीमित है और बहुभाषी पर्यावरण से समर्थन नहीं करता, इसलिए Unicode एसोसिएशन ने Unicode मानक विकसित किया।
Unicode मानक (लगभग) दुनिया के सभी अक्षर, चिह्न और सूचक को कवर करता है。
Unicode स्वतंत्र व्यवस्था और भाषा से अलग रूप से टेक्स्ट का एडिट, संग्रहीत और प्रेषण को समर्थित करता है。
HTML5 में डिफ़ॉल्ट अक्षर कोडिंग UTF-8 है。
यदि HTML5 वेब पृष्ठ द्वारा इस्तेमाल किया जाने वाला अक्षरसमूह UTF-8 से अलग है, तो <meta> टैग में इस अक्षरसमूह को निर्दिष्ट करना चाहिए, उदाहरण के लिए:
उदाहरण
<meta charset="ISO-8859-1">
Unicode और UTF-8 के बीच का फर्क
Unicode एक अक्षरसमूह है। UTF-8 एक कोडिंग है।
Unicode एक अद्वितीय दशमलव संख्या (कोड प्वाइंट) वाले अक्षर सूची है। A = 65, B = 66, C = 67, ...।
यह दशमलव संख्या सूची आखिरी शब्द "hello": 104 101 108 108 111 को प्रस्तुत करती है
कोडिंग ये संख्या को द्विपदांश में परिवर्तित करके कंप्यूटर में संग्रहीत करने का तरीका है:
UTF-8 कोडिंग इस तरह (द्विपदांश) "hello" को संग्रहीत करेगी: 01101000 01100101 01101100 01101100 01101111
कोडिंगसंख्या को द्विपदांश में परिवर्तित करें。अक्षरसमूहअक्षर को संख्या में परिवर्तित करें。
HTML5 UTF-8 अक्षर कोड
नीचे दी तालिका HTML5 द्वारा समर्थित कुछ UTF-8 अक्षर कोड की सूची है:
अक्षर कोड | दशमलव | अक्षरमात्रा |
---|---|---|
C0 Controls and Basic Latin | 0-127 | 0000-007F |
C1 Controls and Latin-1 Supplement | 128-255 | 0080-00FF |
लातिन एक्सटेंडेड-ए | 256-383 | 0100-017F |
लातिन एक्सटेंडेड-बी | 384-591 | 0180-024F |
स्पेसिंग मॉडिफ़ायर्स | 688-767 | 02B0-02FF |
डायएक्रिटिकल मार्क्स | 768-879 | 0300-036F |
ग्रीक और कॉप्टिक | 880-1023 | 0370-03FF |
साइरिलिक बेसिक | 1024-1279 | 0400-04FF |
साइरिलिक सप्लीमेंट | 1280-1327 | 0500-052F |
सामान्य पुनर्लिप्य | 8192-8303 | 2000-206F |
मुद्रा संकेत | 8352-8399 | 20A0-20CF |
लिफ्ट लाइक संकेत | 8448-8527 | 2100-214F |
बाहरी डायरेक्टर | 8592-8703 | 2190-21FF |
गणितीय ऑपरेटर | 8704-8959 | 2200-22FF |
बॉक्स ड्रॉइंग्स | 9472-9599 | 2500-257F |
ब्लॉक एलिमेंट | 9600-9631 | 2580-259F |
ज्यामितीय रूपाकार | 9632-9727 | 25A0-25FF |
विविध संकेत | 9728-9983 | 2600-26FF |
Dingbats | 9984-10175 | 2700-27BF |
- पिछला पृष्ठ HTML सूचक
- अगला पृष्ठ लातिन आधार