टी डी आई एल
यूनिकोड मे प्रस्तावित परिवर्तन
वैदिक कोड समुच्चय
मशीन आधारित अनुवाद
की-बोर्ड अभिविन्यास
सूचना प्रौद्योगिकी शब्दावली
समाचार पत्रिका विश्वभारत
सम्मेलन कार्यशिविर सूची
सम्मेलन कार्यशिविर प्रस्तुतियाँ
प्रायः पूछे जाने वाले प्रश्न

 

यूनीकोड

यूनीकोड क्या है?


यूनीकोड को व्यापक रूप से विश्वव्यापी सूचना आदान-प्रदान के मानक के रूप में स्वीकार किया जा रहा है क्योंकि बड़ी आई टी कंपनियों ने नसके लिए अपने समर्थन की घोषणा की है। भारतीय भाषाओं के लिए यूनीकोड ISCII-91 का नहीं बल्कि ISCII-88 का प्रयोग करता है जो नवीनतम सरकारी मानक है। यह महसूस किया गया कि भारतीय भाषा लिपि से संबंधित कोड में आवयक रूपांतरण के लिए यूनीकोड कंसोरटियम में भारत सरकार का प्रतिनिधत्व जरूरी है और इस प्रकार सूचना प्रौद्योगिकी विभाग, यूनीकोड कैसोरटियम पूर्ण-सदस्य बन गया जिसे वोट देने का भी अधिकारी है।

16 बिट (2 बाइट) यूनीकोड



यूनीकोड मानक सार्विक करैक्टर इनकोडिंग मानक है जिसका प्रयोग कम्प्यूटर प्रोसेसिंग के लिए टेक्स्ट के निरूपण के लिए किया जाता है। यूनीकोड मानक में विश्व की लेखनीबद्ध भाषाओं के लिए सब करैक्टरों के इनकोड करने की क्षमता है। यूनीकोड मानक करैक्टर के बारे में सूचना और उनका उपयोग बताते हैं। कम्प्यूटर उपयोक्ताओं के लिए जो बहुभाषी टेक्स्ट पर काम करते है, व्यापारियों, भाषाविदों, अनुसन्धानकर्त्ताओं, वैज्ञानिकों, गणितज्ञों और तकनीशियिनों के लिए यूनीकोड मानक बहुत लाभप्रद हैं। यूनीकोड एक 16-बिट इनकोडिंग का प्रयोग करता है जो 65000 करैक्टरों से भी ज़्यादा (65536) के लिए कोड-प्वाइंट उपलब्ध कराते हैं। यूनीकोड स्टैंडर्ड प्रत्येक करैक्टर को एक विलक्षण संख्यात्मक मान और नाम देते है। यूनीकोड स्टैंडर्ड और क्ष्च्ग्र् 10646 स्टैंडर्ड 4TF-16 नामक एक विस्तार यंत्रावली उपलब्ध कराते हैं जो एक मिलियन तक के लिए इनकोडिंग कर सकते हैं। फिलहाल यूनीकोड स्टैंडर्ड 49194 करैक्टरों के लिए उपलब्ध कराता हैं। ।

कैरेक्टर इनकोडिंग के लिए यूनीकोड की क्या नीति है?




यूनीकोड कंसोरटियम करैक्टर इनकोडिंग स्थिरता के लिए नीति निर्धारित की है जिसके द्वारा करैक्टर विलोपन या करैक्टर के नाम में परिवर्तन संभव नहीं है केवल व्याख्या को अद्यतन बनाया जा सकता है।

1. एक बार करिक्टर की इनकोडिंग होने के बाद उसे हिलाया या हटाया नहीं जाएगा।
2. एक बार कैरिक्टर की इनकोडिंग होनके बाद उसका नाम नहीं बदला जाएगा।
3. एक बार कैरिक्टर की इनकोडिंग होने के बाद इसकी कैननीकल संयोजी श्रेणी और उपघटन (चाहे कैननीकल हो    या संगतता) को इस तरीके से परिवर्तित नहीं किया जाएगा कि सामान्यकरण प्रभावित हो।
4. एक बार कैरिक्टर की इनकोडिंग होने पर इसके गुण परिवर्तित किए जा सकते हैं लेकिन इस तरीके से नहीं कि    कैरिक्टर की मूलभूत पहचान बदल जाए
5. यूनीकोड कैरिक्टर डेटाबेस में कुछ गुण-मानों की संरचना नहीं बदली जाएगी

यूनीकोड और ISCII कोड के बीच मूल अन्तर क्या है?




यूनीकोड 16-बिट इनकोडिंग का प्रयोग करता है जो 65000 से अधिक कैरिक्टरों के लिए कोड प्वाइंट उपलब्ध कराता है। यूनीकोड स्टैंडर्ड प्रत्येक कैरिक्टर को विलक्षण सांख्यात्मक मान और नाम उपलब्ध कराते है। यूनीकोड विश्व की सब लेखनी-बद्ध भाषाओं के लिए प्रयुक्त सब कैरिक्टरों को इनकोड करने की क्षमता उपलब्ध कराता है।
ISCII 8 बिट कोड का प्रयोग करता है जो 7-बिट ASCII कोड का एक विस्तार है जो 10 भारतीय लिपियों के लिए अपेक्षित मूल वर्णमाला रखता है जो ब्राह्मी लिपि से उत्पन्न हुई हैं।

भारत में 15 सरकारी मान्यताप्राप्त भाषाएं हैं। फार्सी-अर्बी लिपि को छोड़, भारतीय भाषाओं के लिए प्रयुक्त अन्य 10 लिपियां प्राचीन ब्राह्मी लिपि से निकलती हैं और साझी वन्यात्मक संरचना रखती हैं जिससे साझा कैरिक्टर सैट संभव हुआ है। ISCII कोड तालिका ब्राह्मी आधारित भारतीय लिपियों में अपेक्षित सब कैरिक्टरों का एक सुपर-सैट होता है। सुविधा के लिए मानक में सरकारी लिपि देवनागरी की वर्णमाला का प्रयोग कया गया है।

इनडिक लिपियों के उचित निरूपण के लिए यूनीकोड स्टैडर्ड में डी आई टी, संचार एवं सूचना टैक्नॉलोजी मंत्रालय की सिफ़ारिशें यूनीकोड में 3-0 में ISCII-1988 प्रलेख पर आधारित इनडिक लिपियों के लिए मानक कोड सैट शामिल किए गए हैं। वर्त्तमान राष्ट्रीय मानक ISCII :1991 है (सूचना अदला-बदली के लिए भारतीय लिपि कोड ISCII-IS 13194:1911) इनडिक लिपियों के उचित निरूपण के लिए यूनीकोड स्टैंडर्ड में कुछ रूपांतरण शामिल करना जरूरी हैं।

मंत्रालय मे उद्योग, विद्वत्परिषदों और आर एंड डी संस्थान के साथ विचार-विमर्श के बाद सब भारतीय भाषाओं के लिए प्रस्तावित परिवर्तनों को अंतिम रूप दिया है। प्रस्तावित परिवर्तनों का मसौदा TDIL के न्यूज़लैटर विश्वभारत@tdil अंको में प्रकाशित किया गया और उन्हें नीचे दिया जा रहा है:-

  • न्यूज़लैटर जनवरी 2002 (pdf) (देवनगरी और देव नागरी आधारित भाषाओं के लिए)


  • न्यूज़लैटर अप्रैल 2002 (pdf) (गुजराती और मलयालम के लिए)


  • न्यूज़लैटर अप्रैल 2002 (pdf) (उड़िया गुरमुखी और तेलगू के लिए)


  • न्यूज़लैटर जुलाई 2002 (pdf) (बंगला और बंगला आधारित भाषाओं के लिए)


  • न्यूज़लैटर अक्टूबर 2002 (pdf) (तामिल और कन्नड आधारित भाषाओं के लिए)


  • न्यूज़लैटर अक्टूबर 2002 (pdf) (अरबी, उर्दू और कश्मीरी आधारित भाषाओं के लिए)


  • न्यूज़लैटर अक्टूबर 2002 (pdf) (वैदिक संस्कृत भाषाओं के लिए)