टी डी आई एल
यूनिकोड मे प्रस्तावित परिवर्तन
वैदिक कोड समुच्चय
मशीन आधारित अनुवाद
की-बोर्ड अभिविन्यास
सूचना प्रौद्योगिकी शब्दावली
समाचार पत्रिका विश्वभारत
सम्मेलन कार्यशिविर सूची
सम्मेलन कार्यशिविर प्रस्तुतियाँ
प्रायः पूछे जाने वाले प्रश्न

 



1. संगणक भाषा विज्ञान क्या है?




संगणक भाषा विज्ञान (सं.भा.) भाषा विज्ञान तथा कंप्यूटर विज्ञान या संगणक विज्ञान का अन्तरविषयी क्षेत्र है जिसका संबंध मानव भाषा दक्षता के संगणक पक्ष से है । इसका संबंध संज्ञानात्मक विज्ञानों तथा यांत्रिक बुद्धिमत्ता से भी है । यांत्रिक बुद्धिमत्ता जो संगणक विज्ञान की एक शाखा है और इसका संबंध मानव संज्ञान के संगणक कम्प्यूटेशनल मार्डिलों से है । संगणक भाषा विज्ञान की दो शाखाएँ हैं - अनुप्रयुक्त तथा सैद्धांतिक । संगणक भाषा विज्ञान की अनुप्रयुक्त शाखा मानव भाषा प्रयोग के मार्डिल के व्यवहारिक परिणामों में अधिक रूचि रखती है । इसका उद्देश्य ऐसे सार्फ्टिवेयर उत्पाद तैयार करना है जिनका संबंध मानव भाषा के ज्ञान से है । ऐसे उत्पादों की आवश्यकता मानव मशीन अंतरासंबंध (अंतरापृष्ठ) में सुधार लाने के लिए है क्योंकि मानव तथा कम्प्यूटर के अंतरासंबंध में मुख्य अवरोध संप्रेषण के कारण होता है ।

2. वाक् संश्लेषण क्या है ?




वाक् संश्लेषण प्रोग्राम स्वचालित संश्लेष्ट वाक् प्रजनन के द्वारा लिखित निवेश को मौखिक निर्गत के रूप में परिवर्तित करते हैं । वाक् संश्लेषण को पाठ से वाक् परिवर्तन (टी.टी.एस.) के रूप में समझा जाता है ।

3. वाक् संश्लेषण कैसे किया जाता है ?



इसके कई एल्गोरिद्म हैं । किस का प्रयोग कार्य के लिए किया जाता है, यह संबंधित पर निर्भर करता है सबसे आसान तरीका होता कि वांछित पदबंधों को बोलनेवाले व्यक्ति की आवाज में रिकार्ड जाए उपयोगी जब रेलवे स्टेशन संदेशों या फोन द्वारा निर्धारित सूचनाओं सीमित वाक्यों ही इसकी गुणवत्ता इन सूचनाओं की रिकार्डिंग पर निर्भर करती है । अधिक परिष्कृत किंतु गुणवत्ता दृष्टि से खराब वे एल्गोरिथ्म हैं जो वाक् को छोटे टुकड़ों में विभाजित इकाइयों जितनी छोटी होती हैं , उनकी संख्या उतनी ही कम होती हैं, किंतु उनकी गुणवत्ता कम हो जाती है । आमतौर पर प्रयुक्त हैं स्वनिम है जो सबसे छोटी भाषिक उन्हे है । प्रयोग की --- भाषा के आधार पर, पश्चिम यूरोपीय भाषाओं में 35-50 स्वनिम होते हैं अर्थात एकल रिकार्डिंग होती । ऊससे बोधगम्यता कम होती है किंतु इसके लिए कम अपेक्षित स्मृति की आवश्यकता होती है । इस दुविधा का समाधान द्वि-स्वनिकों के प्रयोग में निहित है । संक्रमणों पर विखंडित करने की बजाए तथा उसे बरकरार बनाए रखने के लिए स्वनिम को बीच में काटा जाता है इससे लगभग 400 (20 20) तत्व प्राप्त होते हैं तथा गुणवत्ता बढ़ जाती है । इकाइयाँ जितनी बड़ी होंगी, तत्व भी उतने ही अधिक होंगे । किंतु गुणवत्ता अपेक्षित स्मृति के साथ साथ बढ़ती जाती है । अन्य इकाइयों में अर्ध अक्षरों, अक्षरों, शब्दों या उनके समुच्चयों जैसे - शब्दों की धातुओं तथा रूप रचनात्मक प्रत्ययों का प्रयोग किया जाता है । वाक् विश्लेषण तथा संश्लेषण के संग्रहालय में पिछले 150 वर्षों के कृत्रिम वाक् तंत्रों के चित्र सुरक्षित हैं जो अवलोकन करने योग्य हैं ।

4. भाषा वैज्ञानिक व्यवस्था संबंधी उपकरणों को कहाँ से प्राप्त किया जा सकता है ?



लिंग्विस्टिक डेटा कंसोर्टियम के द्वारा व्यापक रूप से भाषा वैज्ञानिक व्याख्या संबंधी उपकरण इस वैब पृष्ठ पर दिए गए हैं - http:// www.1dc.upenn.edu/annotation

5. भाषा प्रौद्योगिकी क्या है ?




भाषा प्रौद्योगिकी कंप्यूटर प्रणालियों के बारे में शोध करती है जो मौखिक तथा लिखित मानवीय भाषाओं के बोधन तथा/या संश्लेषण का कार्य करती है । इस क्षेत्र में वाक् संसाधन (पहचान, बोधन तथा संश्लेषण) सूचना निष्कर्षण, हस्तलेख पहचान, मशीनी अनुवाद, पाठ संश्लेषण तथा भाषा प्रजनन भी सम्मिलित हैं ।

6. इस्की क्या है ?



भारतीय मानक ब्यूरो ने इस्की (सूचना विनिमय के लिए भारतीय मानक कोड) नाम से एक मानक निर्मित किया है जिसे 7 या 8 बिट वर्णों का प्रयोग करते हुए सभी कंप्यूटरों तथा संचार माध्यमों में प्रयोग किया जा सकता है । 8 बिट परिवेश में निचले 128 वर्ण वही हैं जो सूचना विनिमय के लिए IS10315:1982 (ISO 646 IRV)7-बिट वर्ण सैट द्वारा परिभाषित हैं, जिन्हें एस्की वर्ण सैट के रूप में भी जाना जाता है । ऊपर के 128 वर्ण सैट प्राचीन ब्राह्मी लिपि पर आधारित भारतीय लिपियों की आवश्यकता की पूर्ति करते हैं ।

7 -बिट परिवेश में, नियंत्रक कोड एस.आई. को आस्की कोड के आह्वान के लिए प्रयोग किया जा सकता है तथा नियंत्रक कोड एस.ओ. को एस्की कोड सैट के पुनर्चयन के लिए प्रयोग किया जा सकता है । भारत में 15 मान्यता प्राप्त भाषाएँ हैं । फारसी-अरबी लिपियों के अतिरिक्त, भारतीय भाषाओं के लिए प्रयुक्त अन्य 10 लिपियाँ प्राचीन ब्राह्मी लिपि से उद्भूत हैं और इस्की कोड के अतिरिक्त वर्णों का प्रयोग किया जा सकता है । इस्की कोड सारणी ब्राह्मी आधारित भारतीय लिपियों में आवश्यक सभी वर्णों का एक सुपर सैट है । सुविधा के लिए, मान्यता प्राप्त देवनागरी लिपि के वर्णों को मानक में प्रयुक्त किया गया है । भारतीय मानक ब्यूरो द्वारा जारी मानक संख्या IS1319 :1991 सूचना विनिमय के लिए नवीनतम भारतीय मानक है । इसे भारतीय भाषाओं में सूचना प्रौद्योगिकी उत्पादों के विकास के लिए व्यापक रूप से प्रयोग किया जा रहा है ।

7. 'इस्फोक' वर्ण सैट क्या है ?




लिपि वर्ण सैट यह प्रमुख वर्ण सैट होता है जिसमें बहुधा प्रयुक्त अधिकांश भाषाएं वर्ण, चिह्न, संख्याएँ आदि सम्मिलित होती हैं । कुछ अपवादों को छोड़कर चिह्नों का यह सैट सभी 'इस्फोक' वर्ण सैट में समान होगा । मैचिंग अंग्रेजी वर्ण सैट नीचे के आधे भाग में 'एस्की' वर्णों से युक्त मैचिंग अंग्रेजी फोंट के लिए सहयोगी वर्ण सैट होते हैं तथा उपर के आधे भाग में रोमन लिप्याँतरण के लिए बलाघात वर्ण होते हैं । अनुपूरक वर्ण सैट अनुपूरक वर्ण सैट मूलभूत लिपि वर्णों के सेट का एक विस्तृत सेट है जिसमें ऐसे संयुक्ताक्षर तथा चिह्न सम्मिलित होते हैं जिनका प्रयोग सामान्यतया नहीं होता ।

8. यूनिकोड क्या है ?




सूचना विनिमय के मानक के रूप में यूनिकोड की स्वीकृति संपूर्ण विश्व में बढ़ती जा रही है । सूचना प्रौद्योगिकी क्षेत्र की अधिकांश कंपनियों ने इसके पक्ष में अपने सहयोग की घोषणा कर दी है । भारतीय भाषाओं के लिए यूनिकोड 'आइस्की 91' का प्रयोग न करके 'इस्की 88' का प्रयोग करता है जो अद्यतन सरकारी मानक है । यह आवश्यक समझा गया कि भारत सरकार, भारतीय भाषाओं के लिए कोड में आवश्यक संशोधन के लिए यूनिकोड कंसोर्टियम के समक्ष अपना पक्ष रखे । इस उद्देश्य से सूचना प्रौद्योगिकी मंत्रालय यूनिकोड कंसोर्टियम का मताधिकार के साथ पूर्ण सदस्य बन गया है ।

16 बिट (2 बाइट) यूनिकोड - यूनिकोड मानक कंप्यूटर संसाधन के उद्देश्य से पाठ निरूपण के लिए एक सार्वदेशिक वर्ण कोडांतरण मानक है । यूनिकोड मानक विश्व कीलिखित भाषाओं के लिए प्रयुक्त सभी वर्णों के कोडांतरण की क्षमता रखता है । यूनिकोड मानक वर्ण तथा उसके प्रयोग के संबंध में सूचना प्रदान करता है । बहुभाषी पाठों से संबंध रखने वाले व्यापारिक लोगों, भाषाविदों, शोधकर्ताओं, विज्ञानियों, गणितज्ञों तथा तकनीकज्ञों जैसे कंप्यूटर प्रयोक्ताओं के लिए यूनिकोड मानक बहुत ही उपयोगी है । यूनिकोड 16 बिट कोडांतरण का उपयोग करता है जिसमें 65000 वर्णों (65536) से भी अधिक के लिए कोड बिंदु उपलब्ध कराता है । यूनिकोड मानक प्रत्येक वर्ण को एक निश्चत संख्यात्मक मूल्य तथा नाम निर्धारित करता है ।

9. यूनिकोड तथा इस्की कोड में मूलभूत अंतर क्या है ?




यूनिकोड 16 बिट कोडिंग का प्रयोग करते हुए 65000 से अधिक वर्णों (65536) के लिए कोड-बिंदु निश्चत करता है । यूनिकोड मानक प्रत्येक वर्ण को एक विशिष्ट संख्यात्मक मूल्य तथा नाम प्रदान करता है । यूनिकोड मानक विश्व की सभी लिखित भाषाओं में प्रयुक्त सभी वर्णों की कोडिंग के लिए क्षमता प्रदान करता है । 'इस्की' 8बिट कोड है जो 'एकी' के 7बिट कोड का विस्तृत रूप है जिसके अनुसार ब्राह्मी लिपि से उद्भूत 10 भारतीय लिपियों के लिए मूलभूत वर्ण सम्मिलित हैं । भारत में 15 मान्यता प्राप्त भाषाएँ हैं । फारसी-अरबी लिपियों के अतिरिक्त, भारतीय भाषाओं के लिए प्रयुक्त अन्य सभी 10 लिपियाँ प्राचीन ब्राह्मी लिपि से विकसित हुई हैं तथा इसकी ध्वन्यात्मक संरचना में समानता पाई जाती है जिससे समान वर्ण सैट संभव हो सकता । 'आज इस्की' कोड सारणी ब्राह्मी आधारित भारतीय लिपियों के लिए आवश्यक एक प्रकार का सुपर सैट है । सुविधा के लिए मान्यता प्राप्त देवनागरी लिपि के वर्णों को मानक में प्रयोग किया गया है ।

10. भारतीय भाषाओं के टंकण के लिए तीन विभिन्न कुंजीपटल विन्यास कौन कौन से हैं ?





तीन कुंजीपटल विन्यास हैं -

1. रोमनीकृत विन्यास :रोमनीकृत विन्यासों में, हिंदी पाठ के टंकण में अंग्रेजी ध्वन्यात्मक मैपिंग का प्रयोग किया है । उदाहरण के लिए 'राम' टंकित करने के लिए raamaa (या rAmA) का प्रयोग किया जा सकता है ।

2.टाइपराइटर विन्यास : यह विन्यास हिंदी टाइपराइटर विन्यास के समान है तथा यह विन्यास हिंदी टंककों तथा हिंदी टाइपराइटर विन्यास तथा कुंजीक्रम चार्ट के जानकार लोगों के लिए उपयोगी है ।

3. इलेक्ट्रॉनिकी विभाग ध्वन्यात्मक : यह विन्यास इलेक्ट्रॉनिकी विभाग, भारत सरकार के द्वारा मानकीकृत किया गया है । इस विन्यास का लाभ यह है कि यह सभी भारतीय भाषाओं के लिए समान है । उदाहरण के लिए 'k' कुंजी का प्रयोग सभी भारतीय भाषाओं में 'क' वर्ण के कुंजीयन के लिए किया जाता है । कुंजीपटल विन्यास तथा कुंजीक्रम चार्ट का प्रयोग सही कुंजी संयोजकों के लिए किया जाता है ।

11. भारतीय भाषाओं में डेटा संसाधन की क्षमतावाले संगठनों/व्यक्तियों के नाम ?




डी.पी.चिरानिया भाषाएँ देवनागरी गुजराती, पंजाबी मराठी, बंगाली असमिया, उड़िया तमिल, तेलुगु, कन्नड़ मलयालम, नेपाली संपर्क : chiraniadp@yahoo.com

12. भारतीय भाषा में दृश्य डेटा संसाधन ?



'गणपति ' डेटाबेस पैकेज भाषाओं में है - हिंदी, गुजराती पंजाबी, मराठी बंगाली, उड़िया, तमिल तेलुगु, कन्नड़ मलयालम, नेपाली संपर्क : chiraniadp@yahoo.com

13. इस्की प्लग-इन क्या है ?



इस्की प्लग-इन का लक्ष्य किसी लिपि, फोंट, प्लेटफार्मिर् (परिवेश), ब्राउजर को प्रयोग करने की स्वतंत्रता प्रदान करना तथा कार्यकुशलता बलिदान या अतिरिक्त लागत खर्च किए बिना भारतीय भाषाओं में वैब खोज संभव बनाना है । इसका वर्तमान रूप यह प्रदर्शित करता है कि यदि भारतीय समुदाय का सहयोग मिल जाए तो हम लक्ष्य से दूर नही हैं ।

14. इस्की प्लग-इन कैसे काम करता है ?



जब क्लाइंट के स्तर पर ब्राउजर सर्वर को आस्की फाइल (extension.isc) का अनुरोध करता है, तब सर्वर 'माइम टाईप ' के साथ डेटा भेज देता है (text/iscii)क्लांट के स्तर पर ब्राउजर तथा इस 'इनपुट' धारा की व्यवस्था के लिए इस्की प्लग-इन चलाता है । इस्की प्लग-इस आनेवाली इस्की धारा को 'फोंट ग्लिफ क्रम' में परिवर्तन करता है ताकि प्रयोक्ता द्वारा परिभाषित फोंट का प्रयोग किया जा सके । आकार के संबंध में, इस्की प्लग-इन प्रयोक्ता द्वारा परिभाषित फोंट के नाम प्रछन्न क्षेत्र को जोड़ देता है ता कि फार्म प्रस्तुत करने पर, सर्वर का पता चलता जिसमें 'फील्ड वैल्यू' कोड की गई है ।

15. यह कहाँ से प्राप्य है ?



इस्की प्लग-इन निःशुल्क 'डाउनलोड' के लिए उपलब्ध है -www.iiit.net/amba/isciiplugin/index.html

Best Viewed in IE 5.5 & above
सूचना प्रौद्योगिकी विभाग द्वारा व्यवस्थित