|
1.
संगणक भाषा विज्ञान क्या है? |
संगणक भाषा
विज्ञान (सं.भा.) भाषा विज्ञान तथा कंप्यूटर विज्ञान या संगणक
विज्ञान का अन्तरविषयी क्षेत्र है जिसका संबंध मानव भाषा दक्षता
के संगणक पक्ष से है । इसका संबंध संज्ञानात्मक विज्ञानों तथा
यांत्रिक बुद्धिमत्ता से भी है । यांत्रिक बुद्धिमत्ता जो संगणक
विज्ञान की एक शाखा है और इसका संबंध मानव संज्ञान के संगणक कम्प्यूटेशनल
मार्डिलों से है । संगणक भाषा विज्ञान की दो शाखाएँ हैं - अनुप्रयुक्त
तथा सैद्धांतिक । संगणक भाषा विज्ञान की अनुप्रयुक्त शाखा मानव
भाषा प्रयोग के मार्डिल के व्यवहारिक परिणामों में अधिक रूचि
रखती है । इसका उद्देश्य ऐसे सार्फ्टिवेयर उत्पाद तैयार करना
है जिनका संबंध मानव भाषा के ज्ञान से है । ऐसे उत्पादों की आवश्यकता
मानव मशीन अंतरासंबंध (अंतरापृष्ठ) में सुधार लाने के लिए है
क्योंकि मानव तथा कम्प्यूटर के अंतरासंबंध में मुख्य अवरोध संप्रेषण
के कारण होता है ।
|
2.
वाक् संश्लेषण क्या है ? |
वाक् संश्लेषण प्रोग्राम स्वचालित संश्लेष्ट
वाक् प्रजनन के द्वारा लिखित निवेश को मौखिक निर्गत के रूप
में परिवर्तित करते हैं । वाक् संश्लेषण को पाठ से वाक् परिवर्तन
(टी.टी.एस.) के रूप में समझा जाता है ।
3.
वाक् संश्लेषण कैसे किया जाता है ? |
इसके कई एल्गोरिद्म हैं । किस का
प्रयोग कार्य के लिए किया जाता है, यह संबंधित पर निर्भर करता
है सबसे आसान तरीका होता कि वांछित पदबंधों को बोलनेवाले व्यक्ति
की आवाज में रिकार्ड जाए उपयोगी जब रेलवे स्टेशन संदेशों या
फोन द्वारा निर्धारित सूचनाओं सीमित वाक्यों ही इसकी गुणवत्ता
इन सूचनाओं की रिकार्डिंग पर निर्भर करती है । अधिक परिष्कृत
किंतु गुणवत्ता दृष्टि से खराब वे एल्गोरिथ्म हैं जो वाक् को
छोटे टुकड़ों में विभाजित इकाइयों जितनी छोटी होती हैं , उनकी
संख्या उतनी ही कम होती हैं, किंतु उनकी गुणवत्ता कम हो जाती
है । आमतौर पर प्रयुक्त हैं स्वनिम है जो सबसे छोटी भाषिक उन्हे
है । प्रयोग की --- भाषा के आधार पर, पश्चिम यूरोपीय भाषाओं
में 35-50 स्वनिम होते हैं अर्थात एकल रिकार्डिंग होती । ऊससे
बोधगम्यता कम होती है किंतु इसके लिए कम अपेक्षित स्मृति की
आवश्यकता होती है । इस दुविधा का समाधान द्वि-स्वनिकों के प्रयोग
में निहित है । संक्रमणों पर विखंडित करने की बजाए तथा उसे बरकरार
बनाए रखने के लिए स्वनिम को बीच में काटा जाता है इससे लगभग
400 (20 20) तत्व प्राप्त होते हैं तथा गुणवत्ता बढ़ जाती है
। इकाइयाँ जितनी बड़ी होंगी, तत्व भी उतने ही अधिक होंगे । किंतु
गुणवत्ता अपेक्षित स्मृति के साथ साथ बढ़ती जाती है । अन्य इकाइयों
में अर्ध अक्षरों, अक्षरों, शब्दों या उनके समुच्चयों जैसे -
शब्दों की धातुओं तथा रूप रचनात्मक प्रत्ययों का प्रयोग किया
जाता है । वाक् विश्लेषण तथा संश्लेषण के संग्रहालय में पिछले
150 वर्षों के कृत्रिम वाक् तंत्रों के चित्र सुरक्षित हैं जो
अवलोकन करने योग्य हैं ।
4.
भाषा वैज्ञानिक व्यवस्था संबंधी उपकरणों को कहाँ से
प्राप्त किया जा सकता है ? |
लिंग्विस्टिक डेटा कंसोर्टियम के द्वारा व्यापक रूप से भाषा
वैज्ञानिक व्याख्या संबंधी उपकरण इस वैब पृष्ठ पर दिए गए हैं
-
http:// www.1dc.upenn.edu/annotation
5.
भाषा प्रौद्योगिकी क्या है ? |
भाषा प्रौद्योगिकी
कंप्यूटर प्रणालियों के बारे में शोध करती है जो मौखिक तथा लिखित
मानवीय भाषाओं के बोधन तथा/या संश्लेषण का कार्य करती है । इस
क्षेत्र में वाक् संसाधन (पहचान, बोधन तथा संश्लेषण) सूचना निष्कर्षण,
हस्तलेख पहचान, मशीनी अनुवाद, पाठ संश्लेषण तथा भाषा प्रजनन
भी सम्मिलित हैं ।
भारतीय मानक ब्यूरो ने इस्की (सूचना विनिमय के लिए भारतीय मानक
कोड) नाम से एक मानक निर्मित किया है जिसे 7 या 8 बिट वर्णों का
प्रयोग करते हुए सभी कंप्यूटरों तथा संचार माध्यमों में प्रयोग
किया जा सकता है । 8 बिट परिवेश में निचले 128 वर्ण वही हैं जो
सूचना विनिमय के लिए IS10315:1982 (ISO 646 IRV)7-बिट वर्ण सैट
द्वारा परिभाषित हैं, जिन्हें एस्की वर्ण सैट के रूप में भी जाना
जाता है । ऊपर के 128 वर्ण सैट प्राचीन ब्राह्मी लिपि पर आधारित
भारतीय लिपियों की आवश्यकता की पूर्ति करते हैं ।
7 -बिट परिवेश में, नियंत्रक कोड एस.आई. को आस्की कोड के आह्वान
के लिए प्रयोग किया जा सकता है तथा नियंत्रक कोड एस.ओ. को एस्की
कोड सैट के पुनर्चयन के लिए प्रयोग किया जा सकता है । भारत में
15 मान्यता प्राप्त भाषाएँ हैं । फारसी-अरबी लिपियों के अतिरिक्त,
भारतीय भाषाओं के लिए प्रयुक्त अन्य 10 लिपियाँ प्राचीन ब्राह्मी
लिपि से उद्भूत हैं और इस्की कोड के अतिरिक्त वर्णों का प्रयोग
किया जा सकता है । इस्की कोड सारणी ब्राह्मी आधारित भारतीय लिपियों
में आवश्यक सभी वर्णों का एक सुपर सैट है । सुविधा के लिए, मान्यता
प्राप्त देवनागरी लिपि के वर्णों को मानक में प्रयुक्त किया गया
है । भारतीय मानक ब्यूरो द्वारा जारी मानक संख्या IS1319 :1991
सूचना विनिमय के लिए नवीनतम भारतीय मानक है । इसे भारतीय भाषाओं
में सूचना प्रौद्योगिकी उत्पादों के विकास के लिए व्यापक रूप से
प्रयोग किया जा रहा है ।
7.
'इस्फोक' वर्ण सैट क्या है ? |
लिपि वर्ण सैट यह प्रमुख वर्ण सैट
होता है जिसमें बहुधा प्रयुक्त अधिकांश भाषाएं वर्ण, चिह्न,
संख्याएँ आदि सम्मिलित होती हैं । कुछ अपवादों को छोड़कर चिह्नों
का यह सैट सभी 'इस्फोक' वर्ण सैट में समान होगा । मैचिंग अंग्रेजी
वर्ण सैट नीचे के आधे भाग में 'एस्की' वर्णों से युक्त मैचिंग
अंग्रेजी फोंट के लिए सहयोगी वर्ण सैट होते हैं तथा उपर के आधे
भाग में रोमन लिप्याँतरण के लिए बलाघात वर्ण होते हैं । अनुपूरक
वर्ण सैट अनुपूरक वर्ण सैट मूलभूत लिपि वर्णों के सेट का एक
विस्तृत सेट है जिसमें ऐसे संयुक्ताक्षर तथा चिह्न सम्मिलित
होते हैं जिनका प्रयोग सामान्यतया नहीं होता ।
सूचना विनिमय के मानक के रूप में
यूनिकोड की स्वीकृति संपूर्ण विश्व में बढ़ती जा रही है । सूचना
प्रौद्योगिकी क्षेत्र की अधिकांश कंपनियों ने इसके पक्ष में
अपने सहयोग की घोषणा कर दी है । भारतीय भाषाओं के लिए यूनिकोड
'आइस्की 91' का प्रयोग न करके 'इस्की 88' का प्रयोग करता है
जो अद्यतन सरकारी मानक है । यह आवश्यक समझा गया कि भारत सरकार,
भारतीय भाषाओं के लिए कोड में आवश्यक संशोधन के लिए यूनिकोड
कंसोर्टियम के समक्ष अपना पक्ष रखे । इस उद्देश्य से सूचना प्रौद्योगिकी
मंत्रालय यूनिकोड कंसोर्टियम का मताधिकार के साथ पूर्ण सदस्य
बन गया है ।
16 बिट (2 बाइट) यूनिकोड - यूनिकोड मानक कंप्यूटर संसाधन के
उद्देश्य से पाठ निरूपण के लिए एक सार्वदेशिक वर्ण कोडांतरण
मानक है । यूनिकोड मानक विश्व कीलिखित भाषाओं के लिए प्रयुक्त
सभी वर्णों के कोडांतरण की क्षमता रखता है । यूनिकोड मानक वर्ण
तथा उसके प्रयोग के संबंध में सूचना प्रदान करता है । बहुभाषी
पाठों से संबंध रखने वाले व्यापारिक लोगों, भाषाविदों, शोधकर्ताओं,
विज्ञानियों, गणितज्ञों तथा तकनीकज्ञों जैसे कंप्यूटर प्रयोक्ताओं
के लिए यूनिकोड मानक बहुत ही उपयोगी है । यूनिकोड 16 बिट कोडांतरण
का उपयोग करता है जिसमें 65000 वर्णों (65536) से भी अधिक के
लिए कोड बिंदु उपलब्ध कराता है । यूनिकोड मानक प्रत्येक वर्ण
को एक निश्चत संख्यात्मक मूल्य तथा नाम निर्धारित करता है ।
9.
यूनिकोड तथा इस्की कोड में मूलभूत अंतर क्या है ? |
यूनिकोड 16 बिट कोडिंग का प्रयोग
करते हुए 65000 से अधिक वर्णों (65536) के लिए कोड-बिंदु निश्चत
करता है । यूनिकोड मानक प्रत्येक वर्ण को एक विशिष्ट संख्यात्मक
मूल्य तथा नाम प्रदान करता है । यूनिकोड मानक विश्व की सभी लिखित
भाषाओं में प्रयुक्त सभी वर्णों की कोडिंग के लिए क्षमता प्रदान
करता है । 'इस्की' 8बिट कोड है जो 'एकी' के 7बिट कोड का विस्तृत
रूप है जिसके अनुसार ब्राह्मी लिपि से उद्भूत 10 भारतीय लिपियों
के लिए मूलभूत वर्ण सम्मिलित हैं । भारत में 15 मान्यता प्राप्त
भाषाएँ हैं । फारसी-अरबी लिपियों के अतिरिक्त, भारतीय भाषाओं
के लिए प्रयुक्त अन्य सभी 10 लिपियाँ प्राचीन ब्राह्मी लिपि
से विकसित हुई हैं तथा इसकी ध्वन्यात्मक संरचना में समानता पाई
जाती है जिससे समान वर्ण सैट संभव हो सकता । 'आज इस्की' कोड
सारणी ब्राह्मी आधारित भारतीय लिपियों के लिए आवश्यक एक प्रकार
का सुपर सैट है । सुविधा के लिए मान्यता प्राप्त देवनागरी लिपि
के वर्णों को मानक में प्रयोग किया गया है ।
10.
भारतीय भाषाओं के टंकण के लिए तीन विभिन्न कुंजीपटल
विन्यास कौन कौन से हैं ? |
तीन कुंजीपटल विन्यास हैं -
1. रोमनीकृत विन्यास :रोमनीकृत विन्यासों में, हिंदी पाठ के
टंकण में अंग्रेजी ध्वन्यात्मक मैपिंग का प्रयोग किया है । उदाहरण
के लिए 'राम' टंकित करने के लिए raamaa
(या rAmA)
का प्रयोग किया जा सकता है ।
2.टाइपराइटर विन्यास : यह विन्यास हिंदी टाइपराइटर विन्यास के
समान है तथा यह विन्यास हिंदी टंककों तथा हिंदी टाइपराइटर विन्यास
तथा कुंजीक्रम चार्ट के जानकार लोगों के लिए उपयोगी है ।
3. इलेक्ट्रॉनिकी विभाग ध्वन्यात्मक : यह विन्यास इलेक्ट्रॉनिकी
विभाग, भारत सरकार के द्वारा मानकीकृत किया गया है । इस विन्यास
का लाभ यह है कि यह सभी भारतीय भाषाओं के लिए समान है । उदाहरण
के लिए 'k' कुंजी
का प्रयोग सभी भारतीय भाषाओं में 'क' वर्ण के कुंजीयन के लिए
किया जाता है । कुंजीपटल विन्यास तथा कुंजीक्रम चार्ट का प्रयोग
सही कुंजी संयोजकों के लिए किया जाता है ।
11.
भारतीय भाषाओं में डेटा संसाधन की क्षमतावाले संगठनों/व्यक्तियों
के नाम ? |
डी.पी.चिरानिया भाषाएँ देवनागरी गुजराती, पंजाबी मराठी, बंगाली
असमिया, उड़िया तमिल, तेलुगु, कन्नड़ मलयालम, नेपाली संपर्क
: chiraniadp@yahoo.com
12.
भारतीय भाषा में दृश्य डेटा संसाधन ? |
'गणपति ' डेटाबेस पैकेज भाषाओं में है - हिंदी, गुजराती पंजाबी,
मराठी बंगाली, उड़िया, तमिल तेलुगु, कन्नड़ मलयालम, नेपाली संपर्क
: chiraniadp@yahoo.com
13.
इस्की प्लग-इन क्या है ? |
इस्की प्लग-इन का लक्ष्य किसी लिपि, फोंट, प्लेटफार्मिर् (परिवेश),
ब्राउजर को प्रयोग करने की स्वतंत्रता प्रदान करना तथा कार्यकुशलता
बलिदान या अतिरिक्त लागत खर्च किए बिना भारतीय भाषाओं में वैब
खोज संभव बनाना है । इसका वर्तमान रूप यह प्रदर्शित करता है
कि यदि भारतीय समुदाय का सहयोग मिल जाए तो हम लक्ष्य से दूर
नही हैं ।
14.
इस्की प्लग-इन कैसे काम करता है ? |
जब क्लाइंट के स्तर पर ब्राउजर सर्वर को आस्की फाइल (extension.isc)
का अनुरोध करता है, तब सर्वर 'माइम टाईप ' के साथ डेटा भेज देता
है (text/iscii)क्लांट
के स्तर पर ब्राउजर तथा इस 'इनपुट' धारा की व्यवस्था के लिए
इस्की प्लग-इन चलाता है । इस्की प्लग-इस आनेवाली इस्की धारा
को 'फोंट ग्लिफ क्रम' में परिवर्तन करता है ताकि प्रयोक्ता द्वारा
परिभाषित फोंट का प्रयोग किया जा सके । आकार के संबंध में, इस्की
प्लग-इन प्रयोक्ता द्वारा परिभाषित फोंट के नाम प्रछन्न क्षेत्र
को जोड़ देता है ता कि फार्म प्रस्तुत करने पर, सर्वर का पता
चलता जिसमें 'फील्ड वैल्यू' कोड की गई है ।
15.
यह कहाँ से प्राप्य है ? |
Best
Viewed in IE 5.5 & above
सूचना प्रौद्योगिकी विभाग द्वारा व्यवस्थित