|
|
| उद्देश्य
तथा कार्य क्षेत्र |
मशीन
पठनीय रूप में मूल पाठ-संग्रह के विकास की भाषाविदों तथा कंप्यूटर
वैज्ञानिकों के लिए एक आधारभूत अनुसंधान सुविधा के रूप में परिकल्पना
की गई थी । तदनुसार, इस परियोजना का प्राथमिक उद्देश्य संवैधानिक
रूप से मान्यता प्राप्त सभी भारतीय भाषाओं में मशीन पठनीय पाठों
का संग्रह एक जगह पर लाना था । सके साथ-साथ व्याकरणिक श्रेणियों
की विश्वस्तरीय टैगिंग, शब्द गणना, आवृति गणना, वर्तनी परीक्षण
आदि के लिए सॉफ्टवेयर साधनों के विकास की भी परिकल्पना की गई ।
भारतीय भाषाओं
में मशीन पठनीय मूलपाठ संग्रह विभिन्न अनुप्रयोगों में उपयोगी
हैं, यह कंप्यूटर वैज्ञानिकों
तथा भाषाविदों को उनके शैक्षणिक, अनुसंधान एवं विकास कार्यों
के लिए भारतीय भाषाओं के समसामयिक इस्तेमाल पर प्राधिकृत
आंकड़े उपलब्ध कराता है । शब्द संग्रह भाषा शैली, कुछ शब्दों
के स्तेमाल
आदि के लिए प्रतिनिधि नमूना भी उपलब्ध कराता है । भाषाविद एवं
कंप्यूटर विशेषज्ञ निम्नलिखित कार्यकलापों/क्षेत्रों के लिए पाठ-संग्रह
कै स्तेमाल कर सकते हैं ।
भाषाविदों के लिए :
भाषा मानकीकरण, अभिकल्पनात्मक भाषा विज्ञान, कोश रचना तथा अनुवाद
आदि के क्षेत्र में कार्य कर रहे हैं ।
भाषा विज्ञान विश्लेषण जैसे कि कुछ अक्षरों/शब्दों के इस्तेमाल
की आवृति का भाषा वैज्ञानिक विश्लेषण, रूप- विज्ञान विश्लेषण,
वाक्यगत-अर्थगत विश्लेषण आदि ।
कंप्यूटर वैज्ञानिकों के लिए :
मशीन अनुवाद प्रणालियों के विकास के लिए पाठसंग्रह रूप विज्ञान
विश्लेषकों, पद विश्लेषकों, भाषा रचयिताओं आदि के परीक्षण के
लिए एक परीक्षण स्थल उपलब्ध कराता है ।
उपयोगिता सॉफ्टवेयर विकास जैसे कि इलेक्ट्रॉनिक शब्दकोश, वाक्य
विश्लेषक/भाषा रचयिता, वर्तनी परीक्षक आदि ।
मशीन
पठनीय पाठ संग्रह के लगभग तीस लाख शब्दों का हिन्दी, अंग्रेजी,
तमिल, तेलुगु, कन्नड़,मलयालम, मराठी, गुजराती, उड़िया, बंगला,
संस्कृत, उर्दू, असमिया, पंजाबी तथा कशमीरी में विकास किया गया
है । व्याकरणिक श्रेणियों की शब्द स्तरीय टैगिंग के लिए सॉफ्टवेयर
साधन शब्द गणना, आवृति गणना का भी विकास किया गया है ।
नमूना पाठ-संग्रह देखने के लिए आपको देवनागरी फोंट लगाने की आवश्यकता
होगी । फोंट डाउनलोड करने के लिए फोंट बटन का चयन करें तथा नमूना हिन्दी पाठ-संग्रह
प्राप्त करने के लिए व्यू का चयन करें ।
| पाठ-संग्रह
का अनुरक्षण तथा वितरण |
इन
सभी भारतीय भाषाओं में विकसित पाठ-संग्रह का केन्द्रीय भारतीय
भाषा संस्थान (सी आई आई एल), मानव संसाधन विकास मंत्रालय, शिक्षा
विभाग, मानस गंगोत्री, मैसूर (कर्नाटक) में केन्द्रीकृत रूप
से अनुरक्षाण किया जा रहा है । इस पाठ-संग्रह का शिक्षा तथा
अनुसंधान के उद्देश्य से स्तेमाल किया जा सकता है ।
सिन्धी, मणिपुरी, नेपाली तथा कोंकणी के लिए पाठ-संग्रह तथा
तेलुगु, तमिल, मराठी, बंगला तथा हिन्दी में शब्द संग्रह स्त्रोतों का विकास सी
आई आई एएल, मैसूर में किया जा रहा है ।
| संबंधित
संस्थानों/संगठनों द्वारा विकसित प्रौद्योगिकियाँ |
1. मशीन पठनीय पाठ-संग्रह :- केन्द्रीय भारतीय भाषा संस्थान (सी आई आई आई एल),
मैसूर
पाठ संग्रह शब्द संग्रह का बहुवचन है । किसी भाषा का शब्द-संग्रह पाठों
के मूल शब्दों का विविध संग्रह है । अतः मशीन पठनीय शब्द संग्रह ऐसे पाठों
का संग्रह है जिनका संचय किया जा सकता है, परिचालित किया जा सकता
है तथा कभी भी आवश्यकता होने पर कम्प्यूटर की सहायता से पुनः प्राप्त किया
जा सकता
है । किसी शब्द-संग्रह के निर्माण में शामिल कदम ये हैं - मूल पाठ का चयन,
आंकड़ा प्रविष्टि, आंकड़ा वैधीकरण तथा आंकड़ा प्रबंध तथा पुनःप्राप्ति के
लिए साधनों का एक सेट । भारतीय भाषाओं की समृद्धि देखते हुए, पूर्ण तथा असीमित
स्त्रोत के शब्द-संग्रह का विकास करना अव्यवहारिक होगा, इसलिए वर्ष 1991 में
आरम्भतः पंद्रह संवैधानिक भाषाओं में 30 लाख शब्दों का लक्ष्य निर्धारित किया
गया । पाठ-संग्रह व्यापकता की दृष्टि से विविध अनुप्रयोगों में इस्तेमाल किया
जा सकता ै क्योंकि यह निम्नलिखित श्रेणी के प्रयोक्ताओं को समकालीन भारतीय
भाषाओं के स्तेमाल पर प्राधिकृत आंकड़े उपलब्ध कराता है ।
मानकीकरण, शिक्षा-शास्त्र, कोश रचना, अनुवाद, भाषा विश्लेषण जैसे कि
रूप विज्ञान विश्लेषण, वाक्यगत/अर्थगत विश्लेषण, वाक्य रचना आदि के क्षेत्र
में कार्य कर रहे भाषाविद ।
मशीन अनुवाद, उपयोगिता सॉफ्टवेयर विकास जैसे कि इलेक्ट्रॉनिक शब्द
कोशों का निर्माण, अभिकल्पनात्मक शब्द कोश, वाक्य विश्लेषण तथा रचना, वर्तनी
परीक्षण आदि के क्षेत्र में कार्य कर रहे कम्प्यूटर वैज्ञानिक ।
अधिकांश आई एल पी अनुप्रयोगों, साधनों तथा समाधानों आदि के लिए एक परीक्षण-स्थल
के रूप में ।
पाठ संग्रह का स्त्रोत वर्ष 1981-90 के दौरान प्रकाशित, मुद्रित पुस्तकें,
पत्रिकाएँ, मैगजीन, समाचार-पत्र तथा सरकारी दस्तावेज हैं । इसे छह मुख्य श्रेणियों
में श्रेणीबद्ध किया गया है अर्थात सौंदर्य शास्त्र, सामाजाक विज्ञान, प्राकृतिक,
शारीरिक एवं व्यवसायिक विज्ञान, वाणिज्य, सरकारी एवं मीडिया भाषाएं तथा अनुवादित
सामग्री । शब्द स्तर की टैगिंग के लिए सॉफ्टवेयर साधक, शब्द गणना, वर्ण गणना,
आवृति गणना का भी विकास किया गया है । टैग सेट सीमित क्रिया (एफ वी), असीमित
क्रिया (एन वी), संज्ञा (एन एन), सर्वनाम (पी एन), विशेषण (ए जे), क्रिया
विशेषण (ए वी), अव्यय (आई डी) से निर्मित होता है ।शब्द संग्रह मैनेजर तथा
आई सी शब्दानुक्रमणिका सॉफ्टवेयर का भी विकास किया गया है ।प्रत्येक भारतीय
भाषा में अर्थात हिन्दी, पंजाबी, अंग्रेजी, तेलुगु, मलयालम, तमिल, कन्नड़,
संस्कृत, उर्दू, कशमीरी, मराठी, गुजराती, उड़िया, असमिया, लगभग 30 लाख शब्दों
के 410 संग्रह का विभिन्न केन्द्रों में विकास किया गया है तथा सका अब सी.
आई. आई. एल., मैसूर में केन्द्रीकृत कर अनुरक्षण किया जा रहा है । सका शैक्षणिक
तथा अनुसंधान के उद्देश्य से वितरण किया जा रहा है । तीन अन्य भाषाएँ अर्थात कोंकणी, मणिपुरी तथा
नेपाली बाद में संविधान की आठवीं अनुसूची में शामिल की गईं, अतः उन भाषाओं
के लिए पाठ संग्रह का विकास भी शुरू किया
गया ।
कोंकणी भाषा का पाठ संग्रह असमिताई प्रतिष्ठान, गोवा में पूरा किया गया है
। मशीन पठनीय रूप में कोंकणी पाठ संग्रह के 30 लाख शब्द तथा पाठ संग्रह की
टैगिंग, शब्द गणना तथा आवृति गणना के लिए सॉफ्टवेयर का विकास किया गया है
। पाठ-संग्रह सहित समुच्चयबोधक में इस्तेमाल के लिए वर्तनी परीक्षण का भी
विकास किया गया है । सका भी सी आई आई एएल, मैसूर में अनुरक्षण किया जाएगा
तथा से
वितरण के लिए उपलब्ध कराया जाएगा ।
नेपाली भाषा के पाठ संग्रह का कम्प्यूटर तथा संचार प्रौद्योगिकी केन्द्र गंगटोक
में विकास किया जा रहा है । मशीन पठनीय रूप में 1.2 लाख शब्दों का नेपाली
पाठ-संग्रह तथा पाठ संग्रह की टैगिंग, शब्द गणना तथा आवृति गणना के लिए सॉफ्टवेयर
का विकास कर लिया गया है ।
मणिपुरी भाषा के पाठ-संग्रह का कार्य मणिपुर विश्वविद्यालय, मणिपुर
में शुरू किया गया है । 25 लाख शब्दों के लिए आंकड़ा संग्रह का कार्य पहले
ही पूरा कर लिया गया है तथा आंकड़ा प्रविष्टि की जा रही है ।
2. मशीन पठनीय रूप में - शब्द-संग्रह स्त्रोत केन्द्रीय भारतीय भाषा
संस्थान, मैसूर
किसी भाषा के शब्द-संग्रह स्त्रोत में शीर्ष शब्द, धातु परिवर्तक, धातु की
किस्म, विस्तृत व्याकरणिक सूचना, वाक्यगत सूचना, सभी प्रकार के अर्थ, प्रत्येक
अर्थ के लिए उद्धरण, प्रतिमान, व्युत्पन्न शब्द, व्युत्पन्न शब्दों के लिए
अन्योन्य संदर्भ, संयुक्त शब्द, पर्यायवाची शब्द, विलोम शब्द, मुहावरे, विश्वकोश
सूचना, व्युत्पत्ति मूलक सूचना, सांख्यिकी सूचना जैसी सूचना होती है । शब्द
- संग्रह स्रोत डेटाबेस ऐसे भाषाविदों तथा कम्प्यूटर वैज्ञानिकों के
लिए लाभप्रद होगा जो भाषिक अनुसंधान, मशीन अनुवाद, विशेषज्ञ प्रणालियों तथा
कृत्रिम
बुद्धि के क्षेत्र में कार्य कर रहे हैं । इसका स्तेमाल अधिगम कर्त्ताओं के
शब्दकोश, ऐतिहासिक शब्दकोश, मशीन पठनीय व्याकरणिक शब्दकोश, लेक्ट्रॉनिक शब्दकोश,
अभिकल्पनात्मक शब्द-संग्रह आदि को तैयार करने में किया जा सकता है । पाँच
भारतीय भाषाओं अर्थात बंगला, हिन्दी, मराठी, तमिल तथा तेलुगु में शब्द-संग्रह
स्रोत
विकास के उन्नत चरण में है । शब्द-संग्रह स्रोत अवधारणा के आधार पर शब्द-संग्रह
सूचना, और अधिक व्याकरणिक सूचना, शब्द-संग्रह विषयों के स्तेमाल
के लिए वाक्यगत तथा अर्थगत अनुकूलन, पर्यायवाची शब्द समुह तथा उनका
स्तेमाल, संयुक्त रूप और मुहावरे उपलब्ध कराते हैं । जिन श्रेणियों के लिए
शब्द संग्रह स्रोतों का विकास किया जा रहा है वे स प्रकार हैं - क्रिया,
संज्ञा, विशेषण, क्रिया विशेषण तथा क्रिया शब्द । विकास के चरण ये हैं :-
शीर्ष शब्दों का संग्रह तथा चयन
व्याकरणिक श्रेणियों का नामकरण
वाक्यगत सूचना
संरचना डिजाइन करना तथा डेटाबेस तैयार करना
विभिन्न उद्देश्यों के लिए पुनर्प्राप्ति प्रणाली
इनका इस्तेमाल शब्द संग्रह अंतरण चरण के दौरान मशीन अनुवाद प्रणालियों
के क्षेत्र में अनुसंधान के लिए, विश्लेषण चरण में स्त्रोत भाषा के शब्द-संग्रह
स्त्रोत के लिए तथा संश्लेषण चरण में लक्ष्य भाषा के शब्द-संग्रह स्त्रोत
आदि के लिए किया जा सकता है ।
3. हिन्दी में कम्प्यूटर पाठ्य सामग्री - वनस्थली विद्यापीठ, वनस्थली
मशीन पठनीय रूप में डी ओ इ ए सी सी 'ओ' लेवल पाठ्य सामग्री का हिन्दी में
विकास कर लिया गया है । डी ओ ई ए सी सी वित्तीय रूप से भी परियोजना में भाग
ले रहा है । पूरा होने पर इस सामग्री का पुस्तक के रूप में प्रकाशन किया जाएगा
तथा और अधिक प्रयास से से सी डी रॉम के रूप में प्रकाशित किया जा सकता है
तथा से वेब पर भी उपलब्ध कराया जा सकता है । पाठ्यक्रम में शामिल चार मॉड्यूल
हैं - सूचना प्रौद्योगिकी, कोबोल, पीसी सॉफ्टवेयर, 'सी' बिजनेस प्रणाली में
प्रोग्रामन । विशेषज्ञों द्वारा पाण्डुलिपियों की समीक्षा की गई/क़ग्र्ग़्च्र्ऊ
है तथा उनकी सलाह पर संशोधन किए जा रहे हैं ।
Best
Viewed in IE 5.5 & above
सूचना प्रौद्योगिकी विभाग द्वारा व्यवस्थित
|