टी डी आई एल
यूनिकोड मे प्रस्तावित परिवर्तन
वैदिक कोड समुच्चय
मशीन आधारित अनुवाद
की-बोर्ड अभिविन्यास
सूचना प्रौद्योगिकी शब्दावली
समाचार पत्रिका विश्वभारत
सम्मेलन कार्यशिविर सूची
सम्मेलन कार्यशिविर प्रस्तुतियाँ
प्रायः पूछे जाने वाले प्रश्न

 


उद्देश्य तथा कार्य क्षेत्र


मशीन पठनीय रूप में मूल पाठ-संग्रह के विकास की भाषाविदों तथा कंप्यूटर वैज्ञानिकों के लिए एक आधारभूत अनुसंधान सुविधा के रूप में परिकल्पना की गई थी । तदनुसार, इस परियोजना का प्राथमिक उद्देश्य संवैधानिक रूप से मान्यता प्राप्त सभी भारतीय भाषाओं में मशीन पठनीय पाठों का संग्रह एक जगह पर लाना था । सके साथ-साथ व्याकरणिक श्रेणियों की विश्वस्तरीय टैगिंग, शब्द गणना, आवृति गणना, वर्तनी परीक्षण आदि के लिए सॉफ्टवेयर साधनों के विकास की भी परिकल्पना की गई

पाठ संग्रह के अनुप्रयोग



भारतीय भाषाओं में मशीन पठनीय मूलपाठ संग्रह विभिन्न अनुप्रयोगों में उपयोगी हैं, यह कंप्यूटर वैज्ञानिकों तथा भाषाविदों को उनके शैक्षणिक, अनुसंधान एवं विकास कार्यों के लिए भारतीय भाषाओं के समसामयिक इस्तेमाल पर प्राधिकृत आंकड़े उपलब्ध कराता है । शब्द संग्रह भाषा शैली, कुछ शब्दों के स्तेमाल आदि के लिए प्रतिनिधि नमूना भी उपलब्ध कराता है । भाषाविद एवं कंप्यूटर विशेषज्ञ निम्नलिखित कार्यकलापों/क्षेत्रों के लिए पाठ-संग्रह कै स्तेमाल कर सकते हैं ।

भाषाविदों के लिए :

  • भाषा मानकीकरण, अभिकल्पनात्मक भाषा विज्ञान, कोश रचना तथा अनुवाद आदि के क्षेत्र में कार्य कर रहे हैं ।

  • भाषा विज्ञान विश्लेषण जैसे कि कुछ अक्षरों/शब्दों के इस्तेमाल की आवृति का भाषा वैज्ञानिक विश्लेषण,    रूप- विज्ञान विश्लेषण, वाक्यगत-अर्थगत विश्लेषण आदि ।

    कंप्यूटर वैज्ञानिकों के लिए :

  • मशीन अनुवाद प्रणालियों के विकास के लिए पाठसंग्रह रूप विज्ञान विश्लेषकों, पद विश्लेषकों, भाषा रचयिताओं    आदि के परीक्षण के लिए एक परीक्षण स्थल उपलब्ध कराता है ।

  • उपयोगिता सॉफ्टवेयर विकास जैसे कि इलेक्ट्रॉनिक शब्दकोश, वाक्य विश्लेषक/भाषा रचयिता, वर्तनी परीक्षक    आदि ।

    मशीन पठनीय पाठ संग्रह



           
    मशीन पठनीय पाठ संग्रह के लगभग तीस लाख शब्दों का हिन्दी, अंग्रेजी, तमिल, तेलुगु, कन्नड़,मलयालम, मराठी, गुजराती, उड़िया, बंगला, संस्कृत, उर्दू, असमिया, पंजाबी तथा कशमीरी में विकास किया गया है । व्याकरणिक श्रेणियों की शब्द स्तरीय टैगिंग के लिए सॉफ्टवेयर साधन शब्द गणना, आवृति गणना का भी विकास किया गया है ।


    नमूना पाठ-संग्रह



    नमूना पाठ-संग्रह देखने के लिए आपको देवनागरी फोंट लगाने की आवश्यकता होगी । फोंट डाउनलोड करने के लिए फोंट बटन का चयन करें तथा नमूना हिन्दी पाठ-संग्रह प्राप्त करने के लिए व्यू का चयन करें ।

    पाठ-संग्रह का अनुरक्षण तथा वितरण




    इन सभी भारतीय भाषाओं में विकसित पाठ-संग्रह का केन्द्रीय भारतीय भाषा संस्थान (सी आई आई एल), मानव संसाधन विकास मंत्रालय, शिक्षा विभाग, मानस गंगोत्री, मैसूर (कर्नाटक) में केन्द्रीकृत रूप से अनुरक्षाण किया जा रहा है । इस पाठ-संग्रह का शिक्षा तथा अनुसंधान के उद्देश्य से स्तेमाल किया जा सकता है ।

    अनुसंधान तथा विकास कार्य





    सिन्धी, मणिपुरी, नेपाली तथा कोंकणी के लिए पाठ-संग्रह तथा तेलुगु, तमिल, मराठी, बंगला तथा हिन्दी में शब्द संग्रह स्त्रोतों का विकास सी आई आई एएल, मैसूर में किया जा रहा है ।

    संबंधित संस्थानों/संगठनों द्वारा विकसित प्रौद्योगिकियाँ



    1. मशीन पठनीय पाठ-संग्रह :- केन्द्रीय भारतीय भाषा संस्थान (सी आई आई आई एल), मैसूर

    पाठ संग्रह शब्द संग्रह का बहुवचन है । किसी भाषा का शब्द-संग्रह पाठों के मूल शब्दों का विविध संग्रह है । अतः मशीन पठनीय शब्द संग्रह ऐसे पाठों का संग्रह है जिनका संचय किया जा सकता है, परिचालित किया जा सकता है तथा कभी भी आवश्यकता होने पर कम्प्यूटर की सहायता से पुनः प्राप्त किया जा सकता है । किसी शब्द-संग्रह के निर्माण में शामिल कदम ये हैं - मूल पाठ का चयन, आंकड़ा प्रविष्टि, आंकड़ा वैधीकरण तथा आंकड़ा प्रबंध तथा पुनःप्राप्ति के लिए साधनों का एक सेट । भारतीय भाषाओं की समृद्धि देखते हुए, पूर्ण तथा असीमित स्त्रोत के शब्द-संग्रह का विकास करना अव्यवहारिक होगा, इसलिए वर्ष 1991 में आरम्भतः पंद्रह संवैधानिक भाषाओं में 30 लाख शब्दों का लक्ष्य निर्धारित किया गया । पाठ-संग्रह व्यापकता की दृष्टि से विविध अनुप्रयोगों में इस्तेमाल किया जा सकता ै क्योंकि यह निम्नलिखित श्रेणी के प्रयोक्ताओं को समकालीन भारतीय भाषाओं के स्तेमाल पर प्राधिकृत आंकड़े उपलब्ध कराता है ।

  • मानकीकरण, शिक्षा-शास्त्र, कोश रचना, अनुवाद, भाषा विश्लेषण जैसे कि रूप विज्ञान विश्लेषण, वाक्यगत/अर्थगत    विश्लेषण, वाक्य रचना आदि के क्षेत्र में कार्य कर रहे भाषाविद ।

  • मशीन अनुवाद, उपयोगिता सॉफ्टवेयर विकास जैसे कि इलेक्ट्रॉनिक शब्द कोशों का निर्माण, अभिकल्पनात्मक    शब्द कोश, वाक्य विश्लेषण तथा रचना, वर्तनी परीक्षण आदि के क्षेत्र में कार्य कर रहे कम्प्यूटर वैज्ञानिक ।

  • अधिकांश आई एल पी अनुप्रयोगों, साधनों तथा समाधानों आदि के लिए एक परीक्षण-स्थल के रूप में ।

    पाठ संग्रह का स्त्रोत वर्ष 1981-90 के दौरान प्रकाशित, मुद्रित पुस्तकें, पत्रिकाएँ, मैगजीन, समाचार-पत्र तथा सरकारी दस्तावेज हैं । इसे छह मुख्य श्रेणियों में श्रेणीबद्ध किया गया है अर्थात सौंदर्य शास्त्र, सामाजाक विज्ञान, प्राकृतिक, शारीरिक एवं व्यवसायिक विज्ञान, वाणिज्य, सरकारी एवं मीडिया भाषाएं तथा अनुवादित सामग्री । शब्द स्तर की टैगिंग के लिए सॉफ्टवेयर साधक, शब्द गणना, वर्ण गणना, आवृति गणना का भी विकास किया गया है । टैग सेट सीमित क्रिया (एफ वी), असीमित क्रिया (एन वी), संज्ञा (एन एन), सर्वनाम (पी एन), विशेषण (ए जे), क्रिया विशेषण (ए वी), अव्यय (आई डी) से निर्मित होता है ।शब्द संग्रह मैनेजर तथा आई सी शब्दानुक्रमणिका सॉफ्टवेयर का भी विकास किया गया है ।प्रत्येक भारतीय भाषा में अर्थात हिन्दी, पंजाबी, अंग्रेजी, तेलुगु, मलयालम, तमिल, कन्नड़, संस्कृत, उर्दू, कशमीरी, मराठी, गुजराती, उड़िया, असमिया, लगभग 30 लाख शब्दों के 410 संग्रह का विभिन्न केन्द्रों में विकास किया गया है तथा सका अब सी. आई. आई. एल., मैसूर में केन्द्रीकृत कर अनुरक्षण किया जा रहा है । सका शैक्षणिक तथा अनुसंधान के उद्देश्य से वितरण किया जा रहा है । तीन अन्य भाषाएँ अर्थात कोंकणी, मणिपुरी तथा नेपाली बाद में संविधान की आठवीं अनुसूची में शामिल की गईं, अतः उन भाषाओं के लिए पाठ संग्रह का विकास भी शुरू किया गया ।

    कोंकणी भाषा का पाठ संग्रह असमिताई प्रतिष्ठान, गोवा में पूरा किया गया है । मशीन पठनीय रूप में कोंकणी पाठ संग्रह के 30 लाख शब्द तथा पाठ संग्रह की टैगिंग, शब्द गणना तथा आवृति गणना के लिए सॉफ्टवेयर का विकास किया गया है । पाठ-संग्रह सहित समुच्चयबोधक में इस्तेमाल के लिए वर्तनी परीक्षण का भी विकास किया गया है । सका भी सी आई आई एएल, मैसूर में अनुरक्षण किया जाएगा तथा से वितरण के लिए उपलब्ध कराया जाएगा ।

    नेपाली भाषा के पाठ संग्रह का कम्प्यूटर तथा संचार प्रौद्योगिकी केन्द्र गंगटोक में विकास किया जा रहा है । मशीन पठनीय रूप में 1.2 लाख शब्दों का नेपाली पाठ-संग्रह तथा पाठ संग्रह की टैगिंग, शब्द गणना तथा आवृति गणना के लिए सॉफ्टवेयर का विकास कर लिया गया है ।

    मणिपुरी भाषा के पाठ-संग्रह का कार्य मणिपुर विश्वविद्यालय, मणिपुर में शुरू किया गया है । 25 लाख शब्दों के लिए आंकड़ा संग्रह का कार्य पहले ही पूरा कर लिया गया है तथा आंकड़ा प्रविष्टि की जा रही है ।

    2. मशीन पठनीय रूप में - शब्द-संग्रह स्त्रोत केन्द्रीय भारतीय भाषा संस्थान, मैसूर

    किसी भाषा के शब्द-संग्रह स्त्रोत में शीर्ष शब्द, धातु परिवर्तक, धातु की किस्म, विस्तृत व्याकरणिक सूचना, वाक्यगत सूचना, सभी प्रकार के अर्थ, प्रत्येक अर्थ के लिए उद्धरण, प्रतिमान, व्युत्पन्न शब्द, व्युत्पन्न शब्दों के लिए अन्योन्य संदर्भ, संयुक्त शब्द, पर्यायवाची शब्द, विलोम शब्द, मुहावरे, विश्वकोश सूचना, व्युत्पत्ति मूलक सूचना, सांख्यिकी सूचना जैसी सूचना होती है । शब्द - संग्रह स्रोत डेटाबेस ऐसे भाषाविदों तथा कम्प्यूटर वैज्ञानिकों के लिए लाभप्रद होगा जो भाषिक अनुसंधान, मशीन अनुवाद, विशेषज्ञ प्रणालियों तथा कृत्रिम बुद्धि के क्षेत्र में कार्य कर रहे हैं । इसका स्तेमाल अधिगम कर्त्ताओं के शब्दकोश, ऐतिहासिक शब्दकोश, मशीन पठनीय व्याकरणिक शब्दकोश, लेक्ट्रॉनिक शब्दकोश, अभिकल्पनात्मक शब्द-संग्रह आदि को तैयार करने में किया जा सकता है । पाँच भारतीय भाषाओं अर्थात बंगला, हिन्दी, मराठी, तमिल तथा तेलुगु में शब्द-संग्रह स्रोत विकास के उन्नत चरण में है । शब्द-संग्रह स्रोत अवधारणा के आधार पर शब्द-संग्रह सूचना, और अधिक व्याकरणिक सूचना, शब्द-संग्रह विषयों के स्तेमाल के लिए वाक्यगत तथा अर्थगत अनुकूलन, पर्यायवाची शब्द समुह तथा उनका स्तेमाल, संयुक्त रूप और मुहावरे उपलब्ध कराते हैं । जिन श्रेणियों के लिए शब्द संग्रह स्रोतों का विकास किया जा रहा है वे स प्रकार हैं - क्रिया, संज्ञा, विशेषण, क्रिया विशेषण तथा क्रिया शब्द । विकास के चरण ये हैं :-

  • शीर्ष शब्दों का संग्रह तथा चयन

  • व्याकरणिक श्रेणियों का नामकरण

  • वाक्यगत सूचना

  • संरचना डिजाइन करना तथा डेटाबेस तैयार करना

  • विभिन्न उद्देश्यों के लिए पुनर्प्राप्ति प्रणाली

    इनका इस्तेमाल शब्द संग्रह अंतरण चरण के दौरान मशीन अनुवाद प्रणालियों के क्षेत्र में अनुसंधान के लिए, विश्लेषण चरण में स्त्रोत भाषा के शब्द-संग्रह स्त्रोत के लिए तथा संश्लेषण चरण में लक्ष्य भाषा के शब्द-संग्रह स्त्रोत आदि के लिए किया जा सकता है ।

    3. हिन्दी में कम्प्यूटर पाठ्य सामग्री - वनस्थली विद्यापीठ, वनस्थली

    मशीन पठनीय रूप में डी ओ इ ए सी सी 'ओ' लेवल पाठ्य सामग्री का हिन्दी में विकास कर लिया गया है । डी ओ ई ए सी सी वित्तीय रूप से भी परियोजना में भाग ले रहा है । पूरा होने पर इस सामग्री का पुस्तक के रूप में प्रकाशन किया जाएगा तथा और अधिक प्रयास से से सी डी रॉम के रूप में प्रकाशित किया जा सकता है तथा से वेब पर भी उपलब्ध कराया जा सकता है । पाठ्यक्रम में शामिल चार मॉड्यूल हैं - सूचना प्रौद्योगिकी, कोबोल, पीसी सॉफ्टवेयर, 'सी' बिजनेस प्रणाली में प्रोग्रामन । विशेषज्ञों द्वारा पाण्डुलिपियों की समीक्षा की गई/क़ग्र्ग़्च्र्ऊ है तथा उनकी सलाह पर संशोधन किए जा रहे हैं ।

    Best Viewed in IE 5.5 & above
    सूचना प्रौद्योगिकी विभाग द्वारा व्यवस्थित