टी डी आई एल
यूनिकोड मे प्रस्तावित परिवर्तन
वैदिक कोड समुच्चय
मशीन आधारित अनुवाद
की-बोर्ड अभिविन्यास
सूचना प्रौद्योगिकी शब्दावली
समाचार पत्रिका विश्वभारत
सम्मेलन कार्यशिविर सूची
सम्मेलन कार्यशिविर प्रस्तुतियाँ
प्रायः पूछे जाने वाले प्रश्न

 


लक्ष्य और कार्यक्षेत्र


यह एक महत्वपूर्ण अनुप्रयोग है और भारतीय बाजार में इसकी असीम संभावनाएँ हैं ।देश में अठारह भाषाएँ हैं, एक भाषा से दूसरी भाषा में अनुवाद के लिए काफी संख्या में भाषा-युग्म बनते हैं । भाषा युग्मों में अत्यधिक सादृश्यता तथा सरकारी पत्राचार के क्षेत्र में अंग्रेजी से हिन्दी अनुवाद की आवश्यकता को दृष्टि में रखते हुए, इस भाषा युग्म की मशीनी अनुवाद के कारण प्राथमिकता-क्षेत्र के तौर पर पहचान की गई है। भारतीय भाषाओं में समानता होने के कारण, इनमें परस्पर अनुवाद अंग्रेजी से हिन्दी अनुवाद की अपेक्षा सरल है । इसे ध्यान में रखते हुए, मशीनी अनुवाद के दो क्षेत्र - भारतीय भाषाओं में परस्पर मशीनी अनुवाद तथा अंग्रेजी से हिन्दी मशीनी अनुवाद को शोध के संभावित क्षेत्रों के रूप में पहचाना गया । इस क्षेत्र की जटिलता के कारण, केवल सीमित प्रयोग क्षेत्रों में प्रयोग क्षेत्र-विशिष्ट तंत्रों को विकसित करना संभव है ।

पूर्ण रूप से स्वचालित (मशीनी) सामान्य उद्देश्य वाला तथा उच्च गुणवत्ता युक्त मशीनी अनुवाद तंत्र तैयार करना अत्यंत कठिन है । यह कठिनाई निम्नलिखित कारणों से है। :-

  • किसी भी प्राकृतिक भाषा के पाठ में, केवल सूचना का कुछ भाग ही स्पष्ट रूप से अभिव्यक्त होता है । शेष भाग    की पूर्ति मानव मन करता है और वैश्विक ज्ञान की संदर्भगत समझ की सूचना देता है ।

  • विभिन्न प्रकृत भाषाएँ सूचना संप्रेषण के प्रकार तथा मात्रा के लिए विभिन्न परिपाटियाँ अपनाती हैं ।

    मशीनी अनुवाद के लिए कंप्यूटर का प्रयोग किया जा सकता है, यद्यपि यह कथन विरोधाभास सा लगता है । इसका समाधान इसमें निहित है कि पाठ के विश्लेषण में भाषा आधारित विश्लेषण को ज्ञान तथा अनुमान आधारित विश्लेषण से अलग किया जाए । पहले प्रकार का विश्लेषण मशीन के लिए और दूसरे प्रकार का विश्लेषण मानव पाठक के लिए छोड़ दिया जाए । इस प्रकार जो पक्ष मानव के लिए कठिन है, उसे मशीन करे तथा जो मशीन के लिए कठिन है वह मानव करे । इस प्रकार इसका उद्देश्य मानव के प्रयास को कम करके उत्पादकता को बढाना है । इस प्रकार इस अनुवाद को मशीन साधित अनुवाद कहलाता है, मशीनी अनुवाद नहीं ।

    मशीनी अनुवाद सहायक तंत्र



    अन्तराष्ट्रीय दृष्टि से यह सर्व स्वीकार्य तथ्य है कि सामान्य उद्देश्य के मशीनी अनुवाद तंत्र विकसित करना असंभव है किन्तु प्रयोग क्षेत्र विशिष्ट मशीनी अनुवाद सहायक तंत्र के विकास में पर्याप्त मात्रा में सफलता की जा सकती है, जिससे अनुवादकों को अपना कार्य अधिक तेजी से करने में सहायता मिलेगी । भारतीय भाषाओं की प्रकृति ध्वन्यात्मक है और वे एक दूसरे के काफी निकट हैं जबकि भाषा वैज्ञानिक आधार पर अंग्रेजी इनसे अलग स्थित है ।इस प्रकार विकास की दृष्टि से इन्हें दो मुख्य वर्गों में वर्गीकृत किया गया है :

    1. भारतीय भाषाओं में परस्पर मशीन साधित अनुवाद:

    प्रारंभ में आई.आई.टी. कानपुर में कन्नड़ से हिन्दी भाषा युग्म के लिए प्रदर्शन तंत्र का विकास हुआ और इस प्रौद्योगिकी का विभिन्न यंत्रों पर प्रदर्शन किया गया और इसे अनुसारक नाम दिया गया । अब इस प्रौद्योगिकी का विस्तार तेलुगु, मराठी, बंगाली तथा पंजाबी से हिन्दी में अनुवाद के लिए किया गया है और यह ई-मेल के माध्यम से परीक्षण के लिए उपलब्ध है । यह कार्य आई.आई.टी कानपुर तथा हैदराबाद विश्वविद्यालय, हैदराबाद के द्वारा संयुक्त रूप से किया गया है ।

    2. मशीन साधित अनुवाद तंत्र : अंग्रेजी से हिन्दी:

    विशेष प्रयोगक्षेत्र जिनकी पहचान की गई है, वे हैं - अंग्रेजी समाचार कथाएँ, जन स्वास्थ्य अभियानों के लिए प्रयुक्त मानक दस्तावेज ।

    1. अंग्रेजी समाचार कथाओं के हिन्दी में अनुवाद के लिए मशीन साधित अनुवाद तंत्र :


    अधिकांश अन्तराष्ट्रीय तथा राष्ट्रीय समाचार सेवा एजेंसियाँ समाचार सूचनाएँ अंग्रेजी में भेजती हैं : समाचारों पत्रों को तुरंत अनुवाद करने की आवश्यकता रहती है । इस परियोजना का उद्देश्य अंग्रेजी समाचारों का हिन्दी में मशीन साधित अनुवाद प्रस्तुत करना है । इसमें समाचार सेवा एजेंसियों से समाचारों को प्राप्त कर, उनका यथोचित मानवीय हस्तक्षेप से सरलीकरण एवं अनुवाद किया जाएगा । इस यंत्र के उत्पाद को मानव द्वारा पश्च संशोधित किया जाएगा । अंग्रेजी समाचारों का हिन्दी में अनुवाद का प्रदर्शनीय तंत्र विकसित कर लिया गया है ।.

    2. अंग्रेजी से हिन्दी मानक दस्तावेजों के अनुवाद के लिए मशीन साधित अनुवाद तंत्र :

    जन स्वास्थ्य अभियानों में प्रयुक्त दस्तावेजों/प्रतिवेदनों की भाषा अधिकांशतः अंग्रेजी होती है । इन दस्तावेजों के हिन्दी अनुवाद से इन अभियानों की उद्देश्य पूर्ति में पर्याप्त सहायता मिलेगी।इस तंत्र में आई.आईर्.टी कानपुर में विकसित 'आंग्लभारती ' पद्धति का प्रयोग किया गया है । जन स्वास्थ्य अभियान संबंधी दस्तावेजों के अनुवाद के लिए प्रदर्शन तंत्र विकसित कर लिया गया है । इसे ध्यान में रखते हुए दो परियोजनाएँ - एक अंग्रेजी हिन्दी तथा दूसरी अन्य भारतीय भाषाओं से हिन्दी में विशिष्ट प्रयोग क्षेत्र में शुरू की गई है ।

    अनुसंधान तथा विकास गतिविधियाँ




    अनुसारक प्रौद्योगिकी का उद्देश्य हिन्दी जानने वाले व्यक्ति को अन्य भारतीय भाषाओं तक पहुँच सुलभ कराता है । यह विशेषरूप से महत्वपूर्ण है कि भारतीय भाषाओं की सामग्री डिजिटल रूप में वैब पर उपलब्ध हो । इस प्रौद्योगिकी का विकास आई.आई.टी. कानपुर तथा हैदराबाद विश्वविद्यालय, हैदराबाद के द्वारा संयुक्त रूप से किया जा रहा है । आंग्लभारती प्रौद्योगिकी का उद्देश्य विशिष्ट प्रयोग क्षेत्रों के लिए अंग्रेजी से हिन्दी में मशीन साधित अनुवाद उपलब्ध कराता है । इसे आई.आई.टी. कानपुर द्वारा विकसित किया गया है और पीसी प्लेटफॉर्म के लिए भारतीय इलेक्ट्रॉनिक अनुसंधान एवं विकास केन्द्र, नोएडा द्वारा अनुकूलित्ा किया गया है । अग्रेजी समाचार से संबंधित कथाओं के हिन्दी अनुवाद के लिए एम.ए.टी. (मशीन साधित अनुवाद तंत्र) का विकास तथा इसे वैब पर प्रस्तुत करना एन.सी.एस.टी. मुंबई द्वारा किया जा रहा है ।

    विभिन्न संस्थानों/संगठनों के द्वारा विकसित प्रौद्योगिकी




    1. आंग्लभारती मशीन अनुवाद तंत्र (अंग्रेजी-हिन्दी) ई.आर.एण्ड डी.सी.आई. नोएडा


    'सन' वर्कस्टेशन पर आई.आईर्.टी.कानपुर में विकसित आंग्लभारती पद्धति पैटर्न आधारित संदर्भ मुक्त व्याकरण जैसी संरचना के नियम आधारित तंत्र पर आधारित है जो भारतीय भाषाओं के वर्ग में 'छद्म लक्ष्य' को जेनेरेट करइंटर लिंग्वा' पद्धति की तरह संरचना समानता का लाभ उठा सकती है । यह तंत्र उदाहरण आधारित पद्धति तथा नियम आधारित मानव पश्च संपादन दोनों पद्धतियों के संयोजन का प्रयास करता है । इसमें आधुनिक यांत्रिक बुद्धिमत्ता की तकनीक को संस्कृत व्याकरण पर आधारित शास्त्रीय पाणिनीय सिद्धांत के साथ मिलाकर कार्य किया गया है । कार्पस विश्लेषण के आधार पर प्राप्त नियमों के समुच्चय का प्रयोग संभाव्य घटकों की पहचान के लिए किया गया है जिसके आधार पर 'छद्म-लक्ष्य' के मूवमेंट नियमों का निर्माण किया जा सकता है । स्त्रोत भाषा में द्वि-अर्थता की समस्या के समाधान के लिए कई आर्थी 'टैग' प्रयोग किए गए हैं ।जहाँ द्वि-अर्थता का समाधान नहीं हो पाता उसके संबंध में विकल्पी अर्थों को छद्म-लक्ष्य भाषा में रखा जाता है ।प्रत्येक लक्ष्य भाषा का 'टैक्स्ट जेनेरेटर मोड्यूल' 'छद्म-लक्ष्य' भाषा को लक्ष्य भाषा में परिवर्तित करता है । इन रूपांतरणों से दोषपूर्ण वाक्य प्राप्त होते हैं ।इनको ठीक करने के लिए 'संशोधक' का प्रयोग किया जाता है तथा मानव पश्च संपादन के द्वारा अंतिम सुधार किया जाता है ।

    इस तंत्र के मुख्य घटक इस प्रकार हैं : ।

  • नियम आधार

  • अर्थभेदक

  • लक्ष्य भाषा जेनेरेटर

  • बहुभाषी कोश

  • नियम आधारित अधिग्राहक

    आंग्लभारती पद्धति को लिनिक्स परिवेश के अन्तर्गत पीसी प्लेटफॉर्म पर ई.आर.एण्ड डी.सी.आई., नोएडा के द्वारा प्रस्तुत किया गया है तथा जन स्वास्थ्य अभियान संबंधी दस्तावेजों के अंग्रेजी से हिन्दी में मशीन अनुवाद सहायक तंत्र के विकास में प्रयोग किया गया है ।.

    2. अंग्रेजी समाचार कथाओं का हिन्दी में वैब आधारित अनुवाद सेवा : एन.सी.एस.टी., मुंबई

    समाचार कथाओं का प्रयोगक्षेत्र अत्यन्त संदर्भ संवेदी होता है अतः प्रत्यक्ष अनुवाद, अंतरण पद्धतिइंटरलिंग्वा आदि मानक अनुवाद पद्धतियाँ पर्याप्त नहीं हैं । अतः 'वाक्य' नामक एक संकर पद्धति का विकास एन.सी.एस.टी., मुंबई द्वारा किया गया है । पूर्व-प्रोसेसर के प्रयोग से निर्देशित पाठ को सरल बनाया जाता है । संसाधित पाठ का विश्लेषण किया जाता है तथा शब्द भेदों की टैगिंग की जाती है । सरलीकरण नियमों के आधार पर लंबे वाक्यों को सरल किया जाता है । इसके बाद पाठ कोइनफा 'टाइजेशन' नियमों के आधार पर कारक फ्रेम जैसी संरचना में परिवर्तित किया जाता है । कारक फ्रेम संरचनाओं तथा द्विभाषी कोश्ा की सहायता से 'पैरामीटराइज्ड टैम्पलेट' के द्वारा लक्ष्य भाषा का जेनेरेशन किया जाता है । स तंत्र के मुख्य घटक ये हैं :

  • प्रकरण पहचान

  • शब्द-वर्ग टैगर

  • स्वतः (ह्यूरिस्टिक) सरलीकरण

  • ज्ञान आधारित पदबंध पहचान

  • पार्सर

  • कोश

  • इनफाटाइजेशन

  • अनुवाद जेनेरेशन

    इस नमूना 'वाक्य तंत्र' का अब विस्तार किया जा रहा है तथा समाचार एजेंसियों को वेब अनुवाद सेवा उपलब्ध कराने के लिए इसका अनुकूलन किया जा रहा है ।

    3. कार्यालयी प्रयोग के लिए 'मंत्रा' मशीनी अनुवाद तंत्र - सी-डैक, पुणे

    भारत सरकार के विभिन्न मंत्रालयों के नियुक्ति पत्रों के विशिष्ट प्रयोग क्षेत्र के लिए इस परियोजना का वित्तपोषण राजभाषा विभाग द्वारा किया गया । यह तंत्र पेंसेलवानिया विश्वविद्यालय, सं.रा.अमेरिका में 1983 में श्री अरविन्द जोशी द्वारा विकसित 'ट्री एडज्वाइनिंग ग्रामर ' का प्रयोग करता है ।टैग 'वृक्ष पुनर्लेखन तंत्र' है ।यह तंत्र टैग आधारित पार्सर 'व्याकर्ता' का प्रयोग करता है।यह पार्सर अपनी परिभाषाओं के लए उपभाषा की संकल्पना का उपयोग करता है जो अंग्रेजी, हिन्दी, गुजराती तथा संस्कृत में '250 वृक्ष परिवारों' के विश्लेषण के लिए सक्षम है ।इसके बाद स्त्रोत तथा लक्ष्य भाषा, दोनों की कोशीय संरचना वृक्ष वाले 'अंतरण कोश' का प्रयोग निर्देशित वाक्य के सामान लक्ष्य भाषा में 'टैग सिद्धांत' की प्राप्ति में सहायक होता है ।
    इस तंत्र के प्रमुख अवयव इस प्रकार हैं :

    4. अनुसारक मशीनी अनुवाद तंत्र - डा. राजीव संगल, आई.आई.आई.टी. हैदराबाद एवं हैदराबाद    विश्वविद्यालय

    अनुसारक सही मायने में मशीनी अनुवाद तंत्र न होकर भाषा 'एक्सेसर' है । यह पाठक को अन्य भाषा में उपलब्ध सूचना तक पहुँच करवाकर भाषा-रोध की समस्या का समाधान प्रस्तुत करता है । अनुसारक स्रोत भाषा पाठ का विश्लेषण करता है उस सूचना को लक्ष्य भाषा में लगभग उसी रूप में रखने का प्रयास करता है । यह निवेशित तथा निर्गत पाठ में सूचना को सुरक्षित रखने का प्रयास करता है । यह प्रयोग क्षेत्र मुक्त तंत्र है और इसे पाणिनीय व्याकरण से अनुकूलित किया गया है । इसे तेलुगु, कन्नड़, मराठी, बंगाली, पंजाबी से हिन्दी में अनुवाद के लिए विकसित किया गया है । इस तंत्र के प्रमुख घटक ये हैं :

  • रूपिमिक विश्लेषक

  • स्थानीय शब्द संयोजक

  • द्विभाषी कोश

  • स्त्रोत भाषा से लक्ष्य भाषा में 'मैपर'

  • शब्द संश्लेषक

    अनुसारक को सार्वजनिक प्रयोग क्षेत्र के अंतर्गतई-मेल सर्वर के रूप में तेलुगु, कन्नड़, मराठी, बंगाली तथा पंजाबी से हिन्दी में अनुवाद सेवा के रूप में उपलब्ध कराया गया है । दिए गए पाठ पर अनुसारक चलने के लिए पाठ को ई-मेल द्वारा nandi@anu.uohyd.ernet.in को भाषा नाम- जैसे तेलुगु से हिन्दी में अनुवाद प्राप्त करने के लिए 'तेलुगु' लिखकर भेजें । इससे तेलुगु से हिन्दी अनुसारक चलेगा और हिन्दी अनुवाद प्रेषक को भेजा जाएगा । इसकी एक प्रति मशीन द्वारा बाद में अध्ययन करने के लिए रख ली जाएगी । आपका पाठ 7 बिट आइसकी कोडिंग में होना चाहिए । इसी प्रकार यदि सहायता (ण्ड्ढथ्द्र) विषय पर मेल भेजी जाती है तो मेल द्वारा सहायता प्राप्त की जा सकती है ।.