|
|
यह एक महत्वपूर्ण अनुप्रयोग है और भारतीय बाजार में इसकी असीम
संभावनाएँ हैं ।देश में अठारह भाषाएँ हैं, एक भाषा से दूसरी
भाषा में अनुवाद के लिए काफी संख्या में भाषा-युग्म बनते हैं
। भाषा युग्मों में अत्यधिक सादृश्यता तथा सरकारी पत्राचार
के क्षेत्र में अंग्रेजी से हिन्दी अनुवाद की आवश्यकता को
दृष्टि में रखते हुए, इस भाषा युग्म की मशीनी अनुवाद के कारण
प्राथमिकता-क्षेत्र के तौर पर पहचान की गई है। भारतीय भाषाओं
में समानता होने के कारण, इनमें परस्पर अनुवाद अंग्रेजी से
हिन्दी अनुवाद की अपेक्षा सरल है । इसे ध्यान में रखते हुए,
मशीनी अनुवाद के दो क्षेत्र - भारतीय भाषाओं में परस्पर मशीनी
अनुवाद तथा अंग्रेजी से हिन्दी मशीनी अनुवाद को शोध के संभावित
क्षेत्रों के रूप में पहचाना गया । इस क्षेत्र की जटिलता के
कारण, केवल सीमित प्रयोग क्षेत्रों में प्रयोग क्षेत्र-विशिष्ट
तंत्रों को विकसित करना संभव है ।
पूर्ण रूप से स्वचालित (मशीनी) सामान्य उद्देश्य वाला तथा उच्च
गुणवत्ता युक्त मशीनी अनुवाद तंत्र तैयार करना अत्यंत कठिन है
। यह कठिनाई निम्नलिखित कारणों से है। :-
किसी भी प्राकृतिक भाषा के पाठ में, केवल सूचना का कुछ भाग ही
स्पष्ट रूप से अभिव्यक्त होता है । शेष भाग की पूर्ति मानव मन
करता है और वैश्विक ज्ञान की संदर्भगत समझ की सूचना देता है ।
विभिन्न प्रकृत भाषाएँ सूचना संप्रेषण के प्रकार तथा मात्रा के
लिए विभिन्न परिपाटियाँ अपनाती हैं ।
मशीनी अनुवाद के लिए कंप्यूटर का प्रयोग किया जा सकता है, यद्यपि
यह कथन विरोधाभास सा लगता है । इसका समाधान इसमें निहित है कि
पाठ के विश्लेषण में भाषा आधारित विश्लेषण को ज्ञान तथा अनुमान
आधारित विश्लेषण से अलग किया जाए । पहले प्रकार का विश्लेषण मशीन
के लिए और दूसरे प्रकार का विश्लेषण मानव पाठक के लिए छोड़ दिया
जाए । इस प्रकार जो पक्ष मानव के लिए कठिन है, उसे मशीन करे तथा
जो मशीन के लिए कठिन है वह मानव करे । इस प्रकार इसका उद्देश्य
मानव
के प्रयास को कम करके उत्पादकता को बढाना है । इस प्रकार
इस अनुवाद को मशीन साधित अनुवाद कहलाता है, मशीनी अनुवाद नहीं
।
अन्तराष्ट्रीय दृष्टि से यह सर्व स्वीकार्य तथ्य है कि सामान्य उद्देश्य के मशीनी
अनुवाद तंत्र विकसित करना असंभव है किन्तु प्रयोग क्षेत्र विशिष्ट मशीनी अनुवाद
सहायक तंत्र के विकास में पर्याप्त मात्रा में सफलता की जा सकती है, जिससे अनुवादकों
को अपना कार्य अधिक तेजी से करने में सहायता मिलेगी । भारतीय भाषाओं की प्रकृति
ध्वन्यात्मक है और वे एक दूसरे के काफी निकट हैं जबकि भाषा वैज्ञानिक आधार पर अंग्रेजी
इनसे अलग स्थित है ।इस प्रकार विकास की दृष्टि से इन्हें दो मुख्य वर्गों में वर्गीकृत
किया गया है :
1. भारतीय भाषाओं में परस्पर मशीन साधित अनुवाद:
प्रारंभ में आई.आई.टी. कानपुर में कन्नड़ से हिन्दी भाषा युग्म
के लिए प्रदर्शन तंत्र का विकास हुआ और इस प्रौद्योगिकी का विभिन्न
यंत्रों पर प्रदर्शन किया गया और इसे अनुसारक नाम दिया गया ।
अब इस प्रौद्योगिकी का विस्तार तेलुगु, मराठी, बंगाली तथा पंजाबी
से हिन्दी में अनुवाद के लिए किया गया है और यह ई-मेल के माध्यम
से परीक्षण के लिए उपलब्ध है । यह कार्य आई.आई.टी कानपुर तथा
हैदराबाद विश्वविद्यालय, हैदराबाद के द्वारा संयुक्त रूप से किया
गया है ।
2. मशीन साधित अनुवाद तंत्र : अंग्रेजी से
हिन्दी:
विशेष प्रयोगक्षेत्र जिनकी पहचान की गई है, वे हैं - अंग्रेजी
समाचार कथाएँ, जन स्वास्थ्य अभियानों के लिए प्रयुक्त मानक दस्तावेज
।
1. अंग्रेजी समाचार कथाओं के हिन्दी में अनुवाद
के लिए मशीन साधित अनुवाद तंत्र :
अधिकांश अन्तराष्ट्रीय तथा राष्ट्रीय समाचार सेवा एजेंसियाँ समाचार
सूचनाएँ अंग्रेजी में भेजती हैं : समाचारों पत्रों को तुरंत अनुवाद
करने की आवश्यकता रहती है । इस परियोजना का उद्देश्य अंग्रेजी
समाचारों का हिन्दी में मशीन साधित अनुवाद प्रस्तुत करना है ।
इसमें समाचार सेवा एजेंसियों से समाचारों को प्राप्त कर, उनका
यथोचित मानवीय हस्तक्षेप से सरलीकरण एवं अनुवाद किया जाएगा ।
इस यंत्र के उत्पाद को मानव द्वारा पश्च संशोधित किया जाएगा ।
अंग्रेजी समाचारों का हिन्दी में अनुवाद का प्रदर्शनीय तंत्र
विकसित कर लिया गया है ।.
2. अंग्रेजी से हिन्दी मानक दस्तावेजों के
अनुवाद के लिए मशीन साधित अनुवाद तंत्र :
जन स्वास्थ्य अभियानों में प्रयुक्त दस्तावेजों/प्रतिवेदनों की
भाषा अधिकांशतः अंग्रेजी होती है । इन दस्तावेजों के हिन्दी अनुवाद
से इन अभियानों की उद्देश्य पूर्ति में पर्याप्त सहायता मिलेगी।इस
तंत्र में आई.आईर्.टी कानपुर में विकसित 'आंग्लभारती ' पद्धति
का प्रयोग किया गया है । जन स्वास्थ्य अभियान संबंधी दस्तावेजों
के अनुवाद के लिए प्रदर्शन तंत्र विकसित कर लिया गया है । इसे
ध्यान में रखते हुए दो परियोजनाएँ - एक अंग्रेजी
हिन्दी तथा दूसरी अन्य भारतीय भाषाओं से हिन्दी में विशिष्ट प्रयोग
क्षेत्र
में शुरू की गई है ।
| अनुसंधान
तथा विकास गतिविधियाँ |
अनुसारक
प्रौद्योगिकी का उद्देश्य हिन्दी जानने वाले व्यक्ति को अन्य
भारतीय भाषाओं तक पहुँच सुलभ कराता है । यह विशेषरूप से महत्वपूर्ण
है कि भारतीय भाषाओं की सामग्री डिजिटल रूप में वैब पर उपलब्ध
हो । इस प्रौद्योगिकी का विकास आई.आई.टी. कानपुर तथा हैदराबाद
विश्वविद्यालय, हैदराबाद के द्वारा संयुक्त रूप से किया जा
रहा है । आंग्लभारती प्रौद्योगिकी का उद्देश्य विशिष्ट प्रयोग
क्षेत्रों के लिए अंग्रेजी से हिन्दी में मशीन साधित अनुवाद
उपलब्ध कराता है । इसे आई.आई.टी. कानपुर द्वारा विकसित किया
गया है और पीसी प्लेटफॉर्म के लिए भारतीय इलेक्ट्रॉनिक अनुसंधान
एवं विकास केन्द्र, नोएडा द्वारा अनुकूलित्ा किया गया है ।
अग्रेजी समाचार से संबंधित कथाओं के हिन्दी अनुवाद के लिए एम.ए.टी.
(मशीन साधित अनुवाद तंत्र) का विकास तथा इसे वैब पर प्रस्तुत
करना एन.सी.एस.टी. मुंबई द्वारा किया जा रहा है ।
| विभिन्न
संस्थानों/संगठनों के द्वारा विकसित प्रौद्योगिकी |
1. आंग्लभारती मशीन अनुवाद
तंत्र (अंग्रेजी-हिन्दी) ई.आर.एण्ड डी.सी.आई. नोएडा
'सन' वर्कस्टेशन पर आई.आईर्.टी.कानपुर में विकसित आंग्लभारती पद्धति पैटर्न आधारित
संदर्भ मुक्त व्याकरण जैसी संरचना के नियम आधारित तंत्र पर आधारित है जो भारतीय
भाषाओं के वर्ग में 'छद्म लक्ष्य' को जेनेरेट करइंटर लिंग्वा' पद्धति की तरह संरचना
समानता का लाभ उठा सकती है । यह तंत्र उदाहरण आधारित पद्धति तथा नियम आधारित मानव
पश्च संपादन दोनों पद्धतियों के संयोजन का प्रयास करता है । इसमें आधुनिक यांत्रिक
बुद्धिमत्ता की तकनीक को संस्कृत व्याकरण पर आधारित शास्त्रीय पाणिनीय सिद्धांत
के साथ मिलाकर कार्य किया गया है । कार्पस विश्लेषण के आधार पर प्राप्त नियमों
के समुच्चय का प्रयोग संभाव्य घटकों की पहचान के लिए किया गया है जिसके आधार पर
'छद्म-लक्ष्य' के मूवमेंट नियमों का निर्माण किया जा सकता है । स्त्रोत भाषा में
द्वि-अर्थता की समस्या के समाधान के लिए कई आर्थी 'टैग' प्रयोग किए गए हैं ।जहाँ
द्वि-अर्थता का समाधान नहीं हो पाता उसके संबंध में विकल्पी अर्थों को छद्म-लक्ष्य
भाषा में रखा जाता है ।प्रत्येक लक्ष्य भाषा का 'टैक्स्ट जेनेरेटर मोड्यूल' 'छद्म-लक्ष्य'
भाषा को लक्ष्य भाषा में परिवर्तित करता है । इन रूपांतरणों से दोषपूर्ण वाक्य
प्राप्त होते हैं ।इनको ठीक करने के लिए 'संशोधक' का प्रयोग किया जाता है तथा
मानव पश्च संपादन के द्वारा अंतिम सुधार किया जाता है ।
इस तंत्र के मुख्य घटक इस प्रकार हैं : ।
नियम आधार
अर्थभेदक
लक्ष्य भाषा जेनेरेटर
बहुभाषी कोश
नियम आधारित अधिग्राहक
आंग्लभारती पद्धति को लिनिक्स परिवेश के अन्तर्गत पीसी प्लेटफॉर्म पर ई.आर.एण्ड
डी.सी.आई., नोएडा के द्वारा प्रस्तुत किया गया है तथा जन स्वास्थ्य अभियान संबंधी
दस्तावेजों के अंग्रेजी से हिन्दी में मशीन अनुवाद सहायक तंत्र के विकास में प्रयोग
किया गया है ।.
2. अंग्रेजी समाचार कथाओं का हिन्दी में वैब आधारित अनुवाद सेवा : एन.सी.एस.टी.,
मुंबई
समाचार कथाओं का प्रयोगक्षेत्र अत्यन्त संदर्भ
संवेदी होता है अतः प्रत्यक्ष अनुवाद, अंतरण पद्धतिइंटरलिंग्वा
आदि मानक अनुवाद पद्धतियाँ पर्याप्त नहीं हैं । अतः 'वाक्य' नामक
एक संकर पद्धति का विकास एन.सी.एस.टी., मुंबई द्वारा किया गया
है । पूर्व-प्रोसेसर के प्रयोग से निर्देशित पाठ को सरल बनाया
जाता है । संसाधित पाठ का विश्लेषण किया जाता है तथा शब्द भेदों
की टैगिंग की जाती है । सरलीकरण नियमों के आधार पर लंबे वाक्यों
को सरल किया जाता है । इसके बाद पाठ कोइनफा 'टाइजेशन' नियमों
के आधार पर कारक फ्रेम जैसी संरचना में परिवर्तित किया जाता है
। कारक फ्रेम संरचनाओं तथा द्विभाषी कोश्ा की सहायता से 'पैरामीटराइज्ड
टैम्पलेट' के द्वारा लक्ष्य भाषा का जेनेरेशन किया जाता है ।
स तंत्र के मुख्य घटक ये हैं :
प्रकरण पहचान
शब्द-वर्ग टैगर
स्वतः (ह्यूरिस्टिक) सरलीकरण
ज्ञान आधारित पदबंध पहचान
पार्सर
कोश
इनफाटाइजेशन
अनुवाद जेनेरेशन
इस नमूना 'वाक्य तंत्र' का अब विस्तार किया जा रहा है
तथा समाचार एजेंसियों को वेब अनुवाद सेवा उपलब्ध कराने के लिए इसका
अनुकूलन किया जा रहा है ।
3. कार्यालयी प्रयोग के लिए 'मंत्रा' मशीनी अनुवाद तंत्र
- सी-डैक, पुणे
भारत सरकार के विभिन्न मंत्रालयों के नियुक्ति पत्रों
के विशिष्ट प्रयोग क्षेत्र के लिए इस परियोजना का वित्तपोषण राजभाषा
विभाग द्वारा किया गया । यह तंत्र पेंसेलवानिया विश्वविद्यालय, सं.रा.अमेरिका
में 1983 में श्री अरविन्द जोशी द्वारा विकसित 'ट्री एडज्वाइनिंग ग्रामर
' का प्रयोग करता है ।टैग 'वृक्ष पुनर्लेखन तंत्र' है ।यह तंत्र टैग
आधारित पार्सर 'व्याकर्ता' का प्रयोग करता है।यह पार्सर अपनी परिभाषाओं
के लए उपभाषा की संकल्पना का उपयोग करता है जो अंग्रेजी, हिन्दी, गुजराती
तथा संस्कृत में '250 वृक्ष परिवारों' के विश्लेषण के लिए सक्षम है
।इसके बाद स्त्रोत तथा लक्ष्य भाषा, दोनों की कोशीय संरचना वृक्ष वाले
'अंतरण कोश' का प्रयोग निर्देशित वाक्य के सामान लक्ष्य भाषा में 'टैग
सिद्धांत' की प्राप्ति में सहायक होता है ।
इस तंत्र के प्रमुख अवयव इस प्रकार हैं :
4. अनुसारक मशीनी अनुवाद तंत्र - डा. राजीव संगल, आई.आई.आई.टी.
हैदराबाद एवं हैदराबाद विश्वविद्यालय
अनुसारक सही मायने में मशीनी अनुवाद तंत्र न होकर भाषा
'एक्सेसर' है । यह पाठक को अन्य भाषा में उपलब्ध सूचना तक पहुँच करवाकर
भाषा-रोध की समस्या का समाधान प्रस्तुत करता है । अनुसारक स्रोत भाषा
पाठ का विश्लेषण करता है उस सूचना को लक्ष्य भाषा में लगभग उसी रूप
में रखने का प्रयास करता है । यह निवेशित तथा निर्गत पाठ में सूचना
को सुरक्षित रखने का प्रयास करता है । यह प्रयोग क्षेत्र मुक्त
तंत्र है और इसे पाणिनीय व्याकरण से अनुकूलित किया गया है । इसे तेलुगु,
कन्नड़,
मराठी, बंगाली, पंजाबी से हिन्दी में अनुवाद के लिए विकसित किया गया
है । इस तंत्र के प्रमुख घटक ये हैं :
रूपिमिक विश्लेषक
स्थानीय शब्द संयोजक
द्विभाषी कोश
स्त्रोत भाषा से लक्ष्य भाषा में 'मैपर'
शब्द संश्लेषक
अनुसारक को सार्वजनिक प्रयोग क्षेत्र के अंतर्गतई-मेल सर्वर के रूप में तेलुगु,
कन्नड़, मराठी, बंगाली तथा पंजाबी से हिन्दी में अनुवाद सेवा के रूप में उपलब्ध
कराया गया है । दिए गए पाठ पर अनुसारक चलने के लिए पाठ को ई-मेल द्वारा nandi@anu.uohyd.ernet.in को भाषा नाम- जैसे तेलुगु से हिन्दी में अनुवाद प्राप्त करने के लिए 'तेलुगु'
लिखकर भेजें । इससे तेलुगु से हिन्दी अनुसारक चलेगा और हिन्दी अनुवाद प्रेषक को
भेजा जाएगा । इसकी एक प्रति मशीन द्वारा बाद में अध्ययन करने के लिए रख ली जाएगी
। आपका पाठ 7 बिट आइसकी कोडिंग में होना चाहिए । इसी प्रकार यदि सहायता (ण्ड्ढथ्द्र)
विषय पर मेल भेजी जाती है तो मेल द्वारा सहायता प्राप्त की जा सकती है ।.
|