सामग्री की तालिका
5 संबंधों: पाठसंग्रह, बारम्बारता, शब्दावली विज्ञान, कॉर्पस भाषाविज्ञान, अनुवाद स्मृति।
- सूचना विज्ञान
पाठसंग्रह
भाषाविज्ञान में बड़े और संरचित (structured) पाठ के समुच्चय को पाठसंग्रह या कॉर्पस (corpus) कहते हैं। पाठसंग्रह के बहुत से उपयोग हैं। जैसे किसी भाषा में प्रयुक्त शब्दों की बारंबारता निकालना, किसी भाषा में प्रयुक्त सर्वाधिक १००० शब्दों की जानकारी निकालना, कोई शब्द किस-किस प्रकार से प्रयुक्त होता है आदि। .
देखें सुसंगतता और पाठसंग्रह
बारम्बारता
यूएस के सन २००० की जनगणना के अनुसार लोगों के यात्रा-काल (travel time) का हिस्टोग्राम। इसमें विभिन्न परासों (रेंज) में बारम्बारताएँ दी गयीं है। सांख्यिकी में, किसी प्रयोग या अध्ययन में कोई घटना जितनी बार घटित होती है, उस संख्या को उस घटना की बारम्बारता (frequency) कहते हैं। इन बारम्बारताओं को प्रायः हिस्टोग्राम के रूप में चित्रित किया जाता है। .
देखें सुसंगतता और बारम्बारता
शब्दावली विज्ञान
शब्दावली विज्ञान (Terminology), पारिभाषिक शब्दों तथा उनके उपयोग के अध्ययन की विद्या है। पारिभाषिक शब्द (टर्म) उन शब्दों, सामासिक-शब्दों या बहु-शाब्दिक-अभिव्यक्तियों को कहते हैं जिनका उपयोग विशिष्ट सन्दर्भ में विशिष्ट अर्थ रखता है। ये 'विशिष्ट अर्थ' उन शब्दों के 'सामान्य उपयोग के अर्थ' से बहुत अलग हो सकते हैं। उदाहरण के लिये साधारण अर्थ में 'कार्य' का मतलब कोई भी काम करना -जैसे खाना खाना, हँसना, चलना, पढ़ना आदि है, किन्तु भौतिकी में बल और उस बल के कारण उसकी दिशा में हुए विस्थापन के गुणनफल को कार्य कहते हैं। शब्दावली विज्ञान वह विधा (डिसिप्लिन) है जो पारिभाषिक शब्दों के विकास तथा अन्य पहलुओं का अध्ययन करती है। किन्तु ध्यान देने योग्य है कि शब्दावली विज्ञान, कोशरचना से भिन्न है क्योंकि शब्दावली विज्ञान में अवधारणाओं तथा अवधारणाओं के समुदाय का भी अध्ययन सम्मिलित है। .
देखें सुसंगतता और शब्दावली विज्ञान
कॉर्पस भाषाविज्ञान
भाषाशास्त्र में वृहद एवं सुसंगठित पाठ (टेक्स्ट) को पाठसंग्रह या कॉर्पस (corpus) कहते हैं। आज के एलेक्ट्रानिक युग में पाठसंग्रह को एलेक्ट्रानिक प्रारूप में संग्रहित किया जाता है एवं संगणक द्वारा इसकी बहुविध जाँच-पड़ताल एवं प्रसंस्करण किया जाता है। इस प्रकार का पाठसंग्रह सांख्यिकीय विश्लेषण करने, परिकल्पना-परीक्षण, शब्दों के प्रयोग की आवृत्ति निकालने तथा भाषायी नियमों की जाँच के लिये प्रयुक्त होते हैं। .
देखें सुसंगतता और कॉर्पस भाषाविज्ञान
अनुवाद स्मृति
अनुवाद स्मृति (translation memory, or TM) एक डेटाबेस है जिसमें स्रोत भाषा के किसी खण्ड (वाक्यांश, वाक्य, मुहावरा, अनुच्छेद आदि) के संगत लक्ष्य भाषा का खण्ड भण्डारित रहता है। स्रोत भाषा एवं लक्ष्य भाषा के ये युग्म पहले से मानव अनुवादकों द्वारा तैयार किये गये होते हैं। अनुवाद स्मृति में शब्द और उसका अनुवाद नहीं भण्डारित किया जाता बल्कि ये अनुवाद शब्दावली में दिये गये होते हैं। अनुवाद-स्मृति का उपयोग मानव अनुवादकों की सहायता करने के लिये किया जाता है। अनुवाद-स्मृति का प्रयोग आमतौर पर कम्प्यूटर सहायित अनुवाद (CAT), शब्द संसाधक प्रोग्रामों, शब्दावली-प्रबन्धन प्रणालियों, बहुभाषी शब्दकोशों तथा 'कच्चे' मशीनी अनुवाद के साथ मिलकर किया जाता है (न कि अकेले)।;उदाहरण अनुवाद-स्मृति में "Don't loose temper" के लिये "क्रोधित मत हो" तथा "Do come tomorrow" के लिये "कल जरूर आना" संचित किया जा सकता है। किसी बड़े टेक्स्ट (पाठ) का अनुवाद करते समय मशीन देखती है कि इसका कोई अंश (या उससे मिलता-जुलता खण्ड) अनुवाद-स्मृति में मौजूद है या नहीं। यदि है तो यह स्मृति से ले लिया जाता है और माना जाता है कि अनुवाद शत-प्रतिशत शुद्ध हो गया। जो खण्ड स्मृति में नहीं पाये जाते उन्हें अन्य विधि का सहारा लेते हुए अनुवाद किया जाता है। वे प्रोग्राम जो 'अनुवाद स्मृति' फाइल के निर्माण, उसको व्यवस्थित करने, उसमें नये अनुवाद-युग्म जोडने, अनुवाद-युग्म हटाने, एक प्रकार की अनुवाद-स्मृति फाइल को दूसरे प्रकार में बदलने आदि का कार्य करते हैं उन्हें अनुवाद स्मृति प्रबन्धक (translation memory managers या TMM) कहते हैं। .
देखें सुसंगतता और अनुवाद स्मृति