இயற்கை மொழிமுறை பகுப்பு:
(இ.மொ.ப)ஆய்வு முறை:
முன்னுரை:
இயற்கை மொழி பகுப்பு முறை விதி சார்ந்து அமைக்கப்படும் அணுகுமுறை முக்கியத்துவம் வாய்ந்தது. ஒரு சொல்லுக்கு இலக்கணக் குறிப்பு அதன் பின்னோட்டு சொல் முறை நிலைப்படுத்தும் காலமிது.
தமிழில் இலக்கணம், இலக்கை அக்கணமே தெரிவிப்பதை இலக்கணம் என்போம்.
மொழியை நாம் உச்சரிக்க எடுத்துக்கொள்ளும் உறுப்பு, வாய். ‘எழு ‘ ‘வாய்’ என்ற நம் வாயை உச்சரிக்கச் செய்வதால் தமிழில் பெயரை ‘எழுவாய்’ என்கிறோம்.
நம் செயலின் ‘பயன் நிலை’யை குறிப்பிடுவதால் ‘பயனிலை’ என்கிறோம்.
நமக்கு ‘பயன்படு’கின்ற ‘பொருள் ‘குறிப்பிடுவதால் ‘பயன்படுபொருள்’ என்கிறோம்.
தமிழில் எழுவாய், பயன்படுபொருள், பயனிலை, சொற்றொடரை முறையாக அமைக்க உதவும் இலக்கண அடிப்படைக் குறிப்பு.
இலக்கணம்:
தமிழன் வளர்கிறான்.
தமிழன் வளர்ந்தான்.
தமிழன் வளர்வான்.
ஒரு செயலையோ அல்லது வினையைக் குறிக்க வளர்கிறான், வளர்ந்தான், வளர்வான் என கால அளவை நிர்ணயித்துக் கூறுவோம்.
‘ றான் ‘ என்பது வளர்கின்றதை குறித்து
நியமிக்கும் சொல் ஆகும்.
இச்சொல் செயலின் உடனிலை குறிப்பு அணி சொல்லாகும்.
தமிழன் என்ற பெயருடன் அவன் வளர்கின்றதை விளக்கும் சொல்லாகும்.
எல்லா மொழிகளுக்கும் இந்த முறையே
அடிப்படை ஆகாது.
எனவே இந்த முறைமையை எல்லா மொழிகளுக்கும் மாற்றப் படும் பொழுது அவற்றிற்கு உள்ள தமிழ் இலக்கண அடிப்படை ஒப்பந்த முறைக்கு மாற்றுவது சாலச் சிறந்தது.
அந்தாதித் தொடை
‘முற்சுட்டு, அந்தாதி தொடை’ என்ற தமிழ் சொல் ‘ Anaphora ‘ என்ற ஆங்கில சொல் ‘Anapharein’ கிரெக்க மொழியில் மீண்டும் செயல்படுத்து, பார்த்தலாகும்.
இந்த குறியீடுகளை பேசும் பொழுது அறிந்து கொண்டு
பெயர், செயல் அல்லது வினையை என அறிந்து கொள்கிறோம்.
இந்த அடிப்படையில் அறிந்து கொள்ளும் பொழுது பேசுபவரின் நிலையை புரிந்து கொள்வோம்.
எந்த குறியீடு மாற்றம் ஒவ்வொரு நிலையை அறிந்து கொள்ளப் பயன்படுகிறது என்பதை முடிவாக தெரிந்து கொள்வோம்.
தொடராக நடைபெறும் செயல்களை அறிந்து கொள்ள ‘தொடரியில்’, ‘சொற்பொருள்’ என்று தமிழில் சொல்லக்கூடிய ‘Syntactic, Semantic’ என்ற ஆங்கிலச் சொல்லை நாம் பயன்படுத்துகிறோம்.
உருபனியல் பகுப்பு ஆய்வு இயற்கை மொழி முறைக்கு முக்கியமான ஒன்றாகும்.
கொடுக்கப்பட்டு உள்ள ஒரு தமிழ் சொல்லின் பின்னோட்டு இலக்கணத் தகவல்கள் உருபனியல் பகுப்பு ஆய்வு முறைக்கு உகந்ததாக இருக்கும்.
தமிழ் உருவ(Morphological) முறையில் ஒரு சொல்லை கணினியில் உள்ளிடு செய்வதும், இலக்கண அமைப்பில் வெளி வருவதும் ஆகும்.
உருவ இயல் பகுப்பு ஆய்வில் தகவல் மீட்பு,
தேடு பொறி, உச்சரிப்பு, இலக்கணத்தை சரிபார்த்தல், இயந்திர மொழி பெயர்ப்பு, அகராதி சரிபார்த்தல், தகவல் பிரித்தெடுத்தல், உள்ளடக்க ஆய்வு, கேள்வி பதில் ஆகியவற்றிற்கு உண்டான கருவிகள் இயற்கை மொழி முறைமைக்கு தேவையானதாக கருதலாம்.
முக்கிய வார்த்தைகள்:
உருவ இயல் பகுப்பு, பழங்கால தமிழ், இயற்கை மொழி பகுப்பு முறை (இ.மொ.ப) தமிழ்.
ஒரு சொல்லின் உட்கூறுகளின் உருவ இயல் பகுப்பு படிப்பு முறையாகும். உருவ இயல் பகுப்பில் ஒரு மொழியில் சொல்லின் இலக்கண முறை அறிதலை கட்டுருபன்(morpheme) என்று கூறுகிறோம்.
தேடு பொருளில் ஒரு சொல்லை கொடுத்தவுடன் அச்சொல்லுக்கு உண்டான ஆவணங்களை தேடி தரும் நிறுவுதல் சிறப்பாகும். இந்த முறைமை தமிழில் அதிக கோப்புகளுக்கு தேடுவதற்கு உண்டான பயன்பாட்டை நிலைப்படுத்தும்.
பாரம்பரிய தமிழ் சொற்களை கண்டுபிடித்து அதற்கு உண்டான தேடு பொறியை கண்டு பிடிக்க உதவும் கருவியாக இந்த இ.மொ.ப இருக்கும்.
தமிழ் அடிப்படை சொற்கள் அமைப்பதற்க்கு சொற்பொருட்கள், சொல் இலக்கண மாற்றம் ஆகியவற்றிற்கு உண்டான கருவிகளை எடுத்துக் கொள்வோம்.
ஒரு சொல்லுருவில் பயன்படுத்துவதற்கு அதனுடைய வேர்ச் சொற்களை சொற்பொருள், சொல் இலக்கணமாற்ற தகவல் ஆகியவைகளை எடுத்துக் கொண்டு வகைபடுத்துவதும், கூட்டிஅமைப்பதற்கும் பயன்படுத்துவோம்.
தமிழ் மொழிச் சொற்களுக்கு அண்ணா பல்கலைக் கழகம், இந்திய மொழி- இந்திய மொழி பொறி மாற்ற நிறுவனம், மத்திய இந்திய மொழி மாற்ற நிறுவனங்கள் ஆகியவைகளில் சொற் களஞ்சியம் உள்ளது.
ஓரு பொருளைப் பற்றிய முழுமையான இலக்கியத் தொகுப்பு தோராய அடிப்படை மாதிரியாகவும் கலப்பு அணுகுமுறையில் பல்வேறு இடங்களில் பெறலாம்.
உருவ இயல் பகுப்பு முறையில் கூட்டுச் சொல்லுக்கு உண்டான சொல்விதி, சொற்பொருள் போன்ற முக்கிய தகவல் அடங்கியதாகும்.
தற்பொழுதைய பகுப்பு ஆய்வு அமைப்புகள்:
பேராசிரியர் ராஜேந்திரன், தமிழ் பல்கலை கழகம் தமிழ் மொழியில் இருந்து இந்தி மொழிக்கு பகுத்தாய்ந்து உள்ளார். அண்ணா பல்கலைகழகம் KB சந்திரசேகர் மையம் (AU-KBC)தமிழ் மொழியில் பகுத்து உள்ளது, உருவாக்கப்படவில்லை.
‘அச்சரம்’ என்ற பகுப்பு ஆய்வு முறையை அண்ணா பல்கலைகழகம்-KBC , RCILTS என்ற தொழில் நுட்ப தீர்வு மையம் தமிழ் எழுத்து உருவ பகுப்பு தயார் செய்து உள்ளது.
2000 ஆண்டுகளுக்கு முன்னரே எழுத்து உருவாக்கம் ஆகி உள்ளது.
இந்த தமிழ் எழுத்துருவாக்கம், கல்வெட்டில் இருக்கும் பொழுது ஓலைச்சுவடியில் அமையும் பொழுதும் காகிதத்தில் அச்சு செய்யும் பொழுதும் அதற்கு தகுந்தவாறு பதிவேற்றம் மாறி உள்ளது
தற்பொழுது கணினி, எணினி என பயன்படும் சூழ்நிலைக்கு தமிழ் மொழி இயற்கை மொழி மாறுபாட்டு முறைமைக்கேற்ப எழுத்துக்கள் தமிழ் இலக்கண முறைப்படியும் பகுப்பு மாற வேண்டி உள்ளது.
அகராதி, கலைக்களஞ்சியக் குறிப்பு, சங்க கால இலக்கியக் குறிப்புகள் இ.மொ.ப தகவல் கிடங்குகள் சேகரிக்கப்பட்டு முறைமைப் படுத்த வேண்டும்.
ஒவ்வொரு வேர்ச்சொல்லும் அகரச் சுருக்க கோவையில்(XML) இருந்து சேகரிக்கப்பட்டு தமிழ் மெய் ஆவணமாக தயாரிக்கப்பட வேண்டி உள்ளது.
தமிழ் சொல் வகைக் குறியிடும் கருவி (POS tagger)
செய்வதன் மூலம் பல்பொருள் ஒரு சொல் போன்ற தெளிவிலா உரையை தெளிவு படுத்த பயன்படும்.
சொற்களின் வகை(POS) யை இலக்கண அடிப்படையிலும் முறைமைப் படுத்தப்பட வேண்டும்.
சொல்லின் மூல ஆவணம், ஆதாரம், ஏற்ற சொல், ஒருமை, பன்மை, காலநிலை, இடநிலை முதலானவற்றினை நிலைப்படுத்த வேண்டும்.
இலக்கண அமைப்பு முறையில் முன்னோட்டு, பின்னோட்டு குறியீடுகள் மூல ஆதாரச் சொற்களுடன் இணைக்கப்பட வேண்டும்.
கணினி முறையில் ஆம், இல்லை என்ற முறைமை தொகுப்பை தமிழ் மொழி எழுத்துருவுக்கள் தன்னிரவுத் தமிழ்ச் சொற்களின் தகவல் திரட்டு நெறிமுறைப்படி
தொகுக்கப்பட வேண்டும்.
தமிழில் 12,000 பக்கங்கள் கொண்ட தமிழ்ச் சொற்பிறப்பியல் அகர முதலியில் ஏறத்தாழ 500,000 தமிழ்ச்சொற்கள் உள்ளன.
இந்த அகர முதலியில் மொத்தம் 31 தொகுதிகள். 37 ஆண்டுகளாக உழைத்து உருவாக்கப்பட்ட தமிழ் சொற்பிறப்பியல் அகர முதலித் திட்டம் (Tamil etymological Dictionary project) அண்மையில் முழுமையடைந்தது.
பழந்தமிழ் சொற்களின் அமைப்பில் 500,000 சொற்கள் அமைக்கலாம் என்கின்றனர்.
இந்தச் சொற்கள் வேர்ச் சொல் தேடுவதற்கு பழைமை நூற்கள் பல அடிப்படைத் தகவல்கள் திரட்டு தேவைப்படுகிறது.
இயந்திரத் தகவல்களை சீரமைத்தால் சீர்படுத்தப்படலாம்.
முடிவுரை :
இந்த இ.மொ.ப முறை பழைய நூற்களின் தகவல் தொகுப்புத் திரட்டின் மூலம் கணினியில், எணினியின் மூலமும் முறைப்படுத்தப்படலாம் என்பதையும் சொற்களின் வேர்ச் சொல்லின் உருவாக்கம் புரிந்து கொள்ளலாம். சொற்கள், பொருட்களின் அடிப்படையிலும் அறிந்து கொண்டு நல்முறையில் கணினியிலும் தமிழ் மொழிச் சொற்களை நிலைப்படுத்துவோம்.