Sunday, March 20, 2011

கணினிவழிச் சொல்லடைவு மென்மம் உருவாக்கமும் தமிழ்மொழியமைப்புச் சிக்கல்களும்



முன்னுரை
தமிழ் மொழியானது வளர்ந்துகொண்டேவரும் அறிவியல் மற்றும் தொழில்நுட்பத்திற்கு ஈடாகத் தன்னையும் வளர்த்துக்கொண்டே வருகின்றது. இன்றைய கணினி, இணைய, கைபேசி தொழில்நுட்ப உலகில் பல்வேறுபட்ட மென்மங்கள் தமிழ்மொழிக்கென உருவாக்கப்படுகின்றன. கணித்தமிழ் வளர்ச்சி என்பது தமிழ்த் தொடர்களைப் புரிந்துகொள்ளவும்(Understanding), அவற்றை உருவாக்கவும் (Generate) தேவையான தமிழ்மொழி அறிவைக் கணினிக்குக் கொடுப்பதற்காக நாம் மேற்கொள்ளவேண்டிய பணிகளைக் குறிக்கிறது என்பர்.
          கணினிமொழியியல் கோட்பாடுகளை வைத்து மொழியின் அமைப்பை, இலக்கணத்தைக் கணினிக்கேற்ற வகையில் நிரலிகளாக, மின்னணு இலக்கணமாக மாற்றிக் கொடுத்துத் தமிழ்மொழியின் தேவையை நிறைவுசெய்ய வேண்டும். இவ்வாறு தமிழ்மொழியின் அமைப்பை ஒருமைப்படுத்தி விதிகளாக மாற்றும்போது தமிழ்மொழியின் தற்கால எழுத்து வழக்கில் பல்வேறு முறைகள் பயன்படுத்தப்படுவதால் சொற்களைப் பிரிக்கும்போதும்(Parsing) வரிசைப்படுத்தும்போதும் பல்வேறு மொழி பயன்பாட்டுச் சிக்கல்கள் எழுகின்றன. அவற்றைச் சுட்டிக்காட்டி தமிழில் எழுதும்போதும் நூலாக வெளியிடும்போதும் கடைபிடிக்கவேண்டிய ஒருசில நெறிமுறைகளையும் மென்பொருள் கருவி உருவாக்கும்போது ஏற்படும் தொழில்நுட்பச் சிக்கல்களையும் கூறுவதாக அமைகிறது.
தற்போது  சொல்லாளர்(Word Processor), தானியங்கு சொற்பிழை திருத்தி(Auto Spell Checker), சந்திப்பிழைத் திருத்தி, எழுத்து-பேச்சு மாற்றி(Text-to-Speech), தானியங்கு பேச்சு அறிவான்(Speech-to-Text), ஒளிவழி எழுத்தறிவான்(Optical Character Recognition-OCR), இணையம் தொடர்பான மென்மங்கள் எனப் பல்வேறு நிலைகளில் தமிழ் மென்மங்கள் உருவாக்கப்படுகின்றன. அவ் வகையில் தமிழ் நூல்களுக்குக் கணினிவழிச் சொல்லடைவு மென்மம் தயாரிப்பதிலும் கவனம் செலுத்தவேண்டிய கட்டாயம் ஏற்பட்டுள்ளது. யூனிகோடு என்ற உலகமயமாக்கலில் எந்த ஒரு முயற்சியும் அனைவருக்கும் பயனளிக்கும் வகையிலேயே அமைகின்றது.
          தமிழில் 18-ஆம் நூற்றாண்டிற்குப் பிறகும் மொழியியல் தமிழில் நிலைகொண்டதற்குப் பிறகும் சிற்சில மொழிக்கூறுகளைத் தனிப்படப் பிரித்துத் தொகுத்து அடைவுபடுத்த முயன்றனர். அவ் வகையில் மனித உழைப்பை மட்டுமே வைத்து அகராதிகளைத் தொகுத்தனர், பின்னர் இலக்கியப் படைப்பு ஒவ்வொன்றிற்கும் பயன்பாடு கருதிப் பல்வேறு அடைவுகளை உருவாக்கினர். தற்போது கணினி மொழியியல் வளர்ச்சியின் பயனாகப் பல்வேறு நுண்மொழிக் கூறுகளும் கண்டறியப்பட்டு அதற்கென மென்மங்கள் உருவாக்கத் தொடங்கியுள்ளனர். இன்றைய தகவல் உலகில், எதை எப்படி வேண்டுமானாலும், தரவுகளை, தகவல்களைத் தொகுத்துப் புதியதாக மாற்றியமைக்கலாம். இவ் வகையில் பல்வேறு நுண்மொழிக் கூறுகளும் கண்டறியப்படுகின்றன.
சொல்லடைவு(Word Index) - தொடரடைவு(Concordance) - பொருளடைவு(Subject Index)
          ஒரு சொல் ஒரு நூலில் எந்தெந்த இடங்களில் வருகிறது என்பதும் முக்கிய கலைச்சொற்களும் நூலின் பின்பகுதியில் கொடுக்கப்படும். வெறும் சொல்லும் அது வருமிடமும் கொடுக்கப்பட்டால் அது சொல்லடைவு, அந்தச் சொல் வரும் தொடரை அப்படியே எடுத்துக் கொடுப்பது தொடரடைவாகும்; அந்தத் தொடர்களில் சொல் எந்தெந்தப் பொருள்களில் வருகிறது என்பதையும் அதன் இலக்கணத் தன்மை போன்றவற்றைச் சேர்த்துக் கொடுப்பதும் தொடரடைவாகும். பொருளடைவு என்பது ஒரு படைப்பில் ஒரு சொல் எங்கெங்கு என்னென்ன பொருளில் வருகிறது என்பதை ஆராய்ந்து அடைவுபடுத்துவதாகும்.
          இந்த மூன்றும் ஒன்றுக்கொன்று தொடர்புடையவை. இதை முதல்நிலை(First Stage), இரண்டாம் நிலை, மூன்றாம் நிலை எனவும் கூறலாம். பொருளடைவினைக் கணினிவழி உருவாக்குவது மிகக் கடினம். ஏனெனில், அவற்றின் பொருண்மையை மனித உழைப்பால்தான் தீர்மானிக்க முடியும்.
          சொல்லடைவு, தொடரடைவு, பொருளடைவு என்பவை யாவை?  என்பதற்கு முழுமையான வரையறை உருவாக்கப்படவில்லை எனலாம். ஏனெனில் அவை யாருக்காக உருவாக்கப்படுகின்றன என்பதைப்பொறுத்து மாறுபடுகின்றன. மேற்குறிப்பிட்டது ஒரு சிறிய அடிப்படை மட்டுமே. 
          சொல்லடைவு என்பது ஒவ்வொரு படைப்பு அல்லது நூலுக்குக் கடைசிப் பகுதியில் அந்தப் படைப்பில் பயன்படுத்தப்பட்டுள்ள சொற்களை அகர வரிசைப்படுத்தி அவற்றின் பயிற்றிடத்தைப் (பக்க எண், அல்லது பாடல் எண்) பட்டியலிடுவதாகும். ஒரு சொல் அந்தப் படைப்பில் எந்தெந்த இடங்களில் வருகின்றது என்பதைச் சுட்டிக்காட்டுவதால், இதனைச் சுட்டி என்றும் அழைக்கின்றனர்.
          சொல்லடைவு உருவாக்குவதில் பல நிலைகளுண்டு, படைப்பில் உள்ள எல்லாச் சொற்களையும் அடைவுபடுத்துவது, அதில் காணப்படும் அருஞ்சொற்களுக்கு மட்டும் அடைவு கொடுப்பது, பெயர், வினை ஆகியவற்றிற்கு மட்டும் கொடுத்து வேற்றுமை உருபு, சாரியை, பெயரடை, வினையடை போன்றவற்றை விட்டுவிடுவது எனப் பல்வேறு நிலைகளில் உருவாக்கப்படுகின்றது.
          ஒரு சொல்லுக்கு நாம் விருப்பத்துக்கேற்பப் பொருள் காணாமல், இலக்கியத்தில் எந்தெந்த இடங்களில் அச்சொல் வருகிறது, அதற்கு அந்த இடத்தில் என்ன பொருள், அதற்குப் பழைய உரையாசிரியரின் ஆதாரம் உண்டா, காலப்போக்கில் அச் சொல்லின் பொருள் எவ்வாறு மாற்றம் அடைந்துள்ளது என்பவற்றையெல்லாம் ஆராய்ந்து அடைவு தயாரிப்பதையே பொருளடைவு என்று கூறுவர். சொற்களின் படிநிலை அமைப்பில் எங்கு வரும் என்பதன் அடிப்படையில்தான் சொற்களின் பொருள்களைப் பெறமுடியும்.
சொல்லடைவி, தொடரடைவியின் தேவை
          சொல்லடைவு, தொடரடைவினை நாம் கைவேலையாகச் செய்யும்போது அது மிகவும் கடினமானதொரு பணி என்பதை உணர முடியும். ஆகவேதான் பொதுவாகப் பெரிய இலக்கியப் படைப்புகளுக்கு மட்டுமே சொல்லடைவுகள், தொடரடைவுகள் செய்யப்படுகின்றன. ஷேக்ஸ்பியர் நூல்கள், பைபிள், திருக்குறள் போன்றவற்றிற்குச் சொல்லடைவு, தொடரடைவுகள் செய்யப்பட்டுள்ளன. எனவே இதிலிருந்து அனைத்துப் படைப்புகளுக்கும் தொடரடைவு தேவையென்றாலும்கூட அதனைக் கைப்பணியாகச் செய்வது மிகவும் கடினமானது என்பதால், முக்கியமாகக் கருதப்பட்ட நூல்களுக்கே தொடரடைவு செய்யப்பட்டுள்ள நிலையை அறியமுடிகிறது.
          தற்போது தமிழில் திருக்குறள், தொல்காப்பியம், சங்க இலக்கியங்கள் போன்ற ஒருசிலவற்றிற்கு மட்டுமே சொல்லடைவுகள் உருவாக்கப்பட்டுள்ளன. ஆனால் தமிழில் எல்லாப் படைப்புகளுக்கும் இத்தகைய சொல்லடைவுகள் உருவாக்கப்பட வேண்டிய தேவை உள்ளது. இந் நிலையில் செம்மொழித் தமிழாய்வு மத்திய நிறுவனத்தில் சங்க இலக்கியம் ஒவ்வொன்றிற்கும் தனித்தனியாக சொல்லடைவு உருவாக்குவதற்குப் பல திட்டங்கள் வழங்கப்பட்டுள்ளன. எனினும் இத்தகைய சொல்லடைவுகள் உருவாக்குவதற்குத் தகுந்த தமிழ் மென்மங்கள் உருவாக்கப் படவில்லை. எனினும் ஒருசில முயற்சிகள் மேற்கொள்ளப்பட்டுள்ளன.
உருபன் பகுப்பாய்வு
உருபன் பகுப்பாய்வு (Morphological Parsing) அடிப்படையில் பனுவலைப் பிரித்துச் சொல்லடைவு உருவாக்கவேண்டிய கட்டாயமும் இங்கு காணப்படுகிறது. இதற்காக உருபன் பகுப்பாய்வி என்னும் மென்மம் உருவாக்கும் பணியில் பேரா. ந. தெய்வசுந்தரம், பேரா. மா. கணேசன் போன்றோர் ஈடுபட்டு அதில் வெற்றியும் கண்டுள்ளனர். தமிழ்மொழியின் இயல்புகளை மொழியியல் துணைகொண்டு கணினிவழி மொழியாய்வுக்குப் பயன்படும் பல்வேறு மென்பொருள் கருவிகளை உருவாக்கும் முயற்சிகளில் ஈடுபட்டுள்ளனர். இதுபோன்று தமிழ், மொழியியல், கணினி ஆகிய துறைகளின் தேர்ச்சி பெற்றவர்களை உருவாக்கவும் உருவாகவும் முன்னோக்கி, தமிழியலாளர்கள் செயல்படவேண்டும். உருபனியல் பகுப்பாய்வுகளின்வழியேதான் இத்தகைய சொல்லடைவு மென்பொருள் கருவிகள் உருவாக்க முடியும்.
சொல்லடைவி, தொடரடைவியின் செயல்பாடு
          சொல் தேடல்(Word Search) நிலையில் வேர்ச்சொல் தேடல்(Root word Search), முழுச்சொல் தேடல்(Full Word Search) என்னும் நிலையில் சொற்களை வகைப்படுத்தித் தேர்ந்தெடுக்கமுடிகிறது. வரிசைப்படுத்தல்(Sorting) நிலையில் சொற்பட்டியலை வருகைமுறைப்படி(Running Type), அகர வரிசைப்படி(Alphabetical Order), நிகழ்வெண்ணிக்கையின்படி(Occurrence) எனப் பலவாறு வகைப்படுத்த முடியும். சொற்களின் வருகைமுறை விகிதத்தையும் கண்டறியமுடியும். கணக்கிடுதல் நிலையில்(Counting) எழுத்து, சொல், தொடர், பத்தி ஆகியவற்றின் எண்ணிக்கையையும் கணக்கிட்டுக்காட்ட முடியும்.
          ஒரு படைப்பை வேர்டு டாக்குமென்ட்டாகச் சேமித்து வைத்திருக்கும்பட்சத்தில், அந்தப் படைப்பில்(நூலில்) உள்ள சொற்களைத் தனித்தனியாகப் பிரித்து வரிசைப்படுத்தி அதன் வருகை முறையை(Occurrences) அடைப்புக் குறிக்குள் கொடுத்து, மேலும் அந்தச் சொல் எந்தெந்தப் பக்கங்களில் பயின்றுவந்திருக்கின்றது(Page Numbers or Song Numbers) என்பதையும் மற்றொரு அடைப்புக்குறிக்குள் கொடுத்துச் சொற்களை அகரவரிசைப்படுத்த வேண்டும். மேலும் சொற்களின் பயிற்று எண்ணிக்கையின் (Occurrences) அடிப்படையிலும் வரிசைப் படுத்திக்காட்ட வேண்டும்.
          சொல்லடைவியின் அடுத்த நிலைதான் தொடரடைவி. சொல்லடைவியில் கொடுக்கப்பட்ட சொல்லை அழுத்தும் பொழுது(click) அந்தச் சொல் பயன்படுத்தப்பட்ட தொடர்களை எடுத்துக் கொண்டுவந்து காட்டவேண்டும். இவ்வாறு அடிப்படை நிலையில் சொல்லடைவு, தொடரடைவு உருவாக்கும் கருவி பயன்பாட்டுக்கு வந்தாலே போதும் என்ற நிலை உள்ளது.
          இத்தகைய சொல்லடைவு, தொடரடைவு மென்பொருள் கருவி பயன்பாட்டுக்கு வரும்பொழுது இதுவரை வெளிவந்த படைப்புகளுக்கும் இனி வெளிவரும் படைப்புகளுக்கும் எளிமையாகச் சொல்லடைவோ அல்லது தொடரடைவோ உருவாக்கிக்கொள்ளக்கூடிய  உயர்ந்த நிலை ஏற்படும். மேலும் இத்தகைய மென்பொருள் கருவியை மைக்ரோசாப்ட் ஆபிஸ் வேர்டுவில்(Microsoft Office Word) இணைப்பாகப்(Add-ins) பயன்படுத்தவும் வழிவகை செய்தல் வேண்டும்.
கணினிவழிச் சொல்லடைவு உருவாக்கத்தில் தமிழ்மொழியமைப்புச் சிக்கல்கள்
          தமிழ்மொழித் தரவுகள் உலகலாவிய பொதுமொழியின் தன்மைகளைக் கொண்டிருப்பதோடு தமக்கென தனித்த சில தனித்தன்மைகளைக் கொண்டிருக்கின்றன. வழக்கிழந்த கூறுகளும் புத்தாக்கங்களும் தமிழில் காலங்காலமாக நிகழ்ந்துகொண்டுள்ளது. சாதி, தொழில், வட்டாரம் போன்றவை சார்ந்த வழக்குகளும் துறைசார்ந்த வழக்குகளும் பேச்சு, எழுத்து என்னும் நிலைப்பாடுகளும் தமிழ்மொழித் தரவினை கணினியின் ஏற்புத்திறனுக்கு ஏற்றார்போல் ஒருமைப்படுத்துவதற்கும் பொதுவிதிகளை உருவாக்குவதற்கும் இடையூறுகளாக அமைகின்றன. 
சொற்களைப் பிரித்து வரிசைப் படுத்தும்போது சொற்பிரிப்பில் (Word Space, Word Form) பல்வேறு சிக்கல்கள் எழுகின்றன. தமிழ்மொழியைப் பொறுத்தவரை கணினியில் சொற்களை எங்குப் பிரிக்க(உடைக்க) வேண்டும் என்ற கட்டுப்பாடு கிடையாது. தமிழில் சுட்டுப் பெயர்களைக் கொண்டு உருவாக்கப்படுகின்ற சொற்களில் ஒற்று சேர்ந்து இருப்பது ஒரு சொல்லாகவும், ஒற்று இல்லாமல் இருப்பது ஒரு சொல்லாகவும் தனித்தனியாகப் பிரிக்கப்படுகிறது. உதாரணமாக அந்தக் கடை, அந்த இடம் என்னும் இரண்டு சொற்களில் அந்தக், அந்த என்பது தனித்தனிச் சொல்லாக வரிசைப்படுத்தப்படும். மேலும் ஒற்று மிகக்கூடிய க, , , ப (அந்தக், அந்தச், அந்தத், அந்தப்) எனும் நான்கும் மிகாமல் வரக்கூடிய அந்த என்ற ஒன்றும் என ஐந்து இடங்களில் இதன் வருகை காணப்படும். இதனால் ஒரே சொல் பட்டியலில் பல இடங்களில் வரக்கூடியதாக இருக்கிறது. இது ஒரு எடுத்துக்காட்டு விளக்கமே, சொல்லடைவில் இத்தகைய சுட்டுப்பெயர்களைக் கொடுப்பதில்லை.
          சொற்களைப் பல இடங்களில் பிரித்தும் சேர்த்தும் எழுதுகின்ற வழக்கம் தமிழில் அதிகமாகக் காணப்படுகிறது. 'அறிந்துகொள்ள' என்பதை 'அறிந்து, கொள்ள' என இரண்டு சொற்களாகப் பிரித்து எழுதுகின்றனர். 'செய்ய வேண்டும், காணவேண்டும்' போன்ற பல்வேறு சொல்லமைப்புகள் காணப்படுகின்றன. மேலும் அ,,உ என்னும் சுட்டெழுத்தை அடுத்து வரக்கூடிய சொற்கள் 'அவ்விடத்தில்', 'அவ் இடத்தில்' போன்ற நிலைகளில் பிரித்தும் சேர்த்தும் எழுதப்படுகிறது. இவற்றையெல்லாம் ஒரே ஒழுங்கிற்குக் கொண்டுவந்த பிறகே சொல்லடைவு, தொடரடைவினை உருவாக்க முடியும்.
          தமிழில் மொழியியல் விதிப்படி துணைவினைகள்(Auxiliary Verb), ஒட்டுகள்(Affixes) போன்றவற்றைப் பிரித்து எழுதக்கூடாது என்ற நிலை இருக்கிறது. தான் என்பது இரண்டு நிலைகளில் வரும். எனவேதான், ஆகவேதான், என்னோடுதான் போன்ற உறுதிப் பொருளிலும் வரும், தான் என்று தன்னைக் கூறும்போதும் வரும். மேலும் பொருள் மயக்கம்(Ambiguity) வரக்கூடிய வேலை(வேல்+ஐ=வேலை,வேலை(Work)) அவரை, வருட, காலை, ஓட்டை, பாலை, வில்லை, சொத்தை, சூலை, காதை, கூட்டை போன்ற சொற்களையும் தெளிவுபடுத்த வேண்டும்.
          சொற்பட்டியலில் வேர்ச்சொல்லை அடிப்படையாக வைத்து உருவாகும் சொற்களை அடையாளம் காணமுடியும். அப்போது ஒரு வேர்ச்சொல்லில் இருந்து உருவாகும் சொற்களை ஒரே வருகையில்(Occurrence) கொண்டுவரமுடியும். அவ்வாறு வரும்போது தமிழ் வேர்ச்சொல்லில் சில இடர்ப்பாடுகள் வருகின்றன. வந்தான், வருகிறான், வந்துகொண்டு, வராமல் போன்று வரும்போது  குறில் எழுத்தில் வரிசைப்படுத்திக் காட்டும். ஆனால் இதன் வேர்ச்சொல் வா என்பதாகும். இதேபோல் பல்வேறு வேர்ச்சொல் மூலவடிவ மாற்றமடையும் வினைகளும், மாற்றமடையாத வினைகளும் தமிழில் உள்ளன.
          சொல்லடைவு உருவாக்கும்போது மனித உழைப்பால் முன்திருத்தம்(Pre-Editing) அல்லது பின்திருத்தம்(Post-Editing) செய்ய வேண்டும். முன் திருத்தமே நலம். ஒரு படைப்பினை எடுத்துக்கொண்டால் அதில் உள்ள சொற்களின் கடைசி ஒற்றுகள் (க,,,ப ஆகியவற்றால் முடியும் சொற்கள் மட்டும்) அனைத்தையும் நீக்க வேண்டும் அல்லது அதற்கு ஒரு விதி(Rule) அமைக்கவேண்டும். இதில் பொதுவான ஒரு தீர்வே கூறப்படுகிறது; ஆனால் சில விதிவிலக்குகளும் வரும்.
          ஒரு வேர்ச்சொல்லுடன் சேரும் வேற்றுமைகள், சாரியைகள் போன்றவற்றைப் பிரித்து வரிசைப்படுத்தக் கணினிக்கு உருபன் பகுப்பாய்வையும் சொல்லித்தர வேண்டியுள்ளது. தமிழில் உருபனியல் பகுப்பாய்விகள் உருவாக்கப்பட்டுள்ளன.
இக் கட்டுரையாளரால் பாரதியார் கவிதைகள், பாரதிதாசன் கவிதைகள், சிலப்பதிகாரம், மணிமேகலை போன்றவற்றிற்குக் கணினிவழிச் சொல்லடைவுகள் உருவாக்கும் முயற்சி மேற்கொள்ளப்பட்டுவருகிறது. இவ்வாறு உருவாக்கும்போது ஏற்படுகின்ற தமிழ்மொழியமைப்புச் சிக்கல்கள் ஒருசிலவற்றை எடுத்துக் கூறுவதாக இக் கட்டுரை அமைந்தது.
பயன்பாடு
v  சொற்பட்டியல் தயாரித்தல் வாயிலாகத் தனிச்சொல் அதாவது தனிப்பெயர், வேற்றுமை ஏற்ற பெயர், தனி வினை, விகுதிகளை ஏற்ற வினை என்னும் நிலைகளில் சொற்களை வகைபிரித்துச் செயல்படுத்துவதற்கு இது பெரிதும் துணைபுரியும்.
v  சொற்களைத் தற்கால மொழியியல் அடிப்படையில் பெயர், வினை, அடை, ஒட்டு என்பன போன்ற கூறுகளில் வகைப்படுத்தி ஆராய முடியும். மேலும் ஒரு வேர்ச்சொல்லை அடிப்படையாகக்கொண்டு எவ்வாறெல்லாம் சொற்களை உருவாக்கமுடியும் என்றும் வரிசைப்படுத்த முடியும்.
v  வேர்ச்சொற்களுக்கான பட்டியலை உருவாக்க முடியும். ஒரே வேர்ச்சொல்லை அடிப்படையாகக்கொண்டு எத்தனை சொற்களையும், சொற்றொடர்களையும் உருவாக்கமுடியும் என்று கணக்கிட்டு ஆராய முடியும். சொல் நிலையிலும் தொடர் நிலையிலும் பொருண்மை நிலையிலும் பனுவல்களை ஆராய முடியும்.
v  சொல்லின் ஒரு பகுதியைத் தேடுவதன் வாயிலாக ஒரு விகுதி எந்தெந்தச் சொற்களோடெல்லாம் சேரும் என்பதையும் கண்டறிந்து வரிசைப்படுத்த முடியும். இந்தச் சொல்லடைவு தமிழ் கார்பஸ் (CORPUS) தயாரிப்பதற்குப் பெரிதும் பயன்படும். சொற்பட்டியல், சொல்லடைவு ஆகியவற்றைக் கணினிவழி உருவாக்கும் முறைகளைப் பின்பற்றிப் பனுவல்களிலிருந்து அகராதிகளை உருவாக்கலாம்.
v  பனுவலுக்கான பொருண்மையை இதன் வாயிலாக எளிமையாகக் கண்டறியலாம். மேலும் பல்பொருள் குறித்த ஒரு சொல், ஒருசொல் குறித்த பல்பொருள் எனப் பல நிலைகளில் ஆய்வு செய்யவும் வகைப்படுத்தவும் இதனால் சாத்தியமாகின்றது. இச் சொல்லடைவுகளைக் கொண்டு இலக்கியச் சொற்கள், காலத்திற்கேற்ற சொற்கள், பிறமொழிச்சொற்கள், வட்டார வழக்குச் சொற்கள் எனப் பகுத்தறியப்படுகின்றன. சொற்களின் தேர்வு, பயன்படுத்தும் முறை, புதிய சொற்களை ஆக்கும் திறன், சொற்களுக்குப் புதிய பொருள் அளித்தல் போன்றவைகளையும் ஆராய்வதற்கு இது பெரிதும் உதவும்.
v  ஒவ்வொரு படைப்புகளுக்கும் இத்தகையதொரு மென்பொருள் கருவி உருவாக்குவதன்வழி அந்தப் படைப்பைப் பற்றிய ஆய்வின் அடுத்தநிலைக்கு எடுத்துச்செல்கிறது.
v  சொற்கள் புழக்கமும் அந்தச் சொற்களின் பயிற்றிடங்கள் அதாவது இந்தச் சொல் இந்தந்த இடங்களில்தான் வரும் / வராது என்று தற்கால இலக்கண விதிகளை உருவாக்குவதற்கும் பெரிதும் பயன்படும்.
v  ஒரு வேர்ச்சொல்லை அடிப்படையாக வைத்து உருவாக்கக்கூடிய சொற்களை வகைப்படுத்தும் Lemma Extractor உருவாக்கப் பயன்படும். பொருள் மயக்கம் வரக்கூடிய சொற்களுக்கு உடனடியாக எந்தப் பொருளில் அந்தச் சொல் பயன்படுத்தப்பட்டுள்ளது என்பதை அறிந்துகொள்ளவும் வகைப்படுத்தவும் தொடரடைவு மிகவும் இன்றியமையாததாகும்.
முடிவாக
v  சொல்லடைவு மென்மம் உருவாக்கிச் செயல்படுத்தும்போது அதனைச் சங்க இலக்கியத்திற்கென்றும் தற்காலப் படைப்புகளுக்கென்றும் இரண்டு நிலையில் அமைக்க வேண்டும். தனித்தனியாக ஒவ்வொரு படைப்புக்கும் சொல்லடைவு என இல்லாமல், எவ்வகைப் படைப்பையும் செயல்படுத்தும் கணினிவழிச் சொல்லடைவு, தொடரடைவினை உருவாக்கும் மென்பொருளைப் பயன்பாட்டுக்குக் கொண்டுவர வழிவகை செய்யப்படவேண்டும்.
v  கணினிவழி எந்த ஒரு படைப்புக்கும் சொல்லடைவு(Word Index), தொடரடைவு (Concordance) உருவாக்குவதற்கு முழுமையாகச் செயல்படும் மென்மங்கள் வெளிவரவில்லை எனலாம். இவ்வாறு வெளிவரவேண்டும். அதற்கான முயற்சிகளை மேற்கொள்ளவேண்டும் என்பதே இக் கட்டுரையின் நோக்கம்.
v  சொல்லடைவு, தொடரடைவு, பொருளடைவு உருவாக்குகின்ற நிலையில் இணையவழி நூலடைவு, இணையவழித் தமிழியல் ஆய்வடைவு போன்றவை உருவாக்கப்படவேண்டும்.
v  கணினிவழித் தொடரடைவில் சொற்கள், சொல் விளக்கங்கள், சொல் குறுக்கீட்டு நோக்குகள் ஆகியவையும் இடம்பெறும். ஒரே சொல் பல்வேறு தொடர்களில் வரும் பல்வேறு அமைப்பினைக் கண்டறிய முடியும். தலைப்புச்(Headwords) சொற்களைப் பகுப்பாய்வு செய்யவும், சொற்களின் வருகை எண்ணிக்கையை ஆய்வு செய்யவும், மரபுத் தொடர்களைக் கண்டறிவதுடன் அவற்றைப் பகுப்பாய்வு செய்யவும் தொடரடைவு வழிவகை செய்யும். கணினிவழிச் செய்யப்படும் இத் தொடரடைவுப் பணி எந்திர மொழிபெயர்ப்புக்கும்(Machine Translation) பயன்படும்.
v  எனவே கணினி வழிச் சொல்லடைவு, தொடரடைவு என்பது பல்வேறு நிலைகளில் மொழி ஆய்விற்குப் பயன்படும் கருவி. ஆனால் இத்தகைய மென்மம் உருவாக்கும்போது தமிழ்மொழித் தரவுகள் ஒரு ஒழுங்குக்கு உட்பட்டிருக்கவேண்டும். ஆனால் தமிழ்த் தரவின் தன்மைகள் வேறுபடுகின்றன. தமிழ்மொழியைக் கையாளும் முறையைச் சீர்மைப்படுத்தவேண்டும். அப்போதுதான் இவற்றை எளிமையாக உருவாக்கமுடியும்.