யூனிக்கோடில் மேலதிகமாகத் தமிழ்எழுத்துக்கள்

பொருளும், காலமும் செலவிட்டுச் சில ஆண்டுகள் உலக எழுத்து முறைகளில் மூழ்கித் தமிழுக்குப் பொருத்தமான 'யுனிகோட் சார்ட் எது?' தமிழ் ப்ளாக் (block) அறிவியல், தமிழிலக்கண நெறிப்படி அமைந்திருக்க வேண்டுமே என நினைந்தேன். அப்படித் தான் மாலத்தீவின் எழுத்தின் குறியேற்றம் யூனிக்கோடில் அமைந்துள்ளது என்பது அறியற்பாலது.

யூனிக்கோடில் மாலத் தீவின் எழுத்து

மேலோட்டமாக, மாலத்தீவின் எழுத்து (தானா) எனப்படுவது அரபி போலத் தோன்றினாலும், அதன் அடிப்படை விஞ்ஞான பூர்வமானது. அதில் தனிமெய்களும், உயிர்களும் உள்ளன. யுனிக்கோடில் 'தானா' எழுத்து பாருங்கள்: http://www.unicode.org/charts/PDF/U0780.pdf
நம் தொல்காப்பியனாரும், கொங்கின் விளக்கு பவணந்தியாரும் சொன்ன க்+அ = க என்னும் அடிப்படையில் ' தானா' (Thaana) இயன்றதாகும். பார்வைக்குச் சிங்களம், அரபி போன்ற சட்டைகள் போட்டிருந்தாலும் உறவின்முறை (kinship), எழுத்து (Thaana) எல்லாம் மாலத்தீவு அடிப்படையில் தமிழ்வேர்களைக் கொண்டது.

Where Did the Maldives People Come From? Dravidian substratum in Maldives:
http://www.iias.nl/iiasn/iiasn5/insouasi/maloney.html

மாலத்தீவின் எழுத்தமைதியைக் கண்ணுறுங்கள், அங்கே முழுக்க இசுலாமியர் வாழ்தலினால் எழுத்தின் சட்டை அராபிக் போல இருக்கிறது. ஆனால், தனி மெய்யெழுத்துக்களும் உயிரெழுத்துக்களும் கொண்டதே மாலத்தீவின் எழுத்து: http://www.omniglot.com/writing/thaana.htm
தஞ்சை ராசராசன் ஆண்ட பூமியல்லவா மாலத்தீவுகள்? அவர்கள் மெய்யெழுத்தில் அகரம் ஏறவில்லை, கண்டீர்களா?

கணிக்குறியேற்றத்தில் மெய்யெழுத்துக்களின் இன்றியமையாமை:

ஆனால், தமிழ் எழுத்துக்களை யுனிகோடில் பாருங்கள். தமிழர் குலவிளக்குகள் காப்பியனாரும், எங்கள் ஊர்க்காரர் பவணந்தி முனிவரும் போற்றிக்காத்த மெய்யெழுத்துக்களே காணோம்!! தமிழ் யுனிகோட் பிளாக்: http://www.unicode.org/charts/PDF/U0B80.pdf

இந்நிலை ஏன் வந்தது? அடிப்படையில் இந்திய மொழிகளுக்கு இஸ்கி/யுனிகோட் ஸம்ஸ்க்ருதம்/இந்தி மேலாண்மை அளிப்பது. எனவே அக்ஷரம் (அட்சரம்/அக்கரம்) அதன் மூல அடிப்படை ஆகும். அதாவது அகரம் ஏறிய உயிர்மெய்கள் தான் மெய்யெழுத்துக்கள் என்கிறது யுனிகோட். அப்பிழையைத் தமிழ்நாட்டு அதிகாரிகள் யுனிகோட் அமைக்கும் போழ்து சுட்டிக்காட்டி எடுத்துரைக்கத் தவறிவிட்டனர். அதனால்தான், தமிழின் வேராகிய தனி மெய்யெழுத்துக்களை யுனிகோட் கோட்சார்ட்டில் காணோம். எனவே தான், மெய்யெழுத்துக்களை தமிழ் பிளாக்கிலேயே கேளுங்கள் என்று தமிழ்நாட்டு அரசின் அதிகாரிகளிடம் வேண்டியுள்ளேன்.

டாக்டர். உமா அவர்களால் திருத்தப்பெற்ற (edited) யுனிகோட் கேரக்டர் வரையறைகள்: http://std.dkuug.dk/JTC1/SC2/WG2/docs/n2352r.html இதன்படி பார்த்தாலும், மெய்யெழுத்துக்கள் தனி கோட்பாய்ண்ட் பெறும் 'கேரக்டர்' என்பதன் எல்லாத் தகுதியும் கொண்டவை. வேண்டுமானால், தனி மெய்யும், உயிரும் புணர்ந்து தோன்றும் உயிர்மெய்யை 'லெட்டர்' என்றடக்கலாம். (1) மெய்யெழுத்தின் சிறப்பால்தான் தமிழ் இந்திபோலல்லாது கூட்டெழுத்து (சம்யுக்தாக்ஷரம்) இல்லாமல் இயங்குகிறது. இதற்கு எதிர்ப்பதமாக, இந்தியின் வலை அல்லது அச்சில் ஒரு பக்கம் பாருங்கள், ஒரு விராமமும் (=ஹல்(லு) அந்தம்/அக்ஷராந்தம்; நம் மெய்யின் புள்ளிக்கு இணையானது) அனேகமாக இருக்காது. ஆக, நம் மெய்யெழுத்துத் தத்துவம் இந்தி எழுத்தின் வேரன்று. (2) மேலும், மெய்யெழுத்துக்கள் தமிழின் எந்த நூலிலும் ~1/3 பாகம் இருக்கும்; கண்களுக்குத் தெரியும். இதற்கு நேர்மாறாக, இந்திப் பக்கங்களில் அனேகமாக விராமம் இருப்பதே கண்களுக்குத் தெரியாது.

தொல்காப்பியர் முதற் சூத்திரத்தாலேயே "எழுத்து எனப் படுப அகரமுதல் னகர இறுவாய் முப்பஃது என்ப" இலக்கணகர்த்தர் எழுத்து என்றால் மெய் 18, உயிர் 12 என்று சொல்லிவிட்டார். உயிர்மெய்களை இளம்பூரணர் தன் தொல்காப்பிய உரையிலே குறிப்பிடுகிறார்: "எனப்படுப என்ற சிறப்பால், அளபெடையும், உயிர்மெய்யும் வரிவடிவும் சிறப்பில்லா எழுத்தாகக் கொள்ளப் பட்டன."

ஆக, தொல்காப்பிய முதற் சூத்திரத்திலே குறிக்கப்படும் மெய்கள் யுனிகோடின் 'கேரக்டர்', தொல்காப்பியத்தின் சிறப்பில்லா எழுத்துக்களாம் உயிர்மெய்கள் 'லெட்டெர்' என்று கொள்ள வாய்ப்புண்டு. அதாவது, உயிர்மெய்கள் என்பவை உரைகாரர்களின் 'விரியுள் விரி' என்ற வகையில் அடங்குவன. 12 X 18 = 216 உயிர்மெய்கள் (in matrix format).

மெய்உயிர் என்கோடிங் - என் பரிந்துரை

மேலே கண்ட 'தானா' போல, ஒரு தமிழ்க் குறியேற்றத்தை நாம் அமைத்து ஃபாண்ட் செய்திருக்கலாம், விட்டுவிட்டோம். வருங்காலத்தில் செய்யமுடியும். என் பரிந்துரையாம் 'மெய்உயிர்' என்கோடிங்கும் மூலக்கூறுகளை இங்கே சுருக்கமாகப் பார்ப்போம். ஆங்கிலத்தில் உரைப்பதானால்,

(a) In the MeyUyir encoding, only vowels and consonants (மெய்யெழுத்துக்கள்) of Tamil are encoded atomically.

(b) All uyirmey letters are generated by font intelligence: that is க் followed by உ will automatically produce கு. Nowadays, in Open Type fonts this is trivial, no rendering engine etc., So, Tamil grammar is followed: க் + உ = கு.

(c) In few and rare instances where தமிழ்இனம், mey and uyir letters have to be shown separated, use zwnj (zero-width non-joiner).

(d) க்‌ஷ is left as non-conjunct by default. E.g., பக்‌ஷி (bird, name of a Muslim male). Conjunct க்ஷ் is created only when needed using zwj (zero width joiner).

Pure Consonant and Vowels encoding model (my MeyUyir model): If Unicode is newly designed today, my choice is this model for Tamil (and, it will not be optimal for Hindi/Sanskrit). Now, unfortunately, current Indic Unicode is optimal for Hindi, and the overhead on Tamil is high. எனவே தான், தமிழக அரசு டேஸ் குறியீட்டினை நாடுகிறது எனலாம்.

இந்த மெய்உயிர் என்கோடிங்கில், உயிர் எழுத்தும், மெய்யெழுத்தும் தனி கோட்பாய்ண்ட்களுடன் விளங்கும். இதுவரை அப்படி ஓர் என்கோடிங் தமிழுக்கு இல்லை. விசைப்பலகையைக் காட்டிலும் தமிழின் என்கோடிங்கில் அவ்வெழுத்துக்கள் அனைத்தும், முக்கியமாய் மெய்கள், இடம் பெற்றிருக்க வேண்டும். காலம் கனியும், காத்திருப்போம்.

நா. கணேசன்

4 comments:

துளசி கோபால் said...

அன்புள்ள கணேசன்,

இப்போதுதான் உங்கள் நட்சத்திரப் பக்கங்களுக்கு வந்து பார்த்தேன்.

வாயடைத்து நிற்கின்றேன் என்று கூறினால் அது மிகையல்ல.

நிறைகுடம் என்றால் என்ன என்று புரிந்துகொண்டேன்.

திரைக்குப்பின் நீங்கள் செய்த சேவைகளால், அரங்கத்தில் ஆடும் கூட்டத்தில் நானும் ஒருத்தி.

உங்கள் புகழ் குடத்தில்(மீண்டும் குடம் வந்து நிற்கிறதே)இட்ட விளக்காக இல்லாமல், குன்றின்மேல் விளக்காய் இருந்து ஒளிவீச வேண்டும் என
முழுமனதுடன் வாழ்த்துகின்றேன்.

என்றும் அன்புடன்,
துளசி ( நியூஸிலாந்து)

manjoorraja said...

நீங்கள் சொல்லும் எழுத்துத்திருத்தங்களை ஒருங்குறி அட்டவணையில் இட முடியாதா? அல்லது விரைவில் இடுவார்களா?

Kasi Arumugam said...

//மெய்யெழுத்துக்கள் தமிழின் எந்த நூலிலும் ~1/3 பாகம் இருக்கும்; கண்களுக்குத் தெரியும். //

இது ஒன்றே தமிழில் மெய்யெழுத்துக்களுக்கு தனி இடம் வெண்டும் என்பதற்கான தேவையைப் புரியவைக்கிறது. என் அறிவுக்குறைவாலும், ஆர்வக்குறைவாலும் 'இப்போதுள்ள யுனிகோடின் முழுமையின்மை' பற்றிய பல செய்திகளை உள்வாங்கிக்கொள்ளாமல் இருக்கிறேன். இனியாவது கொஞ்சம் அறிந்துகொள்ள ஆவலைத் தூண்டுகிறது இந்த இடுகை.

//என் பரிந்துரையாம் 'மெய்உயிர்' என்கோடிங்கும் மூலக்கூறுகளை இங்கே சுருக்கமாகப் பார்ப்போம். //

பத்தாது, விளங்கச் சொல்லுங்க!:-)

நா. கணேசன் said...

நியூ ஃசீலாந்து துளசி, மஞ்சூர் சுந்தரராசு, காசி - உங்கள் மடல்களுக்கு என் நன்றிகள்.
நா. கணேசன்