Sunday, August 30, 2015

Google OCR

      நீங்கள் மொழி தெரியாத ஒரு நாட்டில் உங்களுக்கு வழி சொல்ல யாரும் இல்லாத இடத்தில் சிக்கிக் கொண்டீர்கள். அங்கு இருக்கும் ஒரே திசை காட்டி தகவல் பலகையும் உங்களுக்கு புரியாத மொழியில் இருக்கிறது. அம்மொழி தெரியாததால் நீங்கள் எப்பக்கம் செல்வது என முடிவு செய்ய இயலாமல் தவிக்கிறீர்கள். இந்நிலையில் உங்கள் கைப்பேசியில் உள்ள ஒரு செயலியின் மூலம் அந்த பலகையை படம் எடுத்தால் சில வினாடிகளில் அதில் உள்ள தகவல்கள் உங்களுக்கு விருப்பமான மொழியில் அல்லது தமிழில் தெரிந்தால் எவ்வளவு நன்றாக இருக்கும்? யாருடைய உதவியும் இல்லாமல் திசையை தெரிந்து கொண்டு உங்கள் பயணத்தை தடங்கல் இல்லாமல் தொடரலாம் தானே?
     இதையே இன்னொரு மாதிரி யோசிப்போம். தமிழே தெரியாத ஒருவர் தமிழ்நாட்டில் ஏதோ ஒரு மூலையில் உள்ள பழங்கால கோயிலின் தமிழ் கல்வெட்டு/தகவல் பலகையின் முன் இருக்கிறார். அங்கு அவருக்கு மொழிபெயர்த்து சொல்ல யாருமே இல்லை. அவர் தன் கைப்பேசியில் அப் பலகையை படம் எடுக்கிறார், உடனே அந்த தமிழில் உள்ள தகவல்கள், அவர் விருப்ப மொழிக்கு மாற்றப்பட்டு தெரிகின்றது. அவர் எந்த சிரமுமின்றி அத் தகவலை தெரிந்து கொள்கிறார்.
    மேற் சொன்ன இரண்டும் மொழிபெயர்ப்பி (Translator), எழுத்துரு படிப்பான் (Optical Character Recognition, OCR) என்ற இரண்டும் இணைந்தால் சாத்தியமே. இப்பொழுது ஆங்கில மொழிக்கும், வேறு சில மொழிகளுக்கும் இந்த இரண்டு நுட்பங்களுமே மிக முன்னேறிய அளவில் இருக்கின்றன ( கூகுள் இமேஜ் தேடல் இந்த OCR நுட்பத்தை(யும்) பயன் படுத்துகிறது). ஆனால் இந்திய மொழிகளுக்கு, குறிப்பாக தமிழுக்கு இந்த OCR நுட்பம் இன்னும் பரந்துபட்ட அளவில் வரவில்லை.
    கணினிப் பயன்பாட்டில் வேறெந்த இந்திய மொழிகளைக் காட்டிலும் தமிழ் அதிக பயன்பாட்டில் உள்ளது. இருந்தாலும் சில வருடங்ளுக்கு முன்பு வரையில் அச்சு ஊடகங்கள் (பத்திரிக்கைகள், செய்தித் தாள்கள்), அரசு நிறுவனங்கள் தமிழை கணினிமயப் படுத்திய போது TISCI, TAM, TAB, PAANINI என வெவ்வேறு தரங்களை(Standards) பயன்படுத்தின. இதனால் சிறிது காலம் முன்பு வரையிலும் இணையத்தில் தமிழில் இருக்கும் பல பக்கங்கள் தேடுபொறிகளின் கண்களுக்கு தெரியாமலே இருந்தது. யுனிகோடு தமிழ் பயன்பாட்டுக்கு வந்ததில் இருந்து நாம் உள்ளிடும் பெரும்பாலான தகவல்கள் கூகுள் போன்ற தேடுபொறிகளின் மூலம் தேடப்படும் சாத்தியம் கூடியுள்ளது. இருந்தாலும் நாம் கடந்த காலங்களில் காகித்தில் அச்சடித்து வைத்த நூல்கள், தனி நபர்கள் (அ) தன்னார்வ குழுக்கள் ஆகியவற்றால் ஒளி வருடப்பட்டு (Scan) மின்னூல்கள்/pdf ஆக மாற்றப் பட்டிருக்கும் தமிழ் புத்தகங்கள் project madhurai, padippakam.comthamizham.netscribd.com போன்ற வலைத்தலங்களில் இருந்தாலும், கூகுள் தேடுபொறியால் அவற்றை கண்டடைவதென்பதும், அவ்வாறே கண்டடைந்தாலும் அவற்றில் ஏதாகிலும் வார்த்தைகளை தேடுவதென்பதும் இன்னும் கடினமான பணியாகவே இருந்து வந்திருக்கிறது. காரணம் அதில் உள்ள தமிழ் எழுத்துக்களை கணினி படிப்பதற்க்குண்டான நுட்பம் இன்னும் கைவராமலே இருந்தது. அல்லது சந்தையில் இருக்கும் சில நுட்பங்களின் விலையும், தரமும் உவப்பானதாக இல்லை.
    இச்சூழ்நிலையில் தான் கூகுள் வெளியிட்டுள்ள தமிழ் OCR மிக முக்கியத்துவம் வாய்ந்ததாகிறது.
      எந்த மொழிக்குறியதாக இருந்தாலும் OCR நுட்பத்தின் எனக்குத் தெரிந்த பொதுவான பயன்பாடுகள்:
1) போட்டோக்கள், படங்கள் (jpeg,png,tif) என எந்த வடிவத்தில் இருந்தாலும் அவற்றில் உள்ள அந்த குறிப்பிட்ட மொழி எழுத்துக்களை கண்டறிவதும் அவற்றை கணினி படிக்கக் கூடிய ASCII குறியீடுகளாக மாற்றுவது.
2) ஒளி வருடப்பட்டு படங்களாக சேகரிக்கப் பட்ட பழைய தரவுகளில் உள்ள எழுத்துக்களை கண்டறிந்து அவற்றை யுனிகோடுக்கு மாற்றுவதன் மூலம் கணினிமயத் தேடுதலை சாத்தியப் படுத்துவது. (தற்பொழுது தேடு பொறிகள் இத்தகைய தரவுகளுக்கு கொடுக்கப் பட்டுள்ள லேபில்கள், மற்றும் கீவோர்டுகள் மூலமே தேடுகின்றன.)
3) விண்ணப்பங்கள், படிவங்கள் முதலியவற்றில் நிரப்பப் பட்டுள்ள விவரங்களை, கணினி படிக்கும் தகைவில் (machine readable format) அல்லது டேட்டா பேஸில் சேமிக்கும் வகையில் மாற்றுவது. இதன் மூலம் தரவுகளை கணினிமயப் படுத்தும் வேகம் அதிகரிக்கும். விவரங்களை மனிதர்கள் உள்ளிடும் போது நிகழும் மனிதத் தவறுகளை தடுப்பது. ( உங்கள் பெயர் வாக்காளர் பட்டியலில்/ குடும்ப அட்டையில் தவறாக அச்சாகும் சாத்தியம் குறையும்)
4) எழுத்துகள்( ஒரு எழுத்து, ஒரு பத்தி, ஒரு பக்கம், அல்லது ஒரு முழு நூல்) படங்களாக சேமிக்கப் படும்போது வன்தட்டில் அதிக இடம் பிடிக்கும். அதே தகவல்கள் ASCII க்கு மாற்றப் பட்டு சேமிக்கப்படும் போது மிகக் குறைந்த இடத்தையே அடைக்கும். அதே நேரத்தில் இவற்றை ஈ புக் ரீடர்களிலும், திறன் பேசிகளிலும், அளவில் சிறிதாக இருப்பதால், எளிதாக படிக்க இயலும்.
5) ஒரு படத்தில் இருக்கும் தகவல்களை படித்து புரிந்து கொண்டு அதை வேறொரு மொழிக்கு மொழிபெயர்ப்பது. (கூகுள் டிரான்லேட் போன்றவை இப்பொழுது இப்பொழுது நாம் ASCIIஇல் உள்ளிடும் வார்த்தைகளை மொழி பெயர்க்கிறது. ஒரு இமேஜ்-ல் இருக்கும் எழுத்தை படிக்காது)

மேற் குறிப்பிட்ட எல்லா பயன்களையும் தமிழ் எழுத்துகள் இருக்கும் படங்கள், பிடிஎஃப் கோப்புகள், வேறு தட்டச்சுத் தரத்தில் இருக்கும் மின்மயப் படுத்தப் பட்ட தரவுகள் ஆகியவற்றில் இருந்து பெற தமிழ் OCR உதவுகிறது.

இந்த நுட்பம் ஆகச் சிறந்ததா? தவறே இழைக்காதா? என்றால் அதற்க்கு 'இல்லை' என்பதே பதிலாக இருக்க முடியும்.
1) இது ஒரு வளர்ந்து வரும் நுட்பமே. எழுத்துகளை கண்டறிவதில் தவறுகள் நேர வாய்ப்புகள் உள்ளது. Accuracy குறைவு.
2) ஒளி துல்லியம்(image resolution) குறைந்த படங்களை படிக்கும் திறன் எப்படி இருக்கின்றது என்பதை பொறுத்தும், மேற் சொன்ன accuracy அளவுமே இதன் வெற்றி தோல்வியை தீர்மானிக்கும்.
3) கையால் எழுதப்படும் ஆங்கில எழுத்துக்களை படிப்பதற்கு இவ்வளவு முதிர்ந்த ஆங்கில OCRஏ திணறுகிறது. இந்நிலையில் இப்பொழுதுதான் வளர்ந்து வரும் தமிழ் OCR எந்த அளவு கையால் எழுதப்படும் தமிழ் எழுத்துக்களை படிக்கும் என்பது கேள்வியாகவே இருக்கிறது.
கூகுள் இந்த வேலையை செய்வதால் இருக்கும் நன்மைகள்:
1) சிறு நிறுவனங்களை விட கூகுள் இதை எடுத்துச் செய்வதால், அவர்களின் முந்தைய பயனிகளின்/செயலிகளின் தரத்தை பார்க்கும் போது, இதன் தரம் சிறந்ததாகவும் இலவசமாக பயன்படுத்தும் வகையிலும் இருக்கும்.

2) கணினியில் மட்டும் இதன் பயன்பாடு நின்று விடாமல், ஆன்டிராய்டு திறன் பேசிகளிளும் பயன்படுத்தக்கூடிய வகையில் இதை மேம்படுத்த வாய்ப்புகள் அதிகம். அவ்வாறு நடந்தால் நான் கட்டுரையின் ஆரம்பத்தில் சொன்ன கற்பனை நிகழ்வுகள் இரண்டும் வெகு விரைவில் சாத்தியப் பட்டுவிடும்.
smile emoticon
"இதனால் ஏதும் உடனடிப் பயன் உள்ளதா?" என்றால் ஒரு சிலருக்கு மட்டும் என்பதே பதிலாக இருக்கும். உதாரணமாக, உங்கள் கையில் ஒரு துண்டுப் பிரசுரம்/ புத்தகத்தின் ஒரு பக்கம் உள்ளது. அதை உங்கள் வலைத்தளத்திலோ, முகநூல் பக்கத்திலோ பதிய விரும்புகிறீர்கள். இன்று உங்களுக்கு இருக்கும் இரண்டு வழிகள்
1) அந்த துண்டு பிரசுரம்/பக்கத்தை ஸ்கேன் செய்து அப்படியே படமாக (image) பதிவது. ஆனால் அதில் இருக்கும் எழுத்துகள், வார்த்தைகள் முதலியவை தேடு பொறியினால் தேட முடியாது. லேபிள்கள், கீவோர்டுகள் முதலியவை நாமாக குறிப்பிட வேண்டும்.
2) அந்த துண்டு பிரசுரம்/பக்கத்தில் உள்ள தகவலை மீண்டும் (நேரம் செலவளித்து) தட்டச்சி பதிவது. இந்த முறையில் அதில் உள்ள வரைகலை(format) சிதைந்துவிடும். ஆனால் தேடு பொறிகள் இலகுவாக உங்கள் தகவலை தேட இயலும்.
கூடிய சீக்கிரம் கூகுள் OCR இந்த இரு முறைகளின் நன்மைகளையும் கொடுக்கும் என நம்புகிறேன். அதாவது, நீங்கள் பதிந்த படத்தில் (image) இருக்கும் தகவல்களை தேடு பொறிகளால் தேட இயலும். அதில் உள்ள வார்த்தை/வாக்கியங்களை காப்பி/பேஸ்ட் செய்ய இயலும்.