हेल्लो दोस्तों आप इस आर्टिकल में OCR kya hota hai (Optical Character Recognition) के बारे में जानेंगे। OCR क्या है? OCR कैसे काम करता है? OCR सॉफ्टवेयर कौनसे हैं, OCR के फायदे और नुकसान आदि के बारे में जानेंगे कृपया इस आर्टिकल को पूरा पढ़ें …
OCR क्या है – What is OCR in Hindi –
OCR का पूरा नाम Optical Character Recognition है। ऑप्टिकल कैरेक्टर रिकॉग्निशन एक मशीन-एनकोडेड टेक्स्ट में टाइप, हस्तलिखित या प्रिंटेड टेक्स्ट की छवियों का इलेक्ट्रॉनिक या डिजिटल रूपांतर करता है।
OCR कंप्यूटर के लिए इलेक्ट्रॉनिक डिवाइस होता है। Optical character reader (OCR) तकनीक का व्यापक रूप से text-to-speech तकनीकों की मदद से टेक्स्ट फॉर्म में उपलब्ध जानकारियों को स्पीच में बदलने के लिए इस्तेमाल किया जाता है जिससे यह नेत्रहीन और दृष्टिबाधित व्यक्तियों के लिए सुविधा प्रदान करता है।
OCR का व्यापक रूप से प्रिंटेड पेपर डेटा रिकॉर्ड से डेटा एंटी के रूप में उपयोग किया जाता है- चाहे पासपोर्ट दस्तावेज चालान, बैंक स्टेटमेंट, कम्यूटरीकृत रसीदे, बिजनेस कोड, मेल स्टैटिक-डेटा का प्रिंटआउट,या कोई उपयुक्त दस्ताबेजीकरण का यह एक सामान्य तरीका है।
प्रिंट ग्रंथों का डिजिटाइज करना ताकि उन्हें इलेक्ट्रॉनिक रूप से संपादित किया जा सके,सर्च किया जा सके,अधिक कोपैक्ट रूप से संग्रहित किया जा सके,और मशीन प्रक्रिया जैसे संज्ञानात्मक कंप्यूटिंग,मशीन ट्रेन्सलेशन,टेक्स्ट टू स्पीच,कुंजी डाटा और टेक्स्ट माइनिंग में उपयोग किया जा सके। OCR पैटर्न रिकगिरशन, आर्टिफिशियल इंटेलिजेंस (AI) और कंप्यूटर विजन में अनुसंधान का एक आधुनिक क्षेत्र है।
OCR का प्रौद्योगिकी के अन्य अनुप्रयोगो में ऐतिहासिक और सांस्कृतिक ग्रंथों,व्यक्तिगत पहचान,और प्रोसेसिंग इनबॉक्स आर्डर और अन्य दस्तावेज को सुरक्षित रखने के साथ-साथ कानूनी फर्मो और आंदोलनों में डाकघरों और दस्तावेजों को छांटना शामिल है।
एक अच्छा उदाहरण लिया जाए तो कंपनी और पुस्तकालय है जो पुस्तकें,पत्रिकाओं और पुरानी प्रिंटेड सामग्री की फिजिकल कॉपी लेते हैं और उन्हें है कंप्यूटर पर डालने के लिए OCR का उपयोग करते हैं OCR वर्तमान में पुराने टेक्स्ट के टाइप किए गए पेज को डिजिटाइज करने का सबसे अच्छा तरीका है।
इन्हें भी पढ़े –
OCR कैसे काम करता है – How OCR Works in Hindi –
जब कोई प्रिंटेड या हस्तलिखित पेज स्कैन किया जाता है तो उसे TIF फॉमेंट की बिटमैप की गई फाइल के रूप में सेव किया जाता है हम इस इमेज को स्क्रीन पर डिस्प्ले होने पर पढ़ सकते हैं। हालांकि कंप्यूटर के लिए यह केवल सफेद और काले डॉटस की एक श्रंखला है यह इमेज के प्रत्येक पंक्ति को देखता है और निर्धारित करता है कि डॉटस कि श्रंखला किसी विशेष संख्या या अक्षर से मेल खाती है या नहीं।
ऑप्टिकल कैरेक्टर रिकॉग्निशन मैं तो अलग अलग तकनीक है :- Pattern Recognition और Feature Extraction। अब इस तकनीकी को थोड़ी और अधिक विस्तार से जानते हैं।
Pattern Recognition –
सॉफ्टवेयर में टो कैरेक्टर का मैट्रिक्स । नतीजतन, इस तकनीक को Pattern Matching या matrix matching के रूप में जाना जाता है इस तकनीक का दोष यह है कि यह इनपुट कैरेक्टर और स्टोर किए गए कैरेक्टर पर समान फोंट और समान सकेल पर निर्भर करता है।
इस इमेज को देखें- यह OCR – OCR -A के लिए 1960 के दशक में बनाया गया पहला फोंट था, जहां हर अक्षर की चौड़ाई समान थी बैंकिंग कंप्यूटरों को संसाधित करने की अनुमति देने के लिए इस फोंट का उपयोग करके सभी चेक प्रिंट किए गए थे।
Feature Extraction –
यह एक बहुत अधिक परिष्कृत तरीके से कैरेक्टर को पहचानता है यह लाइन नो क्लॉथ लूप लाइन दिशाओं और इंटरसेक्शन जैसे फीचर्स में कैरेक्टर को विघटित करता है।
एक उदाहरण के रूप में लेटर A को ले। यदि कंप्यूटर शीर्ष पर मिलने वाले दो कोण रेखाओं को दर्शाता है और दोनों रेखाएं मध्य में एक स्तरीय रेखा से जोड़ता है तो वह अक्षर A है।
इस तरह के नियमों का उपयोग करके प्रोग्राम उस कैपिटल के A की पहचान कर सकता है भले ही वह किसी भी फोंट में लिखा गया हो।
Pre-processing to improve text recognition –
टेक्स्ट को प्रभावी ढंग से पहचानने के लिए सॉफ्टवेयर को तकनीक का उपयोग करके इमेज को पूर्व संसाधित करना होगा:-
De-skew -टेक्स्ट की पंक्ति को पूरी तरह से क्षत्रिय या उधवारधर बनाने के लिए इमेज के कुछ डिग्री तक tilting करना
Despecter स्पोर्ट को हटाना और कैरेक्टर की किनारों को चिकना करना
Characterisation सीप्लस टचिंग कैरेक्टर जो एक दूसरे में ब्लीड हो सकते हैं
Layout analysis टेक्स्ट स्थिति, कोल्लम और पैराग्राफकी पहचान करना
Line removal ओवरलाइनिंग लाइन या बॉक्स को हटाना
अधिक परिष्कृत सॉफ्टवेयर post-processing चरणों को भी संचालित करता है सॉफ्टवेयर उत्तोलक आउटपुट को एक लेकिसकौन से मिलाएगा,या पड़ोसी के शब्दों को पहचान करने के लिए पास पास विश्लेषण करेगा,जो आमतौर पर एक साथ देखे जाते हैं।
OCR सॉफ्टवेयर कौनसे है – What is OCR software in Hindi –
आज की सॉफ्टवेयर भी उपलब्ध है जो हिंदी में स्कैन किए गए सॉफ्टवेयर को हिंदी एडिटेबल और सर्चेबल टेक्स्ट में कन्वर्ट कर सकते हैं। लेकिन यह सभी पैड वर्जन है। इसमें से कुछ Online OCR, Nanonets, Acrobat और Light PDF है।
OCR के पीछे की तकनीक क्या है – What is the technology behind OCR in Hindi –
OCR एक ऐसी तकनीकी है जो आपको विभिन्न प्रकार के डॉक्यूमेंट को बदलने में सक्षम बनाती है। जैसे स्कैन किए गए पेपर डॉक्यूमेंट,पीडीएफ,फाइल या डिजिटल कैमरा द्वारा कैप्चर किए गए इमेज एडिटेबल और सर्च करने योग्य डेटा में।
इन्हें भी पढ़े –
OCR का इतिहास – History of OCR in Hindi –
प्रारंभिक Optical character recognition को पता टेलीग्राफी से जुडीसे तकनीकों और नेत्रहीनों के लिए रीडिंग करने वाली डिवाइस बनाने से लगाया जा सकता है 1914 में Emanuel Goldberg ने एक मशीन विकसित की जो करेक्टर को पढ़ती है और उन्हें मानक टेलीग्राफ कोर्ड में परिवर्तित करती है लगभग उसी समय Edmund Fournier d’Albe ने Optophone नामकडिवाइस का आविष्कार किया।
Emanuel Goldberg के अविष्कार की तरह,यह एक हेडहैलड स्केनर था जो विशिष्ट अक्षरों या वर्णों के अनुरूप स्वर को उत्पन्न करता था क्योंकि यह एक पेज पर मुंव किया जाता था।
Ray Kurzweil ने 1974 में Kurzweil products Inc की स्थापना की, जो ओमनी-फोंट OCR को और विकसित किया एक ऐसी तकनीक कि जो अधिकांश फोंट में प्रिंटेड टेक्स्ट को पहचान सकती है हालांकि ओमनी-फोंट OCR को अक्सर Ray Kurzweil को श्रेय दिया जाता है। लेकिन कंपनी ने इनका इस्तेमाल बहुत पहले किया था ।
OCR के फायदे – Advantages of OCR in Hindi –
- OCR की Information को सटीकता के Readableहो सकती है
- OCR की मदद से समय की बचत होती है क्योंकि system में जानकारी को Manual रूप से Type करने में ज्यादा समय लगता है।
- OCR सूचना की processing बहुत Fast होती है बड़ी मात्रा में Text को input किया जा सकता है।
- Advance OCR Table, Column को फिर से बना सकते हैं।
- OCR Converterमदद से किसी Application के साथ data को पुनः प्राप्त करना आसान है।
- OCR तकनीकी की मदद से दृष्टिहीन लोग पढ़ सकते हैं कार्यालय में काम कर सकते हैं।
OCR के नुकसान – Disadvantages of OCR in Hindi –
- OCR केवल text किये गए Print को अच्छे से पहचान पाता है हाथ से लिखे text को पहचानने में OCR को कठिनाई होती है।
- OCR बहुत महंगे होते हैं।
- इस प्रक्रिया के दौरान Image Quality कम हो सकती है।
- OCR 100% स्टिक होती है, Processके दौरान कुछ गलतियां हो सकती है।
निष्कर्ष (Conclusion) –
आज हमने इस आर्टिकल में OCR के बारे में जाना। OCR को व्यापक रूप से प्रिंटेड पेपर,डेटा रिकॉर्ड से डेटा एंटी के रूप में उपयोग किया जाता है। अगर आप नई जानकारियों के बारे में जानना चाहते हैं तो RivnTech के साथ जरूर जुड़िए। जहां आपको हर तरह की नई-नई जानकारियां दी जाती है। RivnTech पर यह पोस्ट पढ़ने के लिए बहुत-बहुत धन्यवाद !