4 Aralık 2007 Salı

OCR Nedir?

OCR OCR İngilizce açılımı "optical character recognition" olan optik karakter tanıma isimli sistemlere deniliyor. Yapılan iş kağıt üzerindeki yazının tanınması ve düzenlebilir makine yazısı haline dönüştürülmesidir.

Örnek vermek gerekirse bir kitap sayfasını tarayıcı ile taradıktan sonra bir OCR yazılımı ile bunu Word dökümanı olarak kaydetmek bir OCR prosedürüdür.

OCR teknolojisi uzun zamandır insanları meşgul eden ve özellikle dijital çağdan önce çok önemli olan bir teknoloji. Örneğin zarf ile posta yollanan zamanlarda posta üzerindeki adresi otomatik tanımlamanın işi ne kadar kolaylaştıracağını tahmin edebiliriz. Veya şu anda üniversite, KPSS, motorlu taşıtlar gibi sınavlarda teknolojik avantajı nedeniyle kullanmak zorunda olduğumuz test sistemi daha başarılı bir OCR prosedürü oluşturulabilirse tarihe karışabilir.

El yazısı tanımlama OCR'ın daha hala geliştirilme safhasında olduğu bir dalı. Makine (daktilo, bilgisayar çıktısı, baskı gibi) karakterleri özellikle Latin alfabesi temelli olanlar başarıyla tanımlabiliyor. Fakat el yazısı için şimdilik çok büyük başarı yakalanmış değil.

El yazısını yazarken tanımak ise özellikle Palm cihazlarının önderliğinde uzun zamandır kullanılıyor. Fakat bu yöntem yazı halindeyken hareket hızı ve yönü gibi değişkenleri yazım sırasında yakaladığı için halihazırda yazılmış dökümanlar için geçerli olmuyor.

Günümüzde her ne kadar çoğu yazışma ve döküman zaten dijital ortamda bulunduğu için dönüştürme gereksinimi azalsa da özellikle eski belgeler, kitaplar, kayıtlar ve pek çok diğer unsurun dijital ortama aktarılması için OCR teknolojisi büyük zaman tasarrufu sağlıyor.

Project Gutenberg adında eski kitapların dijital ortama aktarılması ile 22.000 kitabı dijital hale getirdiği belirtiliyor. Bu işlerin büyük bölümünün OCR ile yaptıklarını ve OCR olmasaydı değil bu rakamın yakalanması bu işe girilmeyeceğini tahmin edebilirsiniz.

Kağıdın saklanmasından çoğaltılmasına pek çok dezavantajı varken dijital ortamdaki metnin ne kadar avantaj sağladığı ve bu adım için OCR'ın ne kadar önemli olduğunu kabul etmek gerekir.

OCR ile dökümanları dijital hale getirmek için ihtiyacınız olanlar bir tarayıcı donanımı ve bir OCR yazılımı. OCR yazılımı olarak ABBY FineReader shareware olarak benim tercih ettiğim bir yazılım. Ücretsiz olarak SimpleOCR göze batıyor. Ayrıca bazı tarayıcılar paket içerisinde OCR yazılımları ile satılmakta.

OCR'ın yanında iyi bir yazım denetleyici yazılımı ile çalışmak olabilecek tanıma hatalarını minimuma indirecektir.

Günümüzde OCR yazılımları dökümanı scanlemekten, tablo, rakam, resimleri otomatik tanımlayıp düzenli dökümanlar haline getirmeye pek çok özelliği destekliyor.

Dikkat edilmesi gereken bir unsur da Türkçe gibi İngiliz alfabesi dışında harfler bulunan diller için OCR yazılımında bu desteğin özellikle aranması. Yoksa ş ğ gibi harflere yanlış karşılıklar almak mümkün.

2 yorum:

Adsız dedi ki...

paylaşım için teşekkürler

Adsız dedi ki...

teşekkür ederim sayın levent. güzel ve yerinde bir açıklamaydı. teşekkürler