Saturday, May 9, 2015

Распазнанне беларускага тэксту на малюнках і сканаваных дакументах

Каб распазнаць літары, змешчаныя на малюнку, ці выняць тэкст са сканаванага дакумента ці кніжкі і затым перадаць у Word, дагэтуль можна было скарыстацца выдатнай праграмай FineReader. Яна мае базавую падтрымку беларускага алфавіта, і дазваляе хутка ператвараць сканаваны тэкст ці PDF у дакумент, які можна адрэдагаваць у кожным тэкставым рэдактары. Аднак гэта досыць вялікая праграма, якая не заўсёды ёсць пад рукою, ды і не бясплатная. Але цяпер беларускамоўныя атрымалі неблагую альтэрнатыву.

Усім вядомая кампанія Гугл дадала функцыю аптычнага распазнання тэкстаў (OCR) у сэрвіс Google Drive, і сярод падтрыманых моваў ёсць і наша беларуская. Каб палепшыць якасць распазнання тэксту, інжынеры Гугл скарысталі схаваныя Маркаўскія мадэлі, якія ўжываюцца таксама для распазнання вуснай мовы і галасавога пошуку.

Сэрвісам Google Drive можна карыстацца як на кампутарах, гэтак і на мабільных прыладах: планшэтах, смартфонах. Атрымаць тэкст з малюнка ці PDF-файла не складана:
  • Адчыніце акенца свайго асабістага сховішча Google Drive ў аглядальніку Інтэрнэт. Або зарэгіструйцеся, калі ў вас яго яшчэ няма.
  • Загрузіце ў сховішча файл, які трэба распазнаць, ці абярыце раней загружаны.
  • Адкрыйце абраны файл у Google Docs (на кампутары пстрыкнуць правай кнопкай мышкі на файле  Адкрыць у  Google Docs.
Пачакайце крыху, пакуль сістэма апрацуе тэкст. Тэкст з кожнай старонкі з'явіцца проста пад яе выявай.


На якасна адсканаваных дакументах сістэма працуе досыць добра. Але, нажаль, ёсць і абмежаванні:
  • файл малюнка павінен мець памер не большы за 2 мегабайты,
  • у PDF-дакуменце будуць распазнавацца толькі першыя 10 старонак.
Будзем спадзявацца, гэтыя абмежаванні праграмы будуць з часам слабець, а якасць працы толькі ўзрастаць.

No comments:

Post a Comment