Мова: пытанні ўжытку, адказы наўпрост: Распазнанне беларускага тэксту на малюнках і сканаваных дакументах

Каб распазнаць літары, змешчаныя на малюнку, ці выняць тэкст са сканаванага дакумента ці кніжкі і затым перадаць у Word, дагэтуль можна было скарыстацца выдатнай праграмай FineReader. Яна мае базавую падтрымку беларускага алфавіта, і дазваляе хутка ператвараць сканаваны тэкст ці PDF у дакумент, які можна адрэдагаваць у кожным тэкставым рэдактары. Аднак гэта досыць вялікая праграма, якая не заўсёды ёсць пад рукою, ды і не бясплатная. Але цяпер беларускамоўныя атрымалі неблагую альтэрнатыву.

Усім вядомая кампанія Гугл дадала функцыю аптычнага распазнання тэкстаў (OCR) у сэрвіс Google Drive, і сярод падтрыманых моваў ёсць і наша беларуская. Каб палепшыць якасць распазнання тэксту, інжынеры Гугл скарысталі схаваныя Маркаўскія мадэлі, якія ўжываюцца таксама для распазнання вуснай мовы і галасавога пошуку.

Сэрвісам Google Drive можна карыстацца як на кампутарах, гэтак і на мабільных прыладах: планшэтах, смартфонах. Атрымаць тэкст з малюнка ці PDF-файла не складана:

Адчыніце акенца свайго асабістага сховішча Google Drive ў аглядальніку Інтэрнэт. Або зарэгіструйцеся, калі ў вас яго яшчэ няма.
Загрузіце ў сховішча файл, які трэба распазнаць, ці абярыце раней загружаны.

Адкрыйце абраны файл у Google Docs (на кампутары пстрыкнуць правай кнопкай мышкі на файле – Адкрыць у – Google Docs.

Пачакайце крыху, пакуль сістэма апрацуе тэкст. Тэкст з кожнай старонкі з'явіцца проста пад яе выявай.

На якасна адсканаваных дакументах сістэма працуе досыць добра. Але, нажаль, ёсць і абмежаванні:

файл малюнка павінен мець памер не большы за 2 мегабайты,
у PDF-дакуменце будуць распазнавацца толькі першыя 10 старонак.

Будзем спадзявацца, гэтыя абмежаванні праграмы будуць з часам слабець, а якасць працы толькі ўзрастаць.

Мова: пытанні ўжытку, адказы наўпрост

Saturday, May 9, 2015

Распазнанне беларускага тэксту на малюнках і сканаваных дакументах

No comments:

Post a Comment

Сталыя чытачы

Пра мяне