О ПРОГРАММЕ
  Функции
сравнение разных версий программы
   Примеры
фрагменты текста до и после обработки
   Экраны
интерфейс программы
 
ДРУГИЕ ПРОДУКТЫ
   Иероглиф
неординарный бесплатный редактор
IRC-3PO
бесплатный  IRC- переводчик
 
РЕКЛАМА
Mirena IUD recall . grand theft auto V pc . GUTSCHEIN ZALANDO .

ПРИМЕРЫ

Ошибки распознавания

Вот пример текста, распознанного одной из ведущих программ распознавания. Старорусская орфография и плохое качество исходного документа сильно повлияли на количество ошибок. Красным цветом выделены слова которые требуют исправления:

Августъ (Кай Юл1й Цеэарь Октав1анъ)- порвый римск1й иМператОръ, первсначально на-зыв. Кай Октав1й, сынъ Кая Октав1я и Ат!и, дочери Юл1и, младшей сестры Юл\u1103я Цезаря, род. 23 сент. 63 г. до Р. X. Фамил1я Октав1-евъ принаддежала къ богагому и знагному роду. Отецъ Октав1я, бывшш сначала преторомъ, а потомъ правителемъ Македоши, умеръ, когЛа сыпу его быдо лишь 4 года. Тъмъ не менъе, благоларя заботамъ свеей матери и ея втораго муэка Люц!я Марвдя Филиппа, Окт. получидъ тщательное воспиташе. Своимн талаптами онъ сксро заслужилъ любонь Юл1я Цезаря, прихо­див-шагося ему двоюроднымъ дядей, такъ что послъдшй въ 45 г. усыновилъ его и въ своемъ завещании назначилъ главнымъ своимъ наслъд-никомъ. Когда Цезарь былъ убить (15 марта 44 г.) Августъ находился въ Аполлоны, въ Эпиръ. Онъ сейчасъ же поспъшилъ при этомъ изв^ст1и въ Итал1ю и, узнавъ при Брундиз1умЬ о содержаши завъ1цан1я, ръшплся вмъсгЬ съ наслъдствомъ принять и имя Цезаря, и въ то же время стремиться къ унаслъдовашю его власти, не высказывая, впрочемъ, открыто этего послъдняго желашя. Въ то время въ Римъ бо­ролись двй партш: республиканская, свергнув­шая Цезаря, и парт1я Антон!я (см. это сл.) и Лепида (см. это сл.), которая, подъ преддо-гомъ мести за смерть Ц., сгремилась лишЬ за­хВатить влаСть въ собственпыя руки.

В этом тексте 198 слов из которых 114 содержат ошибки распознавания или старорусское написание, которое нужно исправлять на современное. Текст практически нечитаемый и его проще набрать заново, чем исправлять. Обработаем этот текст программой AfterScan Antique. Всего за 21 секунду мы получим следующий текст:

Август (Кай Юлий Цезарь Октавиан) первый римский император, первоначально на-зыв. Кай Октавий, сын Кая Октавия и Атии, дочери Юлии, младшей сестры Юлія Цезаря, род. 23 сент. 63 г. до Р. X. Фамилия Октавиев принадлежала к богатому и знатному роду. Отец Октавия, бывший сначала претором, а потом правителем Македонии, умер, когда сыну его было лишь 4 года. Тем не менее, благодаря заботам своей матери и ее второго мужа Люция Марвдя Филиппа, Окт. получил тщательное воспитание. Своими талантами он скоро заслужил любовь Юлия Цезаря, приходившегося ему двоюродным дядей, так что последний в 45 г. усыновил его и в своем завещании назначил главным своим наследником. Когда Цезарь был убить (15 марта 44 г.) Август находился в Аполлоны, в Эпир. Он сейчас же поспешил при этом известии в Италию и, узнав при Брундизиуме о содержании завещания, решился вместе с наследством принять и имя Цезаря, и в то же время стремиться к унаследованию его власти, не высказывая, впрочем, открыто этого последнего желания. В то время в Рим боролись две партии: республиканская, свергнувшая Цезаря, и партия Антония (см. это сл.) и Лепида (см. это сл.), которая, под предлогом мести за смерть Ц., стремилась лишь захватить власть в собственные руки.

Программа не смогла распознать четыре слова, которые на самом деле ошибок не содержат. Программа автоматически сделала в этом тексте 171 исправление. 

Переформатирование

До появления системы WindowsТМ текстовые редакторы использовали пробелы и фиксированные переносы для форматирования текста. Большое количество этих старых текстов можно найти в Интернете и по сей день. Вот пример такого текста. Все выглядит нормально при использовании моноширного шрифта, но попробуйте изменить размеры окна и вы увидите, что текст содержит фиксированные переводы строки и выравнивание по ширине достигнуто за счет дополнительных пробелов между словами. Также вы заметите, что некоторые слова разделены жесткими переносами. При сканировании и распознавании книг мы тоже получаем тексты с жестким форматированием. Работать с таким текстом в современном редакторе с плавающими абзацами практически невозможно, а переформатировать такой текст вручную - долгая и кропотливая работа. По счастью эту работу может теперь выполнить AfterScan. Функция переформатирования производит следующий текст. Попробуйте изменять размеры окна и вы увидите что фиксированные переводы строки внутри абзаца исчезли. Также обратите внимание, что слова с переносами были соединены и пропали лишние пробелы между словами.

 


  новости   продукты   загрузка   помощь  (C) InteLife Solutions, 1998-2008