ПРИМЕРЫ
Ошибки распознавания
Вот пример текста, распознанного одной
из ведущих программ распознавания.
Старорусская орфография и плохое
качество исходного документа сильно повлияли на
количество ошибок. Красным цветом
выделены слова которые требуют
исправления:
Августъ
(Кай Юл1й
Цеэарь
Октав1анъ)-
порвый
римск1й
иМператОръ,
первсначально
на-зыв.
Кай Октав1й,
сынъ
Кая Октав1я
и Ат!и,
дочери Юл1и,
младшей сестры Юл\u1103я Цезаря, род. 23 сент.
63 г.
до Р.
X. Фамил1я
Октав1-евъ
принаддежала
къ
богагому
и знагному
роду. Отецъ
Октав1я,
бывшш
сначала преторомъ,
а потомъ
правителемъ
Македоши,
умеръ,
когЛа
сыпу
его быдо
лишь 4 года. Тъмъ
не менъе,
благоларя заботамъ
свеей
матери и ея
втораго
муэка
Люц!я
Марвдя
Филиппа, Окт.
получидъ
тщательное воспиташе.
Своимн
талаптами
онъ
сксро
заслужилъ
любонь
Юл1я
Цезаря, приходив-шагося
ему двоюроднымъ
дядей, такъ
что послъдшй
въ
45 г.
усыновилъ
его и въ
своемъ
завещании назначилъ
главнымъ
своимъ
наслъд-никомъ.
Когда Цезарь былъ
убить (15 марта 44 г.)
Августъ
находился въ
Аполлоны, въ
Эпиръ.
Онъ
сейчасъ
же поспъшилъ
при этомъ
изв^ст1и
въ
Итал1ю
и, узнавъ
при Брундиз1умЬ
о содержаши
завъ1цан1я,
ръшплся
вмъсгЬ
съ
наслъдствомъ
принять и имя Цезаря, и въ
то же время стремиться къ
унаслъдовашю
его власти, не высказывая, впрочемъ,
открыто этего
послъдняго
желашя.
Въ
то время въ
Римъ
боролись
двй
партш:
республиканская, свергнувшая
Цезаря, и парт1я
Антон!я (см. это сл.)
и Лепида (см. это сл.),
которая, подъ
преддо-гомъ
мести за смерть Ц.,
сгремилась
лишЬ
захВатить
влаСть
въ
собственпыя
руки.
В этом тексте 198 слов из которых 114
содержат ошибки распознавания или
старорусское написание, которое нужно
исправлять на современное. Текст
практически нечитаемый и его проще
набрать заново, чем исправлять.
Обработаем этот текст программой AfterScan
Antique. Всего за 21 секунду мы получим
следующий текст:
Август
(Кай Юлий
Цезарь
Октавиан)
— первый
римский
император,
первоначально
на-зыв.
Кай Октавий,
сын
Кая Октавия
и Атии,
дочери Юлии,
младшей сестры Юлія
Цезаря, род. 23 сент.
63 г.
до Р.
X. Фамилия
Октавиев
принадлежала
к
богатому
и знатному
роду. Отец
Октавия,
бывший
сначала претором,
а потом
правителем
Македонии,
умер,
когда
сыну
его было
лишь 4 года. Тем
не менее,
благодаря
заботам
своей
матери и ее
второго
мужа
Люция
Марвдя
Филиппа, Окт.
получил
тщательное воспитание.
Своими
талантами
он
скоро
заслужил
любовь
Юлия
Цезаря, приходившегося
ему двоюродным
дядей, так
что последний
в
45 г.
усыновил
его и в
своем
завещании назначил
главным
своим
наследником.
Когда Цезарь был
убить (15 марта 44 г.)
Август
находился в
Аполлоны, в
Эпир.
Он
сейчас
же поспешил
при этом
известии
в
Италию
и, узнав
при Брундизиуме
о содержании
завещания,
решился
вместе
с
наследством
принять и имя Цезаря, и в
то же время стремиться
к
унаследованию
его власти, не высказывая, впрочем,
открыто этого
последнего
желания.
В
то время в
Рим
боролись
две
партии:
республиканская, свергнувшая
Цезаря, и партия
Антония
(см. это сл.)
и Лепида (см. это сл.),
которая, под
предлогом
мести за смерть Ц.,
стремилась
лишь
захватить
власть
в
собственные
руки.
Программа не смогла
распознать четыре слова, которые на
самом деле ошибок не содержат. Программа
автоматически сделала в этом тексте 171
исправление.
Переформатирование
До появления системы WindowsТМ
текстовые редакторы использовали
пробелы и фиксированные переносы для
форматирования текста. Большое
количество этих старых текстов можно
найти в Интернете и по сей день. Вот пример
такого текста. Все выглядит нормально
при использовании моноширного шрифта,
но попробуйте изменить размеры окна и вы
увидите, что текст содержит
фиксированные переводы
строки и выравнивание по ширине
достигнуто за счет дополнительных
пробелов между словами. Также вы
заметите, что некоторые слова разделены
жесткими переносами. При сканировании и
распознавании книг мы тоже получаем
тексты с жестким форматированием.
Работать с таким текстом в современном
редакторе с плавающими абзацами
практически невозможно, а
переформатировать такой текст вручную -
долгая и кропотливая работа. По счастью
эту работу может теперь выполнить AfterScan.
Функция переформатирования производит
следующий текст.
Попробуйте изменять размеры окна и вы
увидите что фиксированные переводы
строки внутри абзаца исчезли. Также
обратите внимание, что слова с
переносами были соединены и пропали
лишние пробелы между словами.
|