Проблемы автоматического восстановления текстовой
информации, принятой с группированием искажений.
Елисеев Николай Иванович,
адъюнкт Краснодарского Высшего Военного Училища
(военный институт) имени генерала армии Штеменко С. М.
В настоящее время существуют различные методы
восстановления текстовой информации при возникновении искажений в процессе
передачи ее по каналам связи низкого качества. Одним из наиболее часто
используемых методов является восстановление текста за счет смысловой
избыточности.
Наиболее важными с точки зрения восстановления искаженных
участков открытого текста, являются сообщения, несущие смысловую информацию. Ее
можно представить в виде последовательности знаков. Эти знаки берутся из
фиксированного набора, русского алфавита. Разные знаки могут встречаться в
сообщениях с разной частотой. Поэтому количество информации, передаваемое
различными знаками, может быть разным.
Для передачи информации прописными буквами можно было бы
обойтись лишь 22 буквами или на 45 % сократить длину текста.
Таким образом, сообщения языка занимают места больше, чем
это необходимо. Это явление называют избыточностью языка. Благодаря этому
искажения отдельных символов сообщения зачастую не разрушают содержания, что
случилось бы при отсутствии избыточности. Однако утверждение, что вероятность
появления символа в связном тексте не зависит от его предыстории неверно и
статистически, и лингвистически. Известно, что обычно за согласной буквой
следует гласная, а за гласной согласная. Поэтому текст криптограммы
рассматривается как цепочка символов, где вероятность появления буквы зависит
от предыдущей.
Для
упрощения и автоматизации корректировки искаженного текста при восстановлении
его за счет смысловой избыточности может применятся метод пословного анализа
основанный на применении принципов композиционно-динамического анализа. Сущность метода заключается в формировании для
каждого слова эталонного значения. В результате для каждого слова формируется
семантический эталон, состоящий из набора эталонных семантических единиц (ЭСЕ).
В следствии этого алгоритм пословного анализа сводится к сопоставлению
проверяемого слова открытого текста представленного в виде дискретной
последовательности элементов текста A = (1, 2, …, n),
со всеми эталонами словаря. В процессе сопоставления для каждого эталона
осуществляется сегментация последовательности А, в результате которой
максимизируется интегральная мера сходства между полученными сегментами слова и
соответствующими ЭСЕ исходного семантического эталона. То слово, для которого
соответствующий семантический эталон имеет наибольшую меру сходства с словом
открытого текста принимается как кандидат на полное соответствие.
Однако данные методы применимы только при
возникновении одиночных искажений или при группировании искажений не более
двух, трех знаков открытого текста. При возникновении группирования искажений
больше двух, трех знаков, восстановление и применение методов
автоматизированного восстановления искаженных текстовых сообщений практически
невозможно. Требуется повторный запрос искаженных участков или всего текста
полностью, что в свою очередь влияет на оперативность передачи информации.
Поэтому разработка новых методов повышения помехоустойчивости информации при
передачи ее по каналам связи низкого качества, а в частности разработка
способов декорреляции группирования искажений в одиночные искажения (искажения
одного знака слова), являются актуальными.
заказов по логистике и экспедирования грузов transoft.ru
Литература.
1.
Герасименко В.А. Основы информационной грамоты.
– М.: Энергоатомиздат, 1996.
2.
Дружинин Г.В., Сергеева И.В. Качество
информации. М.: Радио и связь, 1990.
3.
Котов П. А. Повышение достоверности передачи
цифровой информации. М., «Связь», 1966, с. 4-7, 12-19, 27-34
4.
Шеннон К. Работы по теории информации и кибернетике.
М., ИИЛ, 1963, с. 12-23
Поступила
в редакцию 9 октября 2007 г.