Способ пословного семантического анализа искаженных участков текста

НА ГЛАВНУЮ

Способ пословного семантического анализа искаженных участков текста.

Хисамов Франгиз Гельфанетдинович

доктор технических наук, профессор, академик РАЕН

Питько Сергей Анатольевич

кандидат техничесаких наук

Елисеев Николай Иванович

адъюнкт

Зимонин Дмитрий Викторович

адъюнкт

Краснодарское Высшее Военное Училище (военный институт) имени генерала армии С.М. Штеменко.

www.24pilorama.ru

Деревообрабатывающее оборудование, станки для распиловки. Бревна, тонкомер

24pilorama.ru

В настоящее время существует несколько методик орфографического контроля открытых текстов служебных телеграмм. Однако, при всех достоинствах данных методик существенным недостатком является отсутствие возможности в полной мере использовать смысловую избыточность слов русского языка, которая составляет приблизительно 57%. Это позволяет при хорошей эталонной базе и квалифицированной подготовке оператора восстанавливать слова с длиной искажения до 50%.

Для автоматизации контроля корректировки ошибок рассмотрим методику пословного анализа. Она основана на применении принципов композиционно-динамического анализа. Сущность данной методики заключается в формировании для каждого слова эталонного значения. В результате для каждого слова формируется семантический эталон, состоящий из набора эталонных семантических единиц (ЭСЕ). В следствии этого, алгоритм методики пословного анализа сводится к сопоставлению проверяемого слова открытого текста телеграммы представленного в виде дискретной последовательности элементов текста A = (1, 2, …, n), со всеми эталонами словаря. В процессе сопоставления для каждого эталона осуществляется сегментация последовательности А, в результате которой максимизируется интегральная мера сходства между полученными сегментами слова и соответствующими ЭСЕ исходного семантического эталона. То слово, для которого соответствующий семантический эталон имеет наибольшую меру сходства, со словом открытого текста криптограммы принимается как кандидат на полное соответствие [1, 2].

Представим, слово открытого текста криптограммы в виде дискретной последовательности элементов слова A1 = (, , …, ).

1. Выбор эталона E1 = (,, …, ), подлежащего идентификации слова происходит в случае сходства элемента с элементом . Элемент является определителем первого порядка эталона E1 . Далее происходит поочередное сравнение элементов открытого текста А1 с соответствующими элементами эталона Е1. В случае полного совпадения элементов множества А1 и элементов эталона Е1 происходит проверка на сравнение следующего множества элементов открытого текста А2 с эталоном Е2 и так до последнего сравнения множества Аn с эталонным множеством Еn

2. В случае если элемент множества А1 не совпадает с соответствующим элементом эталона Е1, процесс сопоставления продолжается, однако эталон Е1 заносится в буфер памяти как наиболее близкий к слову. После этого процесс сопоставления происходит с эталоном Е2, который соответствует условию равенства первого элемента множества А1 и определителем первого порядка эталона Е2, т.е. выполняется равенство =Е2 . Процесс сравнения происходит до последнего эталонного множества Еn для которого выполняется равенство =Еn. Эталон с наибольшим количеством совпадений принимается за наиболее вероятное значение для элементов множества А1

3. В случае если при сравнении происходит несовпадение элемента и определителя первого порядка эталона Е1, то происходит сравнение с определителем первого порядка эталона Е2 и так до последнего эталонного множества Еn. Причем не совпавшие элементы открытого текста с элементами эталонных множеств выделяются как нераспознанные. В случае если количество нераспознанных элементов составляет более 50% от всех элементов проверяемого множества, происходит проверка в соответствии с весовыми показателями. Если данное слово соответствует допустимой группе весовых значений, то оно выделяется как нераспознанное, иначе выдается сообщение о невозможности корректировки.

4. Если совпадение элемента множества А1 и определителем первого порядка множества Е1, Е2, …, Еn не происходит, то сравнение осуществляется с элементом - определитель второго порядка множества Е1, в случае совпадения множество Е1 берется за эталонную величину и происходит поэлементное сравнение по алгоритму указанному в пунктах 1-3. Если не происходит ни одного совпадения элемента множества А1 с определителями второго порядка всех существующих эталонных множеств, то происходит сравнение с определителем третьего порядка и так до сравнения элемента с определителем n-го порядка.

5. В случае отсутствия совпадения элемента множества А1 и элементов эталонных величин множеств Е1, Е2, …, Еn происходит сравнение элемента множества А1 с элементами эталонных множеств по алгоритму указанному в пунктах 1-4. При отсутствии совпадений элемента с элементами эталонных множеств, происходит сравнение очередного элемента множества А1 до элемента , по алгоритму указанному в пунктах 1-4.

По окончании процесса сопоставления элементов криптограммы с элементами эталонных множеств, все множества открытого текста телеграммы, в которых не произошло сопоставление каких либо элементов с эталонными величинами, выделяются и оператору автоматически предлагаются наиболее близкие по количеству совпадений элементов эталонные величины. В случае отсутствия эталонных значений для искаженных слов телеграммы предлагаются наиболее вероятные значения искаженных элементов.

Таким образом, данная методика орфографического контроля семантических элементов служебных телеграмм позволяет строить алгоритм автоматической проверки, корректировки и анализа набираемого текста [1, 2].

Литература.

1. Герасименко В.А. Основы теории управления качеством информации / Моск. гос. истор.-архив. ин-т. М., 1989. Деп. в ВИНИТИ 26.06.89, №5392-В.89.

2. Герасименко В.А. Основы информационной грамоты. – М.: Энергоатомиздат, 1996.

Поступила в редакцию 12 февраля 2008 г.