Страницы

пятница, 15 февраля 2019 г.

Глоссарий и обратный перевод


Глоссарий это один из простейших инструментов, который очень давно применяется авторами для облегчения читателям понимания смысла (семантики) в научном, инженерно-техническом или другом тексте (рис.1). При этом, включение глоссария в авторский текст не является обязательным условием. Также, нет единых стандартов на формат и структуру данных при составлении глоссария.

Аналогичными смысловыми понятиями являются – глоссарий, словарь, список терминов и сокращений. Глоссарий может быть структурно оформлен в отдельный раздел книги, документа, статьи или являться самостоятельным изданием, другим информационным объектом.

Рисунок 1. Глоссарий для понимания смысла и/или перевода

Глоссарий (лат. glossarium «собрание глосс») — словарь узкоспециализированных терминов в какой-либо отрасли знаний с толкованием, иногда переводом на другой язык, комментариями и примерами. «Собрание глосс» — это перечень иноязычных или непонятных слов в тексте книги с толкованием. Собственно, глоссарии являются предшественниками словаря [1].
Аббревиатура (лат. brevis «краткий») — слово, образованное сокращением слова или словосочетания и читаемое по алфавитному названию начальных букв или по начальным звукам слов, входящих в него [2].
Словарь — это книга или любой другой источник, информация в котором упорядочена c помощью разбивки на небольшие статьи, отсортированные по названию или тематике. Различают лингвистические, энциклопедические и терминологические словари [3] (рис.2).

Интуитивно понятно, что Глоссарии бывают полезны для работы с текстами, которые относятся к описанию самых разнообразных, особенно междисциплинарных видов человеческой деятельности. Например, без них сложно обойтись при работе с текстами, имеющими отношение к компьютерной индустрии, цифровой экономике, социально-техническим системам. Глоссарии используются для определения новых понятий и описания их смысла, для единообразного перевода текстов на другие языки (рис.4), для уменьшения нежелательных смысловых толкований. Вместе с тем, существуют любопытные примеры для оценки границ применимости Глоссария [4], ввиду его практической бесполезности.

Рисунок 2. Обобщенная классификация Глоссариев

Прежде чем использовать объекты, которые относятся к категории Глоссарий в своей целенаправленной деятельности, как правило, необходимо выполнить несколько предварительных шагов, позволяющих формализовать методы исследования данной темы. Такой подход, позволит понять логику в обосновании ответов на такие вопросы, как:

  • Сколько нужно сочинить и прочесть художественных произведений: романов, рассказов, стихов и прочее, чтобы понять душу человека? – Неизвестно.
  • Сколько нужно изучить книг, чтобы понять основы элементарной геометрии? – Один - два школьных учебника.
Таким образом следует отметить, что у ответов на эти вопросы нет прямого теоретического обоснования, а практическое – есть.

Правила составления Глоссария


Глоссарий состоит из статей. Статья, как минимум, содержит термин и тело описания. Тело описания — это определение термина. При составлении статей принято соблюдать следующие рекомендации:

  • следует избегать употребления жаргонизмов;
  • содержание тела описания кратко раскрывает смысл термина;
  • следует стремиться к точности и достоверности информации.
Два главных правила построения Глоссария:

  1. Новое определение термина основано на ранее определенных терминах.
  2. Подстановка описания термина не должна менять смысла текста.

Возвращаясь к проблеме Глоссария, постараемся получить описание сути проблемы. В качестве содержательного иллюстративного примера воспользуемся описаниями понятия «равнобедренный треугольник». Казалось бы, что в этих фрагментах речь идет о сведениях из элементарной геометрии, но сложно оценить позитивность использования художественных образов для повышения степени понимания смысла. Излишняя двусмысленность и образность - это общая проблема для многих видов человеческой деятельности.

Рассказ о треугольниках

Жила - была на свете важная геометрическая фигура [5, 6]. Важность её признавалась всеми, ибо при изготовлении многих вещей её форма служила образцом. Любимая песенка этой чудо фигуры:
       «Меня знает каждый школьник,
         А зовусь я треугольник.
         У меня вершины три,
         И три ровных стороны».
Два мои угла при основании равны и боковые стороны одинаковые, подумала фигура и решила назвать себя равнобедренной. Скучно было фигуре одной и отправилась она искать друзей. Встречает как-то фигуру: стороны три и угла три. Вот только один угол прямой! Ура! Это прямоугольный треугольник! Стали они дружить. Вместе трудиться, вместе веселиться. Как–то нашли отрезок и решили поэкспериментировать: приложили его одним концом к вершине, а другим к середине противоположной стороны. Красота, это будет МЕДИАНА! Попробуем ещё и поделим угол пополам!
       «Все также скачет по углам
         Веселая, смешная крыса.
         Мы делим радость пополам,
         А делит угол БИССЕКТРИСА».
Вот так они проводили досуг. Однажды гуляя по лесу, встретили очень похожую парочку. Познакомились и стали вместе играть в сравнение. Прижался равнобедренный треугольник к похожему на себя и все точки совпали. Ура! Мы одинаковые. Думали они о равенстве, думали и придумали три теоремы:

  1. если две стороны и угол между ними одного треугольника соответственно равны двум сторонам и углу между ними другого треугольника, то треугольники равны;
  2. если сторона и два прилежащих к ней угла одного треугольника равны соответственно стороне и двум прилежащим к ней углам другого треугольника, то треугольники равны;
  3. если три стороны одного треугольника равны соответственно трем сторонам другого треугольника, то треугольники равны.
С тех пор друзья много времени проводят вместе и встречают новых.

История одного треугольника

Жил да был равнобедренный треугольник [7]. Собрался он однажды пойти на новогодний бал, а наряда у него нет, и решил он сделать себе накидку. А как найти место присоединения накидки к вершине треугольника - не знает. Обратился он к своим друзьям: квадрату, параллелограмму, ромбу, окружности. Думали они, думали и ничего придумать не могут. А праздник уже на носу.
Вдруг неизвестно откуда появилась биссектриса. «Что приуныли, друзья?» - крикнула она. Они поделились с ней своим горем. Биссектриса пропела: «Разве это горе? Ты треугольник равнобедренный, а значит, боковые стороны равны. Сложи накидку пополам и увидишь середину, которую нужно одеть на вершину». Вот и сказке конец, а кто учит геометрию - молодец!

Метод обратного перевода


Современное состояние методов обработки больших данных, теории и практики машинного перевода и других технологий обработки информации позволяет использовать эти методы для проведения экспериментов, которые позволяют сформулировать предположения и сделать выводы по поводу применения глоссариев (рис.3).



Рисунок 3. Базовые методы машинного перевода

Воспользуемся технологическим приемом «метод обратного перевода» в оценке применения глоссариев [8] для фрагмента «История одного треугольника». В качестве инструмента используем сервис Google Translate.


В определении метода обратного перевода, для краткости, воспользуемся следующей нотацией:
TRU(0) – исходная или «нулевая» версия текста на русском языке,
Tr: TRU(0) ® TEN(1) – операция машинного перевода (МП) текста TRU(0) на русском языке в текст TEN(1) на английском языке.
Тогда метод обратного перевода - это последовательное выполнение двух операций МП:

( Tr: TRU(0) ® TEN(1) , Tr: TEN(1) ® TRU(1) )

Под параметром стабилизации содержимого текста относительно метода обратного перевода будем понимать следующее.
Текст TRU(0) стабилизируется, если существует такое i > 0, что TRU(i-1) ~= TRU(i)  . При этом, минимальное значение i - назовем параметром стабилизации.

Операция равенства двух текстов, обозначенная как «~=», понимается без сохранения специальных символов и других символов форматирования, которые не обрабатываются системой МП.

Для современных систем МП имеет место (рис. 3):

( Tr: TRU(0) ® TEN(1) ) ~= ( Tr: TRU(0) ® TML , Tr: TML ® TEN(1) )
где TML - промежуточное значение переводимого текста на внутреннем «мета-языке». К сожалению, операция «псевдо-перевода»

( Tr: TRU(0) ® TRU(1) ) ~= ( Tr: TRU(0) ® TML , Tr: TML ® TRU(1) )
обычно системами МП не поддерживается.




Рисунок 4. Использование Глоссариев для машинного перевода.

Текст содержимого фрагмента «История одного треугольника» стабилизируется только после пяти циклов обратного перевода.
***   ***   ***
Был равнобедренный треугольник. Однажды он собирался пойти на новогодний бал, но у него не было платья, и он решил сделать плащ для себя. И он не знает, как найти место, где мыс прикреплен к вершине треугольника. Он повернулся к своим друзьям: квадрат, параллелограмм, ромб, круг. Они думали, думали и не могли думать ни о чем. И праздник приближается.
Внезапно появился неизвестный биссектриса. «Что тебе грустно, друзья?» - крикнула она. Они поделились своим горем с ней. Бисектор пел: «Это горе? Вы равнобедренный треугольник, что означает, что стороны равны. Сложите плащ пополам и посмотрите на середину, которую хотите надеть. Сказка окончена, но тот, кто преподает геометрию, хорош!
***   ***   ***

Мы не будем обращать внимание на грамматические ошибки. В тексте отмечены только места содержащие смысловые (или семантические) ошибки:
-       появились два понятия, которых не было в исходном тексте – это «мыс» и «бисектор»;
-       появились три логические ошибки – это «не могли думать», «стороны равны» и «преподает».

Машинный перевод исказил смысл текста, но позволил определить в нем те места, которые требуют обязательного перефразирования.

Если машинный перевод – это перевод часто плохого качества и с ошибками, то для обхода этих недостатков на практике используется так называемые «КОШКИ» - специализированные человеко-машинные системы и технологии [9]. «КОШКИ», они же CAT-tools (Computer-Assisted Translation tool, рис.5), - это Фреймворки (платформы) с возможностью встраивания сервисов Google translate или других сервисов машинного перевода. Облачные платформы CAT-tools существенно облегчают людям выполнять перевод качественно, быстро и с адаптацией к необходимым предметным областям.
Одновременное применение Глоссариев, использующих специфику предметной области, отраслевые и корпоративные особенности, является ключевым инструментом для параметризации процесса перевода с целью улучшения качества и снижения количества ошибок. Глоссарий в CAT-tools играет роль «памяти перевода».


Рисунок 5. Пример пользовательского интерфейса для CAT-tool

Следует отметить, что CAT-tools изначально не были предназначены для метода обратного перевода и, соответственно, связанные с этим методом практические задачи не исследованы и не реализованы.


Глоссарий – постановка задачи


В различных приложениях часто возникают такие задачи, где во времени меняется сама структура системы [10]. Приведем несколько примеров таких задач:
1.      Административная структура организации, система военной субординации.
2.      Организация систем связи, системы снабжения складов и баз.
3.      Построение номенклатуры товаров или изделий определенной категории (частично).
4.      Организация ассоциативной памяти в компьютере.
5.      Феодальная структура географического района.
6.      Организация систем глоссариев и словарей.
7.   Процессы аналитической иерархии.

Большинство этих примеров относится к иерархическим структурам, графам и, соответственно, их определенной разновидности – к деревьям. Каждое из перечисленных приложений имеет свои особенности, которые приводят к постановке специфических задач и специальных методов их решения. Добавление в этот перечень задачи «Организация систем глоссариев и словарей», основанное на рекуррентных правилах построения глоссария, позволит наследовать многие практические результаты из этих смежных областей.

Выводы


Несмотря на тот факт, что Глоссарий относится к одной из многих слабо формализуемых понятийных категорий, Глоссарию соответствует структура данных – конечная иерархия (математическое доказательство этого факта будет приведено позднее). Это позволяет поставить и решить достаточно полезные практические задачи.

Категория Глоссарий имеет практическую целесообразность в силу интуитивной простоты своего применения, несмотря на сложности при проведении строгой формализации в её описании. Поскольку большинство недостатков Глоссария и, соответственно, методов составления глоссария, учтено при разработке относительно новой концепции «Онтология прикладной области», то нет особой актуальности в исследованиях в области методов их составления и использования.

Глоссарий предназначен для упрощения понимания смысла текста, за счет формирования семантических связей между используемыми ключевыми понятиями. Однако сам глоссарий не содержит требований и средств для формального представления этих структурных связей. В этом контексте можно говорить о том, что глоссарий является симулякром [11] онтологии. Такой способ подмены понятий довольно часто применяется в теории менеджмента и теории методологий.

Другой похожий пример использования симулякров — это понятие «дорожная карта», которое является симулякром «плана работ». На практике это означает, что может быть разработана презентация «плана работ», каковой является «дорожная карта», но нет собственно «плана работ», в котором взаимоувязаны все необходимые сущности и артефакты проекта или «портфеля проектов».

Литература и полезные ссылки

"Глоссарий: модели и задачи". https://sec2017.blogspot.com/2019/02/blog-post_24.html


[1]  Глоссарий https://ru.wikipedia.org/wiki/Глоссарий
[4]  О смысле бессмысленного в формальной логике ("Джабберуоки", Бармаглот)   https://bourabai.ru/dm/logic/txt06.htm
[5] Рассказ о треугольниках https://refdb.ru/look/2008010.html
[6] Новелла о треугольнике https://refdb.ru/look/2432058.html
[7] История одного треугольника (ученица 7 класса Шевцова Мария)
[8] Чарычанская И.В., «Обратный перевод как инструмент сравнения и анализа текстов оригинала и перевода», 2003, https://cyberleninka.ru/article/n/obratnyy-perevod-kak-instrument-sravneniya-i-analiza-tekstov-originala-i-perevoda-1
[9] «Топ-10 программ памяти переводов» https://translationrating.ru/top-10-cat-tools-2017/

[10] «Динамический подход к анализу структур, описываемых графами», 1977,  http://www.mathnet.ru/php/archive.phtml?wshow=paper&jrnid=at&paperid=7406&option_lang=rus
[11] Симулякр https://ru.wikipedia.org/wiki/Симулякр


2 комментария:

  1. Ответы
    1. Спасибо за Ваше добавление к теме поста о Глоссариях, интересное направление. Для уточнения темы моего поста пришлось добавить отдельный уточняющий подраздел "Постановка задачи".

      Удалить