Глоссарий это один из простейших инструментов, который
очень давно применяется авторами для облегчения читателям понимания смысла (семантики)
в научном, инженерно-техническом или другом тексте (рис.1). При этом, включение
глоссария в авторский текст не является обязательным условием. Также, нет
единых стандартов на формат и структуру данных при составлении глоссария.
Аналогичными смысловыми понятиями являются – глоссарий, словарь,
список терминов и сокращений. Глоссарий может быть структурно оформлен в
отдельный раздел книги, документа, статьи или являться самостоятельным изданием,
другим информационным объектом.
Рисунок 1. Глоссарий для понимания смысла и/или перевода
Глоссарий (лат.
glossarium «собрание глосс») — словарь узкоспециализированных терминов в
какой-либо отрасли знаний с толкованием, иногда переводом на другой язык,
комментариями и примерами. «Собрание глосс» — это перечень иноязычных или
непонятных слов в тексте книги с толкованием. Собственно, глоссарии являются
предшественниками словаря [1].
Аббревиатура
(лат. brevis «краткий») — слово, образованное сокращением слова или
словосочетания и читаемое по алфавитному названию начальных букв или по
начальным звукам слов, входящих в него [2].
Словарь — это
книга или любой другой источник, информация в котором упорядочена c помощью
разбивки на небольшие статьи, отсортированные по названию или тематике.
Различают лингвистические, энциклопедические и терминологические словари [3]
(рис.2).
Интуитивно понятно, что Глоссарии бывают полезны для работы
с текстами, которые относятся к описанию самых разнообразных, особенно
междисциплинарных видов человеческой деятельности. Например, без них сложно
обойтись при работе с текстами, имеющими отношение к компьютерной индустрии,
цифровой экономике, социально-техническим системам. Глоссарии используются для
определения новых понятий и описания их смысла, для единообразного перевода
текстов на другие языки (рис.4), для уменьшения нежелательных смысловых
толкований. Вместе с тем, существуют любопытные примеры для оценки границ
применимости Глоссария [4], ввиду его практической бесполезности.
Рисунок 2. Обобщенная классификация Глоссариев
Прежде чем использовать объекты, которые относятся к
категории Глоссарий в своей целенаправленной деятельности, как правило, необходимо
выполнить несколько предварительных шагов, позволяющих формализовать методы
исследования данной темы. Такой подход, позволит понять логику в обосновании
ответов на такие вопросы, как:
- Сколько нужно сочинить и прочесть художественных произведений: романов, рассказов, стихов и прочее, чтобы понять душу человека? – Неизвестно.
- Сколько нужно изучить книг, чтобы понять основы элементарной геометрии? – Один - два школьных учебника.
Таким образом следует отметить, что у ответов на эти вопросы
нет прямого теоретического обоснования, а практическое – есть.
Правила составления Глоссария
Глоссарий состоит из статей. Статья, как минимум, содержит термин и тело описания. Тело описания — это определение термина. При составлении статей принято соблюдать следующие рекомендации:
- следует избегать употребления жаргонизмов;
- содержание тела описания кратко раскрывает смысл термина;
- следует стремиться к точности и достоверности информации.
Два главных правила построения Глоссария:
Возвращаясь к проблеме Глоссария, постараемся получить описание сути проблемы. В качестве содержательного иллюстративного примера воспользуемся описаниями понятия «равнобедренный треугольник». Казалось бы, что в этих фрагментах речь идет о сведениях из элементарной геометрии, но сложно оценить позитивность использования художественных образов для повышения степени понимания смысла. Излишняя двусмысленность и образность - это общая проблема для многих видов человеческой деятельности.
- Новое определение термина основано на ранее определенных терминах.
- Подстановка описания термина не должна менять смысла текста.
Возвращаясь к проблеме Глоссария, постараемся получить описание сути проблемы. В качестве содержательного иллюстративного примера воспользуемся описаниями понятия «равнобедренный треугольник». Казалось бы, что в этих фрагментах речь идет о сведениях из элементарной геометрии, но сложно оценить позитивность использования художественных образов для повышения степени понимания смысла. Излишняя двусмысленность и образность - это общая проблема для многих видов человеческой деятельности.
Рассказ о треугольниках
Жила - была на свете важная геометрическая фигура [5, 6].
Важность её признавалась всеми, ибо при изготовлении многих вещей её форма
служила образцом. Любимая песенка этой чудо фигуры:
«Меня знает каждый школьник,
А зовусь я треугольник.
У меня вершины три,
И три ровных стороны».
А зовусь я треугольник.
У меня вершины три,
И три ровных стороны».
Два мои угла при основании равны и боковые стороны
одинаковые, подумала фигура и решила назвать себя равнобедренной. Скучно было фигуре
одной и отправилась она искать друзей. Встречает как-то фигуру: стороны три и
угла три. Вот только один угол прямой! Ура! Это прямоугольный треугольник!
Стали они дружить. Вместе трудиться, вместе веселиться. Как–то нашли отрезок и
решили поэкспериментировать: приложили его одним концом к вершине, а другим к
середине противоположной стороны. Красота, это будет МЕДИАНА! Попробуем ещё и
поделим угол пополам!
«Все также скачет по углам
Веселая, смешная крыса.
Мы делим радость пополам,
А делит угол БИССЕКТРИСА».
Вот так они проводили досуг. Однажды гуляя по лесу,
встретили очень похожую парочку. Познакомились и стали вместе играть в
сравнение. Прижался равнобедренный треугольник к похожему на себя и все точки
совпали. Ура! Мы одинаковые. Думали они о равенстве, думали и придумали три
теоремы:
- если две стороны и угол между ними одного треугольника соответственно равны двум сторонам и углу между ними другого треугольника, то треугольники равны;
- если сторона и два прилежащих к ней угла одного треугольника равны соответственно стороне и двум прилежащим к ней углам другого треугольника, то треугольники равны;
- если три стороны одного треугольника равны соответственно трем сторонам другого треугольника, то треугольники равны.
С тех пор друзья много времени проводят вместе и встречают
новых.
История одного треугольника
Жил да был равнобедренный треугольник [7]. Собрался он
однажды пойти на новогодний бал, а наряда у него нет, и решил он сделать себе
накидку. А как найти место присоединения
накидки к вершине треугольника - не знает. Обратился он к своим друзьям:
квадрату, параллелограмму, ромбу, окружности. Думали они, думали и ничего придумать не могут. А
праздник уже на носу.
Вдруг неизвестно откуда появилась биссектриса. «Что
приуныли, друзья?» - крикнула она. Они поделились с ней своим горем. Биссектриса пропела: «Разве это горе? Ты
треугольник равнобедренный, а значит, боковые
стороны равны. Сложи накидку пополам и увидишь середину, которую нужно
одеть на вершину». Вот и сказке конец, а кто
учит геометрию - молодец!
Метод обратного перевода
Современное состояние методов обработки больших данных,
теории и практики машинного перевода и других технологий обработки информации
позволяет использовать эти методы для проведения экспериментов, которые
позволяют сформулировать предположения и сделать выводы по поводу применения
глоссариев (рис.3).
Рисунок 3. Базовые методы машинного перевода
Воспользуемся технологическим приемом «метод обратного перевода» в оценке применения глоссариев [8] для фрагмента «История одного треугольника». В качестве инструмента используем сервис Google Translate.
В определении метода обратного перевода, для краткости, воспользуемся
следующей нотацией:
TRU(0)
– исходная или «нулевая» версия текста на русском языке,
Tr: TRU(0) ® TEN(1) – операция машинного
перевода (МП) текста TRU(0)
на русском языке в текст TEN(1)
на английском языке.
Тогда метод обратного перевода - это последовательное
выполнение двух операций МП:
( Tr: TRU(0)
® TEN(1)
, Tr: TEN(1) ® TRU(1) )
Под параметром стабилизации содержимого текста относительно
метода обратного перевода будем понимать следующее.
Текст TRU(0) стабилизируется,
если существует такое i > 0, что
TRU(i-1) ~= TRU(i) . При этом, минимальное значение i - назовем параметром стабилизации.
Операция равенства двух текстов, обозначенная как «~=», понимается без сохранения
специальных символов и других символов форматирования, которые не
обрабатываются системой МП.
Для современных систем МП имеет место (рис. 3):
( Tr:
TRU(0) ® TEN(1) ) ~= ( Tr: TRU(0) ®
T’ML , Tr: T’ML ®
TEN(1)
) ,
где T’ML -
промежуточное значение переводимого текста на внутреннем «мета-языке». К сожалению, операция «псевдо-перевода»
обычно системами МП не поддерживается.
Рисунок 4. Использование Глоссариев для машинного
перевода.
Текст содержимого фрагмента «История одного треугольника» стабилизируется только после пяти циклов
обратного перевода.
*** *** ***
Был равнобедренный треугольник. Однажды он собирался
пойти на новогодний бал, но у него не было платья, и он решил сделать плащ для
себя. И он не знает, как найти место, где мыс прикреплен к вершине
треугольника. Он повернулся к своим друзьям: квадрат, параллелограмм, ромб,
круг. Они думали, думали и не могли думать ни о чем. И праздник
приближается.
Внезапно появился неизвестный биссектриса. «Что тебе
грустно, друзья?» - крикнула она. Они поделились своим горем с ней. Бисектор пел: «Это горе? Вы равнобедренный треугольник,
что означает, что стороны равны.
Сложите плащ пополам и посмотрите на середину, которую хотите надеть. Сказка
окончена, но тот, кто преподает
геометрию, хорош!
*** *** ***
Мы не будем обращать внимание на грамматические ошибки. В
тексте отмечены только места содержащие смысловые (или семантические) ошибки:
-
появились два понятия, которых не было в
исходном тексте – это «мыс» и «бисектор»;
-
появились три логические ошибки – это «не могли
думать», «стороны равны» и «преподает».
Машинный перевод исказил смысл текста, но позволил определить в нем те места, которые требуют обязательного перефразирования.
Если машинный перевод – это перевод часто плохого качества и с ошибками, то для обхода этих недостатков на практике используется так называемые «КОШКИ» - специализированные человеко-машинные системы и технологии [9]. «КОШКИ», они же CAT-tools (Computer-Assisted Translation tool, рис.5), - это Фреймворки (платформы) с возможностью встраивания сервисов Google translate или других сервисов машинного перевода. Облачные платформы CAT-tools существенно облегчают людям выполнять перевод качественно, быстро и с адаптацией к необходимым предметным областям.
Одновременное применение Глоссариев, использующих
специфику предметной области, отраслевые и корпоративные особенности, является
ключевым инструментом для параметризации процесса перевода с целью улучшения
качества и снижения количества ошибок. Глоссарий в CAT-tools играет роль «памяти перевода».
Рисунок 5. Пример пользовательского интерфейса для CAT-tool
Следует отметить, что CAT-tools изначально не были предназначены для метода обратного
перевода и, соответственно, связанные с этим методом практические задачи не
исследованы и не реализованы.
В различных приложениях часто возникают такие задачи, где во времени меняется сама структура системы [10]. Приведем несколько примеров таких задач:
Глоссарий – постановка задачи
В различных приложениях часто возникают такие задачи, где во времени меняется сама структура системы [10]. Приведем несколько примеров таких задач:
1. Административная
структура организации, система военной субординации.
2. Организация
систем связи, системы снабжения складов и баз.
3. Построение
номенклатуры товаров или изделий определенной категории (частично).
4. Организация
ассоциативной памяти в компьютере.
5. Феодальная
структура географического района.
6. Организация
систем глоссариев и словарей.
7. Процессы аналитической иерархии.
7. Процессы аналитической иерархии.
Большинство этих примеров относится к иерархическим
структурам, графам и, соответственно, их определенной разновидности – к деревьям.
Каждое из перечисленных приложений имеет свои особенности, которые приводят к постановке
специфических задач и специальных методов их решения. Добавление в этот
перечень задачи «Организация систем глоссариев и словарей», основанное на рекуррентных правилах построения глоссария, позволит наследовать многие практические результаты из этих смежных
областей.
Выводы
Несмотря на тот факт, что Глоссарий относится к одной из многих слабо формализуемых понятийных категорий, Глоссарию соответствует структура данных – конечная иерархия (математическое доказательство этого факта будет приведено позднее). Это позволяет поставить и решить достаточно полезные практические задачи.
Категория Глоссарий имеет практическую целесообразность в силу интуитивной простоты своего применения, несмотря на сложности при проведении строгой формализации в её описании. Поскольку большинство недостатков Глоссария и, соответственно, методов составления глоссария, учтено при разработке относительно новой концепции «Онтология прикладной области», то нет особой актуальности в исследованиях в области методов их составления и использования.
Глоссарий предназначен для упрощения понимания смысла текста, за счет формирования семантических связей между используемыми ключевыми понятиями. Однако сам глоссарий не содержит требований и средств для формального представления этих структурных связей. В этом контексте можно говорить о том, что глоссарий является симулякром [11] онтологии. Такой способ подмены понятий довольно часто применяется в теории менеджмента и теории методологий.
Другой похожий пример использования симулякров — это понятие «дорожная карта», которое является симулякром «плана работ». На практике это означает, что может быть разработана презентация «плана работ», каковой является «дорожная карта», но нет собственно «плана работ», в котором взаимоувязаны все необходимые сущности и артефакты проекта или «портфеля проектов».
Литература и полезные ссылки
"Глоссарий: модели и задачи". https://sec2017.blogspot.com/2019/02/blog-post_24.html
[1] Глоссарий https://ru.wikipedia.org/wiki/Глоссарий
[1] Глоссарий https://ru.wikipedia.org/wiki/Глоссарий
[2] Аббревиатура https://ru.wikipedia.org/wiki/Аббревиатура
[3] Словарь https://ru.wikipedia.org/wiki/Словарь
[4] О смысле
бессмысленного в формальной логике ("Джабберуоки", Бармаглот) https://bourabai.ru/dm/logic/txt06.htm
[5] Рассказ о треугольниках https://refdb.ru/look/2008010.html
[6] Новелла о треугольнике https://refdb.ru/look/2432058.html
[7] История одного треугольника (ученица 7 класса Шевцова
Мария)
[8] Чарычанская И.В., «Обратный перевод как инструмент
сравнения и анализа текстов оригинала и перевода», 2003, https://cyberleninka.ru/article/n/obratnyy-perevod-kak-instrument-sravneniya-i-analiza-tekstov-originala-i-perevoda-1
[9] «Топ-10 программ памяти переводов» https://translationrating.ru/top-10-cat-tools-2017/
[10] «Динамический подход к анализу структур, описываемых
графами», 1977, http://www.mathnet.ru/php/archive.phtml?wshow=paper&jrnid=at&paperid=7406&option_lang=rus
[11] Симулякр https://ru.wikipedia.org/wiki/Симулякр
https://sites.google.com/site/metasofskijslovar/
ОтветитьУдалитьСпасибо за Ваше добавление к теме поста о Глоссариях, интересное направление. Для уточнения темы моего поста пришлось добавить отдельный уточняющий подраздел "Постановка задачи".
Удалить