Інформаційне забезпечення видавничої діяльності
3.1. Тезауруси в описі інформації видавничої діяльності
Для опису будь-якої предметної області завжди використовується певний набір термінів, кожен з яких позначає або описує яке-небудь поняття або концепцію з даної предметної області.
Сукупність термінів, що описують дану предметну область, зі вказівкою семантичних стосунків (зв’язків) між ними називаються тезаурусом [1].
Такі стосунки в тезаурусі завжди вказують на наявність смислового (семантичною) зв`язку між термінами.
Основним відношенням (зв`язком) між термінами в тезаурусі є зв`язок між ширшими (виразнішими) і вужчими (більш спеціалізованими) поняттями [2]. Виділяють два підвиди цього відношення:
■ один термін позначає поняття, що є частиною поняття, що позначається іншим терміном (наприклад, «видавництво» і «друкарня»);
■ один термін позначає елемент класу, що позначається іншим терміном («спеціальні види друку» і «райдужний друк»).
Це відношення на множині термінів є відношенням часткового порядку, тобто множина термінів з такими зв`язками утворює ациклічний граф, або поліієрархічну структуру.
Існують також і інші зв`язки між термінами. Наприклад, одне поняття або концепцію може бути позначено декількома термінами, синонімами. Деякі терміни можуть бути антонімами для інших. Часто серед термінів, що відносяться до одного поняття, виділяють єдиний (для кожної мови тезауруса), найбільш переважний (найбільш відповідний) термін, який найкраще характеризує або позначає дане поняття. Решта термінів є менш переважними (менш відповідними).
Окрім вищеописаних, між термінами можуть існувати також інші, асоціативні, зв`язки, якщо поняття, що позначаються цими термінами, як-небудь пов`язані між собою за своїм сенсом, за винятком описаних вище ієрархічних зв`язків.
У багатомовних тезаурусах існують також зв`язки еквівалентності між термінами на різних мовах. Виділяють повну (строгу) еквівалентність і декілька видів часткової (нестрогої) смислової еквівалентності термінів на різних мовах.
Тезаурус часто містить коментарі до термінів, що розкривають для користувача їх сенс, а також пояснюють, як слід використовувати його терміни.
Тезауруси застосовуються, перш за все, для класифікації і пошуку інформаційних ресурсів. При цьому кожному ресурсу при класифікації може бути співставлено одне або декілька понять, що описуються термінами в тезаурусі, а користувач, що здійснює пошук, може за тезаурусом знайти поняття, що цікавлять його в даній предметній області, а також всі терміни, що характеризують їх. Тобто на основі зв`язків тезауруса відбувається розширення пошукового запиту (розширення слів запиту синонімічними, більш загальними або більш приватними за сенсом термінами). Навігація за зв`язками тезауруса допомагає чітко сформулювати сам запит.
Існує низка стандартів різного рівня значущості і опрацьованості на формат представлення тезаурусів. Ці стандарти представляють тезаурус у вигляді набору об`єктів декількох типів, між якими може бути декілька типів зв`язків. Деякі стандарти (наприклад, стандарт ANSI/NISO Z39.19-1993) регламентують також формат представлення тезауруса в лінеаризованому (текстовому) вигляді, придатному для сприйняття як машиною, так і людиною.
Основними документами, що регламентують формат представлення тезауруса, є стандарти ISO 2788-1986 для опису одномовних тезаурусів і ISO 5964-1985 - для багатомовних.
Стандарт ISO 2788-1986 визначає тезаурус як набір термінів, пов`язаних між собою відповідними зв`язками (відносинами).
Структура багатомовних тезаурусів регламентується стандартом ISO 5964-1985. У ньому, крім зв`язків між термінами, є також зв`язки міжеквівалентними термінами на різних мовах. Існують наступні типи таких зв`язків [1]:
■ повна еквівалентність;
■ неповна еквівалентність (значення термінів не співпадають, але перетинаються);
■ часткова еквівалентність (значення одного терміну ширше, ніж значення іншого);
■ еквівалентність «один до багатьох» (значення одного терміну відповідає сукупності значень декількох термінів). Американський стандарт ANSI/NISO Z39.19-1993 розширює і уточнює стандарт ISO 2788-1986 для одномовних тезаурусів, а також накладає додаткові обмеження на структуру тезауруса.
У видавничих інформаційних системах тезаурус є не тільки самостійним інформаційним ресурсом, але й інструментом для класифікації або індексації ресурсів.
Таким чином, користувач видавничої системи повинен мати можливість;
■ здійснювати проглядання тезауруса;
■ здійснювати пошук ресурсів за асоційованими з ними термінами або поняттями;
■ пошук ресурсів може вестися двома способами;
■ пошук за ключовими словами, використовуючи тезаурус;
■ навігація за тезаурусом, тобто пошук спочатку потрібного поняття в тезаурусі з подальшим запитом ресурсів, відповідних цьому поняттю.
При пошуку ресурсів за ключовими словами пошукова система може, використовуючи тезаурус, розширювати результати пошуку, видаючи користувачеві не тільки ресурси, відповідні введеним користувачем ключовим словам, але і ресурси, відповідні пов`язаним з ними термінам, або термінам, що позначають також вужчі поняття щодо початкового терміну.
Інтерфейс перегляду тезауруса має [1]:
■ показувати всі атрибути даного терміна чи поняття;
■ показувати, з якими термінами та поняттями пов`язано цей термін або поняття;
■ досить наочно показувати користувачеві місце терміна чи поняття в ієрархії понять тезауруса.
Перші два пункти здійсненні, якщо показувати користувачу для кожного поняття тезауруса на окремому екрані (сторінці) всі його атрибути, всі пов`язані з ним терміни (на всіх або на певній мові), і всі пов`язані з ним поняття. Інтерфейс має при цьому забезпечувати перехід до сторінки перегляду будь-якого з перерахованих на цій сторінці понять. Якщо в тезаурус схемою даних дозволяється прив`язка терміну більш ніж до одного поняття, на тій же сторінці для кожного терміну мають бути перераховані також поняття, до яких ще прив`язаний цей термін. Якщо у поняття є терміни на інших мовах, не повністю еквівалентні даному поняттю або повністю еквівалентні, але прикріплені в силу структури даного тезауруса до інших понять, на сторінці мають бути присутні посилання на сторінки цих понять.