Інформаційне забезпечення видавничої діяльності
3.2. Аналіз документа як інформаційного об’єкта
Сучасні видавничі системи мають бути здатними вирішувати весь комплекс завдань, пов`язаних з управлінням потоком вхідних «сирих» даних. Такими завданнями є автоматична класифікація і автоматичне індексування текстів, оперативний і адекватний розподіл нової інформації серед користувачів, передача і зберігання даних в електронному архіві і подальший пошук у ньому за змістом.
Для вирішення цих завдань використовується технологія автоматичного аналізу тексту ділових або наукових документів в інформаційних системах з обмеженою предметною областю (ПО). Ця технологія має забезпечувати коректне додавання нових даних (документів) до інформаційного простору системи і підтримувати змістовний пошук на основі онтологий.
У технології аналізу текстових документів виділяється три компоненти знань [3]:
■ онтологія, що включає поняття і стосунки ПО; з погляду аналізу онтологія описує дані, які необхідно витягти з тексту і помістити в базу даних системи;
■ предметний словник (тезаурус), що містить терміни, за допомогою яких у тексті можуть представлятися поняття і стосунки онтології;
■ інформаційне наповнення системи, або база даних.
Дані в системі представлено як безліч різнотипних інформаційних об`єктів.
Під інформаційним об’єктом (ІО) розуміють опис об’єктів предметної області, що в сукупності утворюють інформаційне наповнення системи.
Кожен 10 визначається деяким елементом онтології (поняттям або відношенням) і, будучи екземпляром даного елементу, має задану експертом структуру з фіксованим набором атрибутів.
Будь-який 10 може бути розглянуто у трьох різних аспектах: структура, контент і контекст [4].
Структура об`єкта може характеризуватися як набором власних атрибутів і зв`язків, так і описом формальної структури його змісту.
Контент описує інформаційний зміст об`єкта за допомогою понять і стосунків, заданих в онтології ПО, і є набором інформаційних об`єктів.
Контекст, на відміну від контенту, розглядає ПО як єдине ціле і не залежить (явно) від його змісту. Контекст характеризує оточення об`єкта і визначається набором зв`язків з іншими об`єктами.
Наприклад, контекст може формуватися на основі таких стосунків:
- частина - відношення, що відображає зв`язок 10 з охоплюваним 10 (наприклад, статті зі збіркою статей);
- автор - відношення, що пов’язує документ з персоною, що її написала;
- видавець - відношення, що пов’язує книгу з організацією- видавцем;
- інформаційний ресурс - відношення, за яким можна отримати URL документа.
Технологія аналізу має на увазі роботу з тими ІО, зміст яких визначається текстом. Такі ІО називають текстовими ресурсами. Для того, щоб представити в інформаційній системі всі три описані вище аспекти текстового ресурсу, треба [3]:
■ описати поняття (класи), яким відповідають текстові ресурси;
■ визначити формальну структуру змісту для кожного класу текстових ресурсів;
■ задати схеми фактів, які задають правила витягання змістовних об`єктів з тексту.
Контент документа - це набір інформаційних об`єктів і їх зв`язків, опис яких зустрівся в тексті документа. Для того щоб пов`язати контент з документом, вводиться спеціальне відношення, що дозволяє вказувати для кожного екземпляра відношення (у тому числі і атрибутного), індекс документа, в тексті якого його знайдено.
При аналізі документа використовується формальне представлення структури його тексту, яка залежить від типу або жанру документа.
Текст в електронній формі має принаймні три рівні формальної структурі:` фізичний, логічний і жанровий [4].
Фізичний рівень представляє презентацію тексту на сторінці, наприклад, за допомогою тегів або таблиць стиліб.
До логічного рівня відносяться такі елементи, як текст, абзац, рядок, пропозиція і тому подібне.
Жанровий рівень представлено розбиттям тексту на жанрові частини, наприклад, текст ділового листа має наступні жанрові розділи: заголовок (відправник, адресат, резюме і звернення), основний розділ (текст листа, примітки і додатки) і підпис.
Будь-яку формальну структуру тексту називають сегментом і описують за допомогою маркерів. Маркер задається списком альтернативних елементів rrij, де i-тим елементом може бути [3]:
1) будь-який символ або рядок;
2) лексичний об’єкт, отриманий після лексичного аналізу, задається:
■ або класом (семантичний, граматичний, службовий);
■ або конкретним ідентифікатором або назвою (для слова - це нормальна форма; для лексичної конструкції, що описується шаблоном, - це назва шаблону);
3) сегмент іншого типу.
Побудова сегменту здійснюється на підставі таких обмежень:
■ single - сегмент не перетинається з сегментом того ж типу, окремий випадок цього обмеження - відсутність вкладеності;
■ rain - обирається мінімальний з можливих сегментів на даній ділянці;
■ шах - обирається максимальний з можливих сегментів на даній ділянці.
Розглянуті аспекти аналізу документів становлять базу для автоматизації інформаційних процесів видавничої справи.