Інформаційне забезпечення видавничої діяльності

3.2. Аналіз документа як інформаційного об’єкта

Сучасні видавничі системи мають бути здатними вирішувати весь комплекс завдань, пов`язаних з управлінням потоком вхідних «сирих» даних. Такими завданнями є автоматична класифікація і автоматичне індексування текстів, оперативний і адекватний розподіл нової інформації серед користувачів, передача і зберігання даних в електронному архіві і подальший пошук у ньому за змістом.

Для вирішення цих завдань використовується технологія автоматичного аналізу тексту ділових або наукових документів в інформаційних системах з обмеженою предметною областю (ПО). Ця технологія має забезпечувати коректне додавання нових даних (документів) до інформаційного простору системи і підтримувати змістовний пошук на основі онтологий.

У технології аналізу текстових документів виділяється три компоненти знань [3]:

■ онтологія, що включає поняття і стосунки ПО; з погляду аналізу онтологія описує дані, які необхідно витягти з тексту і помістити в базу даних системи;

■ предметний словник (тезаурус), що містить терміни, за допомогою яких у тексті можуть представлятися поняття і стосунки онтології;

■ інформаційне наповнення системи, або база даних.

Дані в системі представлено як безліч різнотипних інформаційних об`єктів.

Під інформаційним об’єктом (ІО) розуміють опис об’єктів предметної області, що в сукупності утворюють інформаційне наповнення системи.

Кожен 10 визначається деяким елементом онтології (поняттям або відношенням) і, будучи екземпляром даного елементу, має задану експертом структуру з фіксованим набором атрибутів.

Будь-який 10 може бути розглянуто у трьох різних аспектах: структура, контент і контекст [4].

Структура об`єкта може характеризуватися як набором власних атрибутів і зв`язків, так і описом формальної структури його змісту.

Контент описує інформаційний зміст об`єкта за допомогою понять і стосунків, заданих в онтології ПО, і є набором інформаційних об`єктів.

Контекст, на відміну від контенту, розглядає ПО як єдине ціле і не залежить (явно) від його змісту. Контекст характеризує оточення об`єкта і визначається набором зв`язків з іншими об`єктами.

Наприклад, контекст може формуватися на основі таких стосунків:

частина - відношення, що відображає зв`язок 10 з охоплюваним 10 (наприклад, статті зі збіркою статей);
автор - відношення, що пов’язує документ з персоною, що її написала;
видавець - відношення, що пов’язує книгу з організацією- видавцем;
інформаційний ресурс - відношення, за яким можна отримати URL документа.

Технологія аналізу має на увазі роботу з тими ІО, зміст яких визначається текстом. Такі ІО називають текстовими ресурсами. Для того, щоб представити в інформаційній системі всі три описані вище аспекти текстового ресурсу, треба [3]:

■ описати поняття (класи), яким відповідають текстові ресурси;

■ визначити формальну структуру змісту для кожного класу текстових ресурсів;

■ задати схеми фактів, які задають правила витягання змістовних об`єктів з тексту.

Контент документа - це набір інформаційних об`єктів і їх зв`язків, опис яких зустрівся в тексті документа. Для того щоб пов`язати контент з документом, вводиться спеціальне відношення, що дозволяє вказувати для кожного екземпляра відношення (у тому числі і атрибутного), індекс документа, в тексті якого його знайдено.

При аналізі документа використовується формальне представлення структури його тексту, яка залежить від типу або жанру документа.

Текст в електронній формі має принаймні три рівні формальної структурі:` фізичний, логічний і жанровий [4].

Фізичний рівень представляє презентацію тексту на сторінці, наприклад, за допомогою тегів або таблиць стиліб.

До логічного рівня відносяться такі елементи, як текст, абзац, рядок, пропозиція і тому подібне.

Жанровий рівень представлено розбиттям тексту на жанрові частини, наприклад, текст ділового листа має наступні жанрові розділи: заголовок (відправник, адресат, резюме і звернення), основний розділ (текст листа, примітки і додатки) і підпис.

Будь-яку формальну структуру тексту називають сегментом і описують за допомогою маркерів. Маркер задається списком альтернативних елементів rrij, де i-тим елементом може бути [3]:

1) будь-який символ або рядок;

2) лексичний об’єкт, отриманий після лексичного аналізу, задається:

■ або класом (семантичний, граматичний, службовий);

■ або конкретним ідентифікатором або назвою (для слова - це нормальна форма; для лексичної конструкції, що описується шаблоном, - це назва шаблону);

3) сегмент іншого типу.

Побудова сегменту здійснюється на підставі таких обмежень:

■ single - сегмент не перетинається з сегментом того ж типу, окремий випадок цього обмеження - відсутність вкладеності;

■ rain - обирається мінімальний з можливих сегментів на даній ділянці;

■ шах - обирається максимальний з можливих сегментів на даній ділянці.

Розглянуті аспекти аналізу документів становлять базу для автоматизації інформаційних процесів видавничої справи.