Інформаційне забезпечення видавничої діяльності

6.2. Існуючі рішення в області інтеграції інформації видавничої діяльності

Інтеграція інформації в процесі створення видань різного типу вимагає синтезу розподілених інформаційних потоків. Вирішення цієї задачі потребує використання уніфікованого формату даних на сайтах, а також стандарту, який забезпечує однотипний обмін даними в Інтернет. В якості такого уніфікованого формату все ширше використовується мова extensible Markup Language (XML) і її діалекти.

XML - одна з основних складових семантичного Web - являє собою мову, на базі якої можна визначати нові мови. При цьому XML призначено не тільки для організації обміну даними в Web, але і для розпізнавання семантики цих даних. На відміну від HTML XML забезпечує подання інформації в чистому вигляді, припускаючи її структурну, а не оформлювацьку розмітку [3].

Сьогодні основними за об'ємом джерелами структурованих даних виступають реляційні бази даних, хоча це можуть бути і файлові системи, і XML-бази даних, що розширюють масштаби свого застосування, і інші типи джерел інформації.

Основні проблеми інтеграції гетерогенних даних, з якою доводиться стикатися при формуванні репозиторію інформаційних ресурсів - це різноманітність моделей і схем даних, низький рівень їх абстракції, мала адекватність віддзеркалення семантики предметної області, для якісного вирішення якої необхідно працювати з даними, відповідними деякій істотно семантично багатшій моделі даних. Наприклад, добрим рішенням може бути перехід до деякої об'єктно орієнтованої моделі даних, які за багатьма параметрами близькі до семантичних моделей, де ключовою одиницею є складноструктурований інформаційний об'єкт, що підтримує різні атрибути, бере участь у різних асоціаціях з іншими об'єктами.

Здійснення процесу збирання і інтеграції розподілених даних базується на таких технологіях [5]:

■ об'єктні репозиторії даних, відповідні деяким предметним областям;

■ механізм Web-сервісів як засіб побудови зовнішніх інтерфейсів до таких репозиторіїв;

■ апарат робочих процесів як засіб управління обробкою і інтеграцією інформаційних потоків.

Незважаючи на універсальність реляційної моделі даних, багато додатків вимагають специфічних моделей доступу до даних для досягнення найбільшої ефективності використання інформації.

Для потреб оперативної аналітичної обробки даних застосовуються так звані формальні куби даних. Вони за сутністю являють собою ті ж багатовимірні відносини в традиційному сенсі, але з додаванням до них всіх можливих попередньо обчислених агрегованих значень. Доступ до таких даних здійснюється шляхом запитів за атрибутами (вони ж - розмірності куба). Це аналогічно розрізування куба за вимірюваннями для отримання потрібного фрагмента [6].

Якщо дані мають ієрархічний характер (класифікації, каталоги, тексти), найбільш природною моделлю доступу є репозиторій. Звернення до сховища за даними засноване на використанні шляхів. Кожну одиницю даних можна адресувати, вказавши шлях, що веде або з «кореня» репозиторію (абсолютний шлях), або від іншої одиниці даних (відносний шлях). Репозиторій є вдалим рішенням для зберігання напівструктурованої інформації, представленої в ієрархічному форматі, тобто для організації баз даних XML [3].

Запити, які засновані на шляхах, також широко використовуються для вибірки даних з документів XML. Такі запити, як правило, формулюються мовою XPath. Запит XPath, за сутністю, являє собою шлях вибірки, що складається з окремих кроків. Кожен крок має тест вузла і набор предиката, які, в свою чергу, можуть містити підзапити.

Для представлення знань використовуються надзвичайно гнучкі структури, які називаються онтологіями. Онтологія являє собою граф, вершинами якого є ресурси, з'єднані між собою різноманітними зв'язками. Онтології може бути змодельовано як реляційними, так і ієрархічними структурами [6]. Однак при цьому виникають значні накладні витрати. Прикладом використання XML для опису онтології є RDF (Resource Definition Framework).

Більшість інформаційних систем, що використовуються в середовищі видавничої діяльності і для обміну інформацією, є документно орієнтованими. Документи за своєю природою описуються швидше ієрархічною структурою, ніж кубами або онтологією. З цієї точки зору, найбільш прийнятною моделлю доступу до даних у відкритих програмах виступає репозиторій.

Оскільки при інформаційному забезпеченні видавничої діяльності необхідно здійснювати інтеграцію різноманітних джерел інформації, де істотну роль відіграють реляційні джерела, істотного значення набуває підтримка інтерфейсу, що забезпечує автоматичне відображення конструкцій семантичної моделі даних у ту, що пролягає нижче, наприклад, реляційну модель даних, і навпаки.

Для опису об'єктно-орієнтованих моделей даних можна скористатися деякими мовами опису об'єктних схем даних, наприклад [3]:

■ ODL - стандарт об'єктно-орієнтованих БД;

■ RDFS (ResourceDefmitionFrameworkSchema) - стандарт дозволяє описувати схеми класів і їх властивостей з урахуванням їх спадкоємства, обмежень;

■ OWL (Web Ontology Language) - спеціалізація, орієнтована на опис предметних онтологій.

Перехід від реляційної моделі даних до об'єктно-орієнтованої є необхідним етапом у побудові «відкритого» (у сенсі відповідності принципам відкритих систем - використання загальнодоступних і загальновизнаних стандартів, інтерфейсів тощо) інформаційного сховища. Об'єктно орієнтована модель дозволяє [7]:

■ підвищити рівень абстракції моделі предметної області;

■ зручно виділити канонічні схеми даних, що є перетином експортних схем даних, відповідних різним предметним областям, будувати уніфіковані об'єктні запити на доступ до розподілених даних з подальшою агрегацією результатів запитів відповідно до канонічних схем;

■ мати уніфікований формат представлення даних, що забезпечує непогану синтаксичну і семантичну інтероперабельність.

У питанні інтеграції розподілених репозиторіїв даних все більш великої сили набирає технологія Web-сервісів як засіб надання уніфікованого, незалежного інтерфейсу для видаленого доступу до інформаційних ресурсів.

Web-сервіси - автономні модульні програми, призначені для реалізації інформаційних процесів у Мережі [3].

У серпні 2002 p., усвідомивши складність звернення до Web-сервісів у синхронному і асинхронному середовищах, корпорації BEA, IBM, Microsoft, SAP Siebel у результаті спільних зусиль розробили мову реалізації бізнес-процесів для Web-сервісів (Business Process Execution Language for Web Services, BPEL4WS, або просто BPEL).

Мова BPEL дозволяє описувати бізнес-процеси і те, як вони пов'язані з Web-сервісами, а також, як бізнес-процеси використовують Web-сервіси для досягнення поставлених завдань. BPEL можна розглядати як декларативно-процедурну мову програмування. BPEL фактично являє собою діалект мови XML-

У даному контексті Web-сервіс виступає в ролі автономного застосування, яке надає засоби доступу до інформації зовнішнім клієнтам через набір послуг, що надаються ним. Технологія Web-сервісів базується на відкритих XML-стандартах [8] (табл. 17).

Таблиця 17. Відкриті XML-стандарти технології Web-сервісів

Назва стандарту

Сутність стандарту

1

2

Базові стандарти

SOAP (SimpleObjectAccessProtocol)

XML-протокол для видаленого виклику методів Web- сервісів

UDDI(UniversalDescription, Discoveryandlntegration)

Описує модель даних, призначену для каталогізації і виявлення послуг, що надаються Web-сервісами

WSDL (WebServicesDescriptionLanguage)

Мова опису інтерфейсів Web-сервісів

WSFL (WebServicesFlowLanguage)

Мова, яка дозволяє визначати композиції Web- сервісів у вигляді графської моделі робочого процесу

BPM L (Busi nessProcessModelingLanguage)

Мова, яка визначає блокову модель композиції Web-cepeidB

BPEL4WS(BusinessProcessExecutionLanguageForWe

b-Services)

Мова, що с гібридом блокової і графської моделей опису взаємодій Web-cepeicie

Доповнення до стандартів

WS-Coordination/WS-Transaction

Протокол координації транзакцій

WS-Security

Протокол забезпечення безпеки

WS-Routing

Протокол маршрутизаціїповідомлень

У багатьох випадках інтеграція інформаційних ресурсів вимагає комбінування звернень більш ніж до одного Web-сервісу для реалізації призначеного для користувача запиту. Таким чином, Web-сервіси повинні мати можливість підтримувати взаємодію з іншими додатками на додаток до стандартних процедур обробки даних.

Більш того, процес надання агрегованої розподіленої інформації може включати розбиття на набір взаємозв'язаних етапів обробки даних, взаємодію декількох Web-сервісів, втручання людей у процес обробки призначених для користувача запитів і інші елементи прикладної логіки. Тому процес збирання і інтеграції гетерогенних даних може бути логічно-складною композицією звернень до сховищ інформаційної сутності за допомогою інтерфейсів Web-сервісів - визначати автоматизований потік обробки даних.