Інформаційне забезпечення видавничої діяльності

6.1. Поняття інтеграції даних, інформації та додатків

Різноманітність джерел інформації для формування контенту видання вимагає використання інструментарію інтеграції інформаційних потоків різних типів - даних, інформації та додатків.

Інтеграція даних - це вилучення, перетворення і завантаження даних з різних систем в єдиний склад даних, призначений для обробки та аналізу (підготовки звітності) [1].

Окремим випадком інтеграції даних виступає інтеграція інформації.

Під інтеграцією інформації розуміється інтеграція даних, які знаходяться у різних системах, та їх подання в уніфікованому, узгодженому і точному вигляді, що призначений для вивчення та обробки даних. Таку інтеграцію призначено винятково для кінцевих користувачів, яким для виконання поставлених перед ними завдань необхідно працювати з багатьма системами [2].

Необхідною умовою здійснення інтеграції інформації є проведення досконалого аналізу, по-перше, задіяних систем і даних з метою визначення релевантних даних, що підлягають процедурам вилучення і перетворення з наступним обов'язковим «очищенням» цих даних, а по-друге, цільових структур, які будуть завантажувати ці дані.

Підготовка звітності здійснюється за допомогою аналітичних засобів, що дозволяють кожен раз по-новому подивитись на зібрані дані, тобто допомагають створювати інформацію, необхідну для прийняття рішень.

Інтеграцію додатків сфокусовано на інтеграції даних різних додатків або систем [1].

Як тільки дані в одній системі змінюються, ця зміна передається в інші системи, що розглядаються, зазвичай за допомогою асинхронної передачі повідомлень. Кілька років тому з'явився термін ЕАІ (інтеграція корпоративних додатків), що означає інтеграційну платформу, яка складається з системи передачі повідомлень, брокера для маршрутизації і трансформації, а також набору адаптерів, які спрощують взаємодію з програмами та даними з різних систем.

Результат порівняння процесів інтеграції даних, інтеграції інформації та інтеграції додатків наведено в табл. 16 [1].

Таблиця 16. Порівняльна характеристика інтеграції даних, інформації та додатків

	Дані	Мета	Кінцеві користувачі
Інтеграція даних	Історичні	Аналіз тенденцій	Особи, які приймають рішення
Інтеграція інформації	Актуальні	Досягнення ефективності	Технологи, верстальники
Інтеграція додатків	Актуальні	Синхронізація додатків	Корпоративні редакційно- видавничі відділи

При отриманні уніфікованого подання даних, що використовуються в різних системах, слід враховувати унікальний набір вимог і обмежень. По-перше, дані повинні бути доступні в «реальному часі», тобто мова йде про звернення до системи безпосередньо, а не до застарілих даних з раніше отриманої вибірки. По-друге, семантика, або значення, даних має бути визначено в системах. Залежно від системи дані можуть представлятися в різних форматах і з різними мітками, які найбільш доречні з точки зору 'їх використання, і для того, щоб дані були придатні, користувачеві доведеться 'їх співвідносити. Таким чином, дані, які дублюються, мають бути видалені, достовірність даних має бути перевірено, мітки приведено у відповідність, а значення переформатовано і т. д. Все Це звичайно виконується при першій необхідності вручну кінцевим користувачем.

У пошуках нових ІТ-рішень, впровадження яких дозволило б об'єднати ресурси наявних інформаційних систем, надати сервіси інформаційної взаємодії співробітників видавничо-поліграфічної галузі на новому рівні, видавництва все частіше звертають свої погляди у бік засобів інтеграції інформації та бізнес-процесів. Сьогодні, в середовищі вітчизняних ІТ-фахівців найбільш популярні такі групи подібних засобів [2]:

■ системи управління потоками робіт (Workflow), які забезпечують автоматизацію спільної роботи співробітників у рамках певних бізнес-процесів. Процес може полягати у спільній підготовці чергового звіту для керівництва, прийняття та обробки деякого запиту і т. п. Такі рішення більшою мірою орієнтовані на спільну роботу користувачів, а не на забезпечення взаємодії інформаційних систем;

■ сховища даних (Warehouse), які слугують для створення аналітичної системи на основі ключових даних з різних програм та інформаційних джерел компанії. Подібні рішення дозволяють проводити аналіз змін ключових показників у часі, з різним рівнем деталізації будувати звіти про діяльність компанії. Реалізація подібних можливостей накладає певні обмеження на актуальність використовуваних даних, які рідко завантажуються в сховище (не частіше одного разу на день), і, як наслідок, їх не може бути використано для побудови оперативних звітів про поточну діяльність;

■ інтеграційні брокери (Integration Brokers), які забезпечують об'єднання бізнес-даних інформаційних систем. Як правило, їх робота полягає в маршрутизації і перетворенні даних між інформаційними системами з метою підтримки в деяких з них найбільш повної інформації про діяльність компанії. Область дії продуктів обмежена інтеграцією вже автоматизованих бізнес-процесів;

■ корпоративні портали (Enterprise Information Portals), які забезпечують єдину точку санкціонованого доступу до будь-яких наявних у компанії додатків та інформаційних джерел. Основу портальної технології складають так звані портлети - уніфіковані програмні компоненти, що забезпечують доступ до різних додатків і володіють єдиними дизайном і можливостями налаштування. Створення індивідуального користувальницького інтерфейсу з використанням механізму портлетів дозволяє досягти нового рівня сервісу в спільній роботі співробітників з різнорідною корпоративною інформацією. Але разом з цим портали не можуть розглядатися як заміна всіх вищезазначених програмних рішень.

Сьогодні одним з основних джерел інформаційних потоків для формування електронного видання є мережа Інтернет, яка надає величезні можливості з інтеграції різноманітної інформації з будь-якої предметної області.

Разом з тим розвиток мережі Інтернет породив низку проблем, серед яких можна відзначити:

■ непропорційне зростання рівня інформаційного шуму;

■ засилля паразитної інформації, спаму;

* слабка структурованість інформації;

■ багаторазове дублювання інформації.

Традиційному Web до того ж притаманні такі недоліки, як велика кількість «інформаційного сміття», неможливість гарантування цілісності документів, практична відсутність можливості смислового пошуку, обмеженість доступу до «прихованого» Web.

У листопаді 1999 р, один з керівників інституту пошуку та аналізу текстів, що входить у дослідницький підрозділ IBM, Андрій Бродер (Andrei Broder) і його співавтори з компаній AltaVista, IBM та Compaq математично описали «карту» ресурсів і гіперзв’язок існуючого простору World Wide Web.

Простеживши за допомогою пошукового механізму AltaVista понад 200 млн Web-сторінок і кілька мільярдів посилань, розміщених на цих сторінках, вчені дійшли таких висновків про структуру Web-простору, яка відповідає, на їх думку, орієнтованого графу з топологій «краватки- метелик» (Bow Tie), в якому вершини відповідають сторінкам, а ребра з’єднують сторінки гіперпосилання. У рамках цієї моделі вирішення задачі аналізу структури зв'язків між окремими Web-сторінками дозволило виявити таке [3]:

■ центральне ядро (28% Web-сторінок) - компоненти сильної зв’язності (SCC), або вузол «краватки», складають Web-сторінки, взаємопов’язані так тісно, що, дотримуючись гіперпосилання, з будь-якої з них у кінцевому рахунку можна потрапити на будь-яку іншу;

■ 22% Web-сторінок - це «відправні Web-сторінки» (IN). Вони містять гіперпосилання, які в кінцевому рахунку ведуть до ядра, але з ядра до них потрапити не можна;

■ стільки ж (22%) «кінцевих Web-сторінок» (OUT), до яких можна прийти за такими адресами з ядра, але не можна повернутися назад;

■ 22% Web-сторінок (відростки) повністю ізольовані від центрального ядра: це або «миси», пов’язані гіперпосиланнями зі сторінками будь-якої іншої категорії, або «перешийки», що з’єднують дві Web-сторінки, які не входять в ядро.

Чотири основні множини (більше 90% Web-сторінок, що топологічно відносяться до однієї компоненті зв’язності) зумовили назву моделі - Bow Tie («краватка-метелик»). Існують і «острови», які взагалі не перетинаються з іншими ресурсами Інтернет. Єдиний спосіб виявити ресурси цієї групи - знати адресу.

Інформаційне забезпечення видавничої діяльності в сучасних умовах вимагає оперативності керування даними. Це, в свою чергу, підвищує вимоги щодо забезпечення безперервності видавничо-поліграфічного бізнесу.

У цьому зв'язку сьогодні важко уявити успішну видавничу діяльність, позбавлену доступу до актуальної, повної і достовірної інформації. Гак, як тільки інформація старіє зі швидкістю 2% на місяць, загальні щорічні втрати американських компаній від використання застарілої інформації становлять $ 611 млрд [4].

Ще однією проблемою зберігання даних є вибухове зростання їх обсягів внаслідок повсюдного впровадження інформаційних технологій та налагодження взаємозв'язків між контрагентами і програмами, а також (не в останню чергу) за рахунок неефективного зберігання, багаторазового дублювання і зберігання «сміттєвих» даних.

Більш того, наявні дані не використовуються так, як цього вимагають обставини видавничо-поліграфічної діяльності, а саме: в силу традицій, які склались у видавництвах, дані представляють собою «острівці» інформації, які зародилися на тому чи іншому додатку. При такому підході неможливо отримати інформацію з «нерідного» додатку, здійснити пошук за всіма джерелами, немає єдиного загального механізму доступу до інформації та чіткого розмежування прав такого доступу.

При використанні напівавтоматизованих процедур перенесення даних між додатками і системами трапляються помилки в силу присутності людського фактору, а також наявність безлічі історично прийнятих приватних рішень (відсутність загальносистемного підходу).

Перераховані вище фактори (вимоги щодо надійного зберігання цінних даних, необхідність актуальної, повної та достовірної інформації, зростання обсягів даних, потре ба у спільному використанні інформації) тягнуть за собою зростання витрат на системи зберігання даних і витрат на обслуговуючий персонал.

Ці проблеми не є новими і вже існує декілька системних підходів до їх розв'язання. Коротко вони зводяться до таких ідей [4]:

■ ієрархічного зберігання (Hierarchical Storage Management) - розміщення даних, які рідко використовуються, на дешевих носіях;

■ розміщення даних залежно від їх змісту (Content-based Storage placement) - розміщення важливих даних на носіях з високим рівнем надійності та доступності;

■ обробка даних відповідно до метаданих (даних про дані), здійснення пошуку, категоризація інформації;

■ віртуалізація - представлення інфраструктури зберігання для систем, додатків і користувачів у простому вигляді; приховує складність різнорідної територіально розподіленої структури;

■ катастрофостійкість - автоматизоване відновлення даних і роботи додатків у задані терміни після виникнення аварій.

Дотримання вказаних вимог дасть можливість уникнути проблем у процесі інтеграції інформаційних потоків видавничої діяльності.