Інформаційне забезпечення видавничої діяльності
6.1. Поняття інтеграції даних, інформації та додатків
Різноманітність джерел інформації для формування контенту видання вимагає використання інструментарію інтеграції інформаційних потоків різних типів - даних, інформації та додатків.
Інтеграція даних - це вилучення, перетворення і завантаження даних з різних систем в єдиний склад даних, призначений для обробки та аналізу (підготовки звітності) [1].
Окремим випадком інтеграції даних виступає інтеграція інформації.
Під інтеграцією інформації розуміється інтеграція даних, які знаходяться у різних системах, та їх подання в уніфікованому, узгодженому і точному вигляді, що призначений для вивчення та обробки даних. Таку інтеграцію призначено винятково для кінцевих користувачів, яким для виконання поставлених перед ними завдань необхідно працювати з багатьма системами [2].
Необхідною умовою здійснення інтеграції інформації є проведення досконалого аналізу, по-перше, задіяних систем і даних з метою визначення релевантних даних, що підлягають процедурам вилучення і перетворення з наступним обов'язковим «очищенням» цих даних, а по-друге, цільових структур, які будуть завантажувати ці дані.
Підготовка звітності здійснюється за допомогою аналітичних засобів, що дозволяють кожен раз по-новому подивитись на зібрані дані, тобто допомагають створювати інформацію, необхідну для прийняття рішень.
Інтеграцію додатків сфокусовано на інтеграції даних різних додатків або систем [1].
Як тільки дані в одній системі змінюються, ця зміна передається в інші системи, що розглядаються, зазвичай за допомогою асинхронної передачі повідомлень. Кілька років тому з'явився термін ЕАІ (інтеграція корпоративних додатків), що означає інтеграційну платформу, яка складається з системи передачі повідомлень, брокера для маршрутизації і трансформації, а також набору адаптерів, які спрощують взаємодію з програмами та даними з різних систем.
Результат порівняння процесів інтеграції даних, інтеграції інформації та інтеграції додатків наведено в табл. 16 [1].
Таблиця 16. Порівняльна характеристика інтеграції даних, інформації та додатків
Дані |
Мета |
Кінцеві користувачі |
|
Інтеграція даних |
Історичні |
Аналіз тенденцій |
Особи, які приймають рішення |
Інтеграція інформації |
Актуальні |
Досягнення ефективності |
Технологи, верстальники |
Інтеграція додатків |
Актуальні |
Синхронізація додатків |
Корпоративні редакційно- видавничі відділи |
При отриманні уніфікованого подання даних, що використовуються в різних системах, слід враховувати унікальний набір вимог і обмежень. По-перше, дані повинні бути доступні в «реальному часі», тобто мова йде про звернення до системи безпосередньо, а не до застарілих даних з раніше отриманої вибірки. По-друге, семантика, або значення, даних має бути визначено в системах. Залежно від системи дані можуть представлятися в різних форматах і з різними мітками, які найбільш доречні з точки зору 'їх використання, і для того, щоб дані були придатні, користувачеві доведеться 'їх співвідносити. Таким чином, дані, які дублюються, мають бути видалені, достовірність даних має бути перевірено, мітки приведено у відповідність, а значення переформатовано і т. д. Все Це звичайно виконується при першій необхідності вручну кінцевим користувачем.
У пошуках нових ІТ-рішень, впровадження яких дозволило б об'єднати ресурси наявних інформаційних систем, надати сервіси інформаційної взаємодії співробітників видавничо-поліграфічної галузі на новому рівні, видавництва все частіше звертають свої погляди у бік засобів інтеграції інформації та бізнес-процесів. Сьогодні, в середовищі вітчизняних ІТ-фахівців найбільш популярні такі групи подібних засобів [2]:
■ системи управління потоками робіт (Workflow), які забезпечують автоматизацію спільної роботи співробітників у рамках певних бізнес-процесів. Процес може полягати у спільній підготовці чергового звіту для керівництва, прийняття та обробки деякого запиту і т. п. Такі рішення більшою мірою орієнтовані на спільну роботу користувачів, а не на забезпечення взаємодії інформаційних систем;
■ сховища даних (Warehouse), які слугують для створення аналітичної системи на основі ключових даних з різних програм та інформаційних джерел компанії. Подібні рішення дозволяють проводити аналіз змін ключових показників у часі, з різним рівнем деталізації будувати звіти про діяльність компанії. Реалізація подібних можливостей накладає певні обмеження на актуальність використовуваних даних, які рідко завантажуються в сховище (не частіше одного разу на день), і, як наслідок, їх не може бути використано для побудови оперативних звітів про поточну діяльність;
■ інтеграційні брокери (Integration Brokers), які забезпечують об'єднання бізнес-даних інформаційних систем. Як правило, їх робота полягає в маршрутизації і перетворенні даних між інформаційними системами з метою підтримки в деяких з них найбільш повної інформації про діяльність компанії. Область дії продуктів обмежена інтеграцією вже автоматизованих бізнес-процесів;
■ корпоративні портали (Enterprise Information Portals), які забезпечують єдину точку санкціонованого доступу до будь-яких наявних у компанії додатків та інформаційних джерел. Основу портальної технології складають так звані портлети - уніфіковані програмні компоненти, що забезпечують доступ до різних додатків і володіють єдиними дизайном і можливостями налаштування. Створення індивідуального користувальницького інтерфейсу з використанням механізму портлетів дозволяє досягти нового рівня сервісу в спільній роботі співробітників з різнорідною корпоративною інформацією. Але разом з цим портали не можуть розглядатися як заміна всіх вищезазначених програмних рішень.
Сьогодні одним з основних джерел інформаційних потоків для формування електронного видання є мережа Інтернет, яка надає величезні можливості з інтеграції різноманітної інформації з будь-якої предметної області.
Разом з тим розвиток мережі Інтернет породив низку проблем, серед яких можна відзначити:
■ непропорційне зростання рівня інформаційного шуму;
■ засилля паразитної інформації, спаму;
* слабка структурованість інформації;
■ багаторазове дублювання інформації.
Традиційному Web до того ж притаманні такі недоліки, як велика кількість «інформаційного сміття», неможливість гарантування цілісності документів, практична відсутність можливості смислового пошуку, обмеженість доступу до «прихованого» Web.
У листопаді 1999 р, один з керівників інституту пошуку та аналізу текстів, що входить у дослідницький підрозділ IBM, Андрій Бродер (Andrei Broder) і його співавтори з компаній AltaVista, IBM та Compaq математично описали «карту» ресурсів і гіперзв’язок існуючого простору World Wide Web.
Простеживши за допомогою пошукового механізму AltaVista понад 200 млн Web-сторінок і кілька мільярдів посилань, розміщених на цих сторінках, вчені дійшли таких висновків про структуру Web-простору, яка відповідає, на їх думку, орієнтованого графу з топологій «краватки- метелик» (Bow Tie), в якому вершини відповідають сторінкам, а ребра з’єднують сторінки гіперпосилання. У рамках цієї моделі вирішення задачі аналізу структури зв'язків між окремими Web-сторінками дозволило виявити таке [3]:
■ центральне ядро (28% Web-сторінок) - компоненти сильної зв’язності (SCC), або вузол «краватки», складають Web-сторінки, взаємопов’язані так тісно, що, дотримуючись гіперпосилання, з будь-якої з них у кінцевому рахунку можна потрапити на будь-яку іншу;
■ 22% Web-сторінок - це «відправні Web-сторінки» (IN). Вони містять гіперпосилання, які в кінцевому рахунку ведуть до ядра, але з ядра до них потрапити не можна;
■ стільки ж (22%) «кінцевих Web-сторінок» (OUT), до яких можна прийти за такими адресами з ядра, але не можна повернутися назад;
■ 22% Web-сторінок (відростки) повністю ізольовані від центрального ядра: це або «миси», пов’язані гіперпосиланнями зі сторінками будь-якої іншої категорії, або «перешийки», що з’єднують дві Web-сторінки, які не входять в ядро.
Чотири основні множини (більше 90% Web-сторінок, що топологічно відносяться до однієї компоненті зв’язності) зумовили назву моделі - Bow Tie («краватка-метелик»). Існують і «острови», які взагалі не перетинаються з іншими ресурсами Інтернет. Єдиний спосіб виявити ресурси цієї групи - знати адресу.
Інформаційне забезпечення видавничої діяльності в сучасних умовах вимагає оперативності керування даними. Це, в свою чергу, підвищує вимоги щодо забезпечення безперервності видавничо-поліграфічного бізнесу.
У цьому зв'язку сьогодні важко уявити успішну видавничу діяльність, позбавлену доступу до актуальної, повної і достовірної інформації. Гак, як тільки інформація старіє зі швидкістю 2% на місяць, загальні щорічні втрати американських компаній від використання застарілої інформації становлять $ 611 млрд [4].
Ще однією проблемою зберігання даних є вибухове зростання їх обсягів внаслідок повсюдного впровадження інформаційних технологій та налагодження взаємозв'язків між контрагентами і програмами, а також (не в останню чергу) за рахунок неефективного зберігання, багаторазового дублювання і зберігання «сміттєвих» даних.
Більш того, наявні дані не використовуються так, як цього вимагають обставини видавничо-поліграфічної діяльності, а саме: в силу традицій, які склались у видавництвах, дані представляють собою «острівці» інформації, які зародилися на тому чи іншому додатку. При такому підході неможливо отримати інформацію з «нерідного» додатку, здійснити пошук за всіма джерелами, немає єдиного загального механізму доступу до інформації та чіткого розмежування прав такого доступу.
При використанні напівавтоматизованих процедур перенесення даних між додатками і системами трапляються помилки в силу присутності людського фактору, а також наявність безлічі історично прийнятих приватних рішень (відсутність загальносистемного підходу).
Перераховані вище фактори (вимоги щодо надійного зберігання цінних даних, необхідність актуальної, повної та достовірної інформації, зростання обсягів даних, потре ба у спільному використанні інформації) тягнуть за собою зростання витрат на системи зберігання даних і витрат на обслуговуючий персонал.
Ці проблеми не є новими і вже існує декілька системних підходів до їх розв'язання. Коротко вони зводяться до таких ідей [4]:
■ ієрархічного зберігання (Hierarchical Storage Management) - розміщення даних, які рідко використовуються, на дешевих носіях;
■ розміщення даних залежно від їх змісту (Content-based Storage placement) - розміщення важливих даних на носіях з високим рівнем надійності та доступності;
■ обробка даних відповідно до метаданих (даних про дані), здійснення пошуку, категоризація інформації;
■ віртуалізація - представлення інфраструктури зберігання для систем, додатків і користувачів у простому вигляді; приховує складність різнорідної територіально розподіленої структури;
■ катастрофостійкість - автоматизоване відновлення даних і роботи додатків у задані терміни після виникнення аварій.
Дотримання вказаних вимог дасть можливість уникнути проблем у процесі інтеграції інформаційних потоків видавничої діяльності.