Інформаційне забезпечення видавничої діяльності
5.3. Інформаційно-пошукові системи у видавництві
Інформаційно-пошукові системи включають три групи інформаційних продуктів: реферативно-бібліографічні бази даних, інформаційні агрегативні і повнотекстові документографічні системи [5].
Процес пошуку текстової інформації в таких системах включає етапи, представлені на рис. 13.
Рис. 13. Послідовність процесу пошуку інформації у інформаційно-пошукових системах
Розрізняють декілька груп інформаційно-пошукових систем видавничої діяльності [6] (табл. 15).
Таблиця 15. Групи інформаційно-пошукових систем видавничої діяльності
Група інформаційно- пошукових систем |
Характеристика групи |
Засоби пошуку |
Реферативно- бібліографічні інформаційно-пошукові системи |
Характеризуються чітко позначеною предметною областю, як правило, вичерпним переліком періодичних видань, які покривають таку предметну область, і широким переліком функцій і засобів аналітичної обробки інформації в документальних масивах - результатах пошуку |
Розвинені класифікатори і предметні тезауруси, що дозволяють уникнути семантичних неточностей, які властиві всім видам інформаційного пошуку, що пов'язані з ключовими словами |
Предметноспеціалізовані інформаційно-пошукові системи |
Характеризуються ефектом агрегації, тобто збирання колекцій видань, які представляють інтерес для певної групи користувачів (утому числі і предметні колекції). За сутністю, такими е гібридні системи, які об'єднують реферативно-бібліографічні і повнотекстові колекції. Визначаються наявністю так званого «ембарго-періоду» - інтервалу часу, протягом якого повнотекстове інформаційне джерело, тимчасово представлене виключно реферативними записами, що описують наукові публікації даного періодичного видання. Застосування «ембарго-періоду» у кожному конкретному випадку є прерогативою власника видавничих прав, а не організації-генератора інформаційної системи |
Класифікатори і предметні тезауруси |
Повнотекстові інформаційно-пошукові системи |
Дозволяють зробити доступними всі (за можливістю) опубліковані в даному виданні публікації. Забезпечують майже ідеальну повноту своїх колекцій (окремо узятого видавця) і практично вільні від часових обмежень у пошуку або механізмів «ембарго-періоду» |
Механізм ключових слів |
Агрегативні інформаційно-пошукові системи |
Забезпечують прийнятну ефективність інформаційного пошуку в тому випадку, якщо профіль підбору періодичних видань у колекцію (інформаційну систему) збігається з інформаційним профілем потреб користувача. Це робить необхідним ретельне вивчення і оцінку переліку повнотекстових електронних періодичних видань, які входять в ту або іншу агрегативну систему |
Механізм ключових слів |
У видавничих інформаційно-пошукових системах існує декілька категорій пошуку:
■ за ключовими словами;
■ за булевою логікою об'єднання слів;
■ за словосполуками;
■ з врахуванням відстані між словами;
■ з врахуванням регістра;
■ за семантикою (концептуальний);
■ за шаблоном (подібності);
■ за полями документа.
Аналіз інформації у видавничих інформаційно-пошукових системах здійснюється на основі використання таких видів аналізу інформації [7]:
■ лексичний. Полягає в розборі текстової інформації на окремі абзаци, речення, слова, визначені національною мовою, виклад, тип речення, виявлені типи лексичних виразів (жаргонних слів) і т. д. Він не представляє істотної складності для реалізації;
■ морфологічний. Зводиться до автоматичного розпізнавання частин мови кожного слова тексту (кожному слову ставиться у відповідність лексико-граматичний клас). Дане завдання може бути виконано для української мови практично зі стовідсотковою точністю завдяки її розвиненій морфології. У англійській мові алгоритм, що привласнює кожному слову в тексті найбільш вірогідний для даного слова лексико-граматичний клас (синтаксичну частину мови), працює з точністю близько 90%, що зумовлене лексичною багатозначністю англійської мови;
■ синтаксичний. Полягає в автоматичному виділенні семантичних елементів речення: іменних груп, термінологічних цілих, предикативних основ. Це дозволяє підвищити інтелектуальність процесу обробки тестової інформації на основі забезпечення роботи з більш узагальненими семантичними елементами;
■ семантичний. Полягає у визначенні інформативності текстової інформації і виділенні інформаційно-логічної основи тексту Проведення автоматизованого семантичного аналізу тексту припускає вирішення задачі виявлення і оцінки смислового змісту тексту. Дане завдання є таким, що важко формалізується внаслідок необхідності створення досконалого апарату експертної оцінки якості інформації.
Реалізація семантичного аналізу текстової інформації припускає обов'язкове використання експертних систем, систем штучного інтелекту для виявлення смислового змісту інформації. У даний час відсутні підходи, що склалися, до реалізації завдання семантичного аналізу текстової інформації, що багато в чому зумовлене винятковою складністю проблеми і недостатньо повним опрацьовуванням наукового напряму створення систем штучного інтелекту. Тому існуючі інформаційні технології не забезпечують ефективної реалізації пошукових систем.
Висновки та узагальнення
- Система інформаційного забезпечення видавництва включає сукупність електронних потоків інформації, а також певні механізми формування інформаційних ресурсів на основі: аналізу даних; комп’ютерних мобільних агентів; моделей інтеграції, а також механізми формування IP на основі інформаційних технологій.
- Функції ідентифікації та захисту інформації видання виконують радіочастотні мітки (RFID-системи), що являють собою портативні пристрої, які складаються з мікроантени приймача і мікроконтролера. Основне завдання радіоч?стотних міток - зберігання і передача запрограмованого в мікроконтролері коду (ідентифікатора). Застосування RFID-технологій у видавничій діяльності доцільне в випадках наявності конвейєра і постійного потоку об’єктів; наявності паллет, коробів або інших об’єктів, що вимагають обліку переміщення та знаходяться в постійній ротації на території; наявності запакованих коробів, тек з об’єктами, інформація про які потрібна при підборі; наявності великогабаритного транспорту у разі потреби контролю за їх переміщенням.
- Автоматизований пошук інформації виконують інформаційно- пошукові системи. Ці системи включають три групи інформаційних продуктів: реферативно-бібліографічні бази даних, інформаційні агрегативні системи і повнотекстові документографічні системи. Процес пошуку текстової інформації в інформаційно-пошукових системах складається з таких етапів: формалізація пошукового запиту; попередній відбір текстових документів, які мають формальні ознаки наявності інформації, що цікавить користувача; аналіз відібраних документів; оцінка відповідності змістовного наповнення інформації вимогам пошукового запиту.
- Аналіз інформації у видавничих інформаційно-пошукових системах здійснюється на основі використання наступних видів аналізу інформації: лексичний - полягає в розборі текстової інформації на окремі абзаци, речення, слова; морфологічний - зводиться до автоматичного розпізнавання частин мови кожного слова тексту; синтаксичний - полягає в автоматичному виділенні семантичних елементів речення (іменних груп, термінологічних цілих, предикативних основ); семантичний - полягає у визначенні інформативності текстової інформації і виділенні інформаційно-логічної основи тексту.
Теоретичні запитання
- Проаналізуйте класифікацію механізмів формування інформаційних ресурсів видавничої діяльності.
- Які існують види RFID-систем?
- Опишіть основні переваги RFID-технології.
- Охарактеризуйте послідовність процесу пошуку інформації у інформаційно-пошукових системах.
- Назвіть основні групи інформаційно-пошукових систем видавничої діяльності.
Комплекс задач і завдань
- Видавництво «Альфа» здійснює комерційний проект формування електронних навчальних курсів в Інтернет з дизайну поліграфічної продукції на основі власного досвіду, сканованої літератури провідних фахівців з дизайну, а також ґрунтуючись на досвіді партнерів. Спроектуйте структуру електронних потоків у системі інформаційного забезпечення видавничої діяльності в цьому випадку.
- Запропонуйте механізми формування інформаційних ресурсів для видавничого проекту, що передбачає створення мультимедійних електронних видань для фінансових аналітиків. Опишіть характерні особливості таких механізмів.
- На основі ознайомлення з пропозицією RFID-систем в Інтернет і матеріалу п. 5.2 даного посібника оберіть радіочастотну мітку для зберігання інформації про літературу, видану в редакційно-видавничому відділі університету. Проаналізуйте основні характеристики цієї мітки та її переваги в контексті вирішення вказаної задачі.
- Обґрунтуйте вибір групи інформаційно-комунікаційних систем і засобів пошуку інформації про дистриб'ютерські мережі видавничої діяльності. Проаналізуйте доцільність використання для цього окремих категорій пошуку. Опишіть особливості лексичного, морфологічного, синтаксичного та семантичного аналізу в цьому випадку.