У процесі формування контенту видання результатом семантичного аналізу інформаційних документів найчастіше виступає автоматичне реферирування.

Автоматичним реферируванням є процес складання анотацій, або коротких викладів матеріалу, іншими словами, витягання найбільш важливих або характерних фрагментів з одного або багатьох джерел інформації [5].

Інструменти і методи реферирування формують короткий виклад початкового матеріалу або шляхом виділення фрагментів інформаційного наповнення і подальшого їх з’єднання, або методом генерації тексту на підставі знань про оригінал, і працюють з широким діапазоном джерел інформації, зокрема мультимедіа.

Головна відмінність між засобами реферирування полягає в тому, що вони, за сутністю, формують короткий виклад або набір витягів.

Так, витяг із Геттісберзького звернення Аврама Лінкольна може виглядати таким чином: «Вісімдесят сім років тому наші батьки ступили на цю землю, щоб створити нову націю». Короткий виклад того ж тексту звучатиме так: «У цій мові Аврам Лінкольн закликає пригадати солдатів, які віддали свої життя в битві при Геттісберзі».

Обидва типи викладу переслідують дві основні мети: визначити основну (або найбільш важливу) думку оригіналу і ухвалити рішення про метод скорочення (або стискування, або «урізання») інформації.

Проте реферати розрізняються за функцією і цільовими групами користувачів. Так, наприклад, реферат може бути оповідним, інформативним або критичним [6],

Оповідні реферати формуються за класичним принципом витягання інформації: вони надають достатній об’єм інформації, щоб створити у користувача уявлення про відповідні джерела з тим, щоб їх можна було відібрати для уважнішого прочитання.

Інформативні реферати замінюють собою текст, в основному вони містять головну або нову фактичну інформацію у скороченій формі.

Критичні реферати (або огляди) повідомляють не тільки сутність інформації, але і пропонують певну думку про неї. Критичні реферати володіють додатковою цінністю в порівнянні з оригіналом, оскільки пропонують висновки, яких немає в самому тексті.

Я Критичний реферат Геттісберзького звернення міг би виглядати так: «Не дивлячись на свою стислість, звернення, без сумніву, можна віднести до найбільших мов і історії Америки. Найбільш сильне враження залишають його завершальні слова про владу народу».

Реферат може бути загальним або орієнтованим на специфічного користувача. Реферати першого типу орієнтуються на широке коло читачів; до них не пред`являються які-небудь спеціальні вимоги, оскільки `їх не призначено для якоїсь однієї групи читачів. Реферати другого типу, навпаки, адресовані конкретному користувачеві або групі користувачів з їх специфічними потребами (наприклад, дітям).

Процес реферирування розпадається на три етапи: аналіз початкового тексту, визначення його характерних фрагментів і формування відповідного виводу. Більшість сучасних робіт концентруються навколо розробленої технології реферирування одного документа.

Процес реферирування може бути здійснено на основі використання певних методів [5].

Метод складання витягів припускає акцент на виділенні характерних фрагментів (як правило, пропозицій). Для цього методом зіставлення фразових шаблонів виділяються блоки найбільшої лексичної і статистичної релевантності. Створення підсумкового документа в даному випадку - просто з’єднання обраних фрагментів.

У більшості методів застосовується модель лінійних вагових коефіцієнтів. Основу аналітичного етапу в цій моделі складає процедура призначення вагових коефіцієнтів для кожного блоку тексту відповідно до таких характеристик, як розташування цього блоку в оригіналі, частота появи в тексті, частота використання в ключових пропозиціях, а також показники статистичної значущості. Сума індивідуальних вагів, що, як правило, визначена після додаткової модифікації відповідно до спеціальних параметрів налаштування, пов’язаних з кожною вагою, дає загальну вагу всього блоку тексту.

Метод формування короткого викладу вимагає використання могутніх обчислювальних ресурсів для систем обробки природних мов (NLP - natural language processing), зокрема граматики і словники для синтаксичного розбору і генерації природномовних конструкцій. Крім того, для реалізації цього методу потрібні якісь онтологічні довідники, що відображають міркування здорового глузду і поняття, орієнтовані на предметну область, для ухвалення рішень під час аналізу і визначення найбільш важливої інформації. Даний метод припускає два основні підходи {рис. 8) [6].

Підходи методу формування короткого викладу

Рис. 8. Підходи методу формування короткого викладу

Перший спирається на традиційний лінгвістичний метод синтаксичного розбору пропозицій. У цьому методі застосовується також семантична інформація для анотування дерев розбору. Процедури порівняння маніпулюють безпосередньо деревами з метою видалення і перегрупування частин, наприклад, шляхом скорочення гілок на підставі деяких структурних критеріїв, таких як дужки чи вбудовані умовні або підлеглі пропозиції. Після такої процедури дерево розбору істотно спрощується і стає, за сутністю, структурною «вижимкою» початкового тексту.

Другий підхід до складання короткого викладу йде корінням в системи штучного інтелекту і спирається на розуміння природної мови. Синтаксичний розбір також входить складовою частиною в такий метод аналізу, але дерева розбору в цьому випадку не породжуються. Навпаки, формуються концептуальні репрезентативні структури всієї початкової інформації, які акумулюються в текстовій базі знань.

Як структури може бути використано формули логіки предикатів або такі уявлення, як семантична мережа або набір фреймів.

Ill Прикладом може слугувати шаблон банківських транзакцій (заздалегідь визначена подія), в якому перераховуються організації і особи, що беруть у ньому участь, дата, об’єм перераховуваних засобів, тип транзакції і так далі.

Аналіз сфер застосування автоматичного реферирування у видавничій діяльності, здійснений на основі вивчення матеріалів досліджень [5; 6], наведено в табл. 10.

Таблиця 10. Сфери використання автоматичного реферирування у видавничій діяльності

Сфера застосування

Специфіка використання

Різні мови

Високоякісні машинні перекладачі, що оброблюють будь-яке введення інформації, поки залишаються предметом мріянь. Все, на що можна розраховувати зараз у цій області і що може виявитися дійсно корисним - це механізми фільтрації. Користувачі можуть застосовувати такі фільтри для отримання одномовних рефератів, що охоплюють інформацію з джерел на різних мовах. Після цього неважко вирішити, чи потрібен більш докладний переклад цих джерел

Гібридні джерела

Засоби реферирування повинні витягувати інформацію з відформатованих даних і з невідформатованого тексту. Такі застосування ще дуже нові і не мають під собою серйозного теоретичного фундаменту

Велика кількість документів

Просте об`єднання рефератів кожного документа не може вважатися за задовільне, оскільки за наявності великої кількості рефератів вони неминуче міститимуть надмірну інформацію. Оскільки декілька повідомлень, що відрізняються один від одного, про одну і ту ж подію нерідко з`являється в різних джерелах інформації, було розроблено засоби реферирування, які відкидають надмірну інформацію зі всіх повідомлень і надають їх короткий виклад

Мультамедіа

Відповідні технології повинні обробляти інформацію з джерел різного типу на етапі аналізу, на етапі витягання і на етапі синтезу, коли відбувається інтеграція інформації різного типу. Існуючі методи роботи з аудіо дозволяють вичленяти з потоку інформації закінчені фрагменти. Існують також технології обробки відео, які допомагають визначити істотні його фрагменти

В цілому галузь засобів реферирування знаходиться на самому початку свого розвитку. Існує єдина думка про необхідність кращих методів оцінки, проте більшість завдань ще не вирішено, зокрема, зберігається необхідність в масштабованих методологіях створення анотацій.

Висновки та узагальнення

  1. Опис будь-якої предметної області здійснюється за допомогою використання певного набору термінів, кожен з яких позначає або описує яке-небудь поняття або концепцію з даної предметної області. Сукупність термінів, що описують дану предметну область, зі вказівкою семантичних стосунків (зв`язків) між ними є тезаурусом. Тезауруси застосовуються, перш за все, для класифікації і пошуку інформаційних ресурсів. При цьому кожному ресурсу при класифікації можуть бути зіставлені одне або декілька понять, що описуються термінами в тезаурусі, а користувач, що здійснює пошук, може за тезаурусом знайти поняття, що цікавлять його в даній предметній області, а також всі терміни, що характеризують їх.
  2. Вирішення завдань семантичного аналізу здійснюється за допомогою технології автоматичного аналізу тексту ділових або наукових документів в інформаційних системах з обмеженою предметною областю. Ця технологія містить такі компоненти знань, як онтологія, що включає поняття і стосунки предметної області; предметний словник (тезаурус), що містить терміни, за допомогою яких у тексті можуть представлятися поняття і стосунки онтології; інформаційне наповнення системи, або база даних.

3. Дані в системі представлено як безліч різнотипних інформаційних об`єктів, які є описом об`єктів предметної області і в сукупності утворюють інформаційне наповнення системи. Кожен інформаційний об`єкт визначається деяким елементом онтології (поняттям або відношенням) і, будучи екземпляром даного елементу, має задану експертом структуру з фіксованим набором атрибутів. Будь-який інформаційний об`єкт може бути розглянуто у трьох різних аспектах: структура, контент і контекст. Структура об`єкта може характеризуватися як набором власних атрибутів і зв`язків, так і описом формальної структури його змісту. Контент описує інформаційний зміст об`єкта за допомогою понять і стосунків. Контекст, на відміну від контенту, розглядає інформаційний об`єкт як єдине ціле і не залежить (явно) від його змісту.

4. Короткий виклад інформаційного матеріалу формується інструментами і методами реферирування шляхом виділення фрагментів інформаційного наповнення і подальшого їх з`єднання, а також методом генерації тексту на підставі знань про оригінал. Інструментарії реферирування працюють з широким діапазоном джерел інформації, зокрема мультимедіа. Процес реферирування складається з трьох етапів: аналіз початкового тексту, визначення його характерних фрагментів і формування відповідного виводу - і його може бути здійснено на основі використання методу складання витягів і методу формування короткого викладу.

Теоретичні запитання

1. Що являють собою тезауруси в описі інформації видавничої справи?

2. Проаналізуйте області застосування тезаурусів.

3. Опишіть компоненти знань у технології аналізу текстових документів.

4. Яким чином відбувається аналіз текстового документу?

5. Проаналізуйте сфери використання автоматичного реферирування у видавничій діяльності.

Комплекс задач і завдань

  1. Сформуйте тезаурус предметної області додрукарської підготовки формації. Для цього виділіть систему термінів, які описують процеси додрукарської обробки; опишіть семантичні зв’язки між термінами з вказанням більш широкого та вузького понять, найбільш переважних і найменш переважних термінів. Проаналізуйте зв’язки еквівалентності та асоціативні зв’язки між поняттями тезаурусу.
  2. Виконайте аналіз контексту Інтернет-сторінок, що містять інформацію про технології цифрового друку. Опишіть основні поняття (класи) та формальну структуру змісту для кожного класу текстових ресурсів.
  3. Сформуйте формальну структуру тексту розділу 1 даного навчального посібника. Як маркер використайте лексичні об’єкти, задані конкретним ідентифікатором або назвою.
  4. Складіть інформативний реферат обраної статті методами складання витягів і формування короткого викладу. Порівняйте функціональні можливості методів і результати.

Джерела інформації

  1. Нгуен М. X., Аджиев А. С. Описание и использование тезаурусов в информационных системах, подходы и реализация // Рос. науч. электрон, журн. «Электронные библиотеки».- 2004,- Том 7.- Вып. 1
  2. Петунин О. В. Тезаурус как методологическое основание для конструирования тезаурусного поля педагогической проблемы // Гуманитарные науки: теория и методология.- 2008,- № 4.- С. 50 - 53.
  3. Сидорова Е. А., Загорулько Ю. А., Кононенко И. С. Семантический подход к анализу документов на основе онтологии предметной области
  4. Загорулько Ю. А., Кононенко И. С., Сидорова Е. А., Костов Ю. В. Подход к интеллектуализации документооборота // Информационные технологии.- 2004,- №11, С. 2 - 11.
  5. Mani and Е. Bloedorn Summarizing Similarities and Differences Among Related Documents // Information Retrieval.- 1999.- Vol. Ь No. 1.- P. 35 - 36.
  6. Мани И., Хан У. Системы автоматического реферирования // Открытые системы.-2000.-№ 12