Розвиток ідеї автоматичного реферування 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Розвиток ідеї автоматичного реферування



ВСТУП

 

Нині, завдяки поширенню мережі Інтернет, швидкими темпами збільшується обсяг науково-технічної інформації на електронних носіях. Проблема автоматичної обробки цієї інформації, складання інформаційних оглядів, реферування й анотування джерел, що несуть інформацію для конкретного користувача, стає все більш актуальною.

Протягом останніх десятиліть ведуться активні дослідження в галузі формалізації змісту текстової інформації. Вони спираються на досягнення структурної і прикладної лінгвістики, логічної семантики, математичної логіки та низки інших фундаментальних і прикладних дисциплін. Результати цих теоретичних досліджень усе більше застосовуються в автоматизації процесів обробки інформації і побудові інтелектуальних інформаційних систем у різних галузях науки.

Одним із найважливіших напрямів у даних дослідженнях, на наш погляд,

є пошук шляхів і методів автоматичного стиснення (згортання) тексту. Під стисненням мається на увазі сукупність операцій аналітико-синтетичної переробки інформації, що переслідують мету створення вторинних документів чи вираження змісту вихідного тексту в більш економічній формі при максимальному збереженні його інформативності в похідному тексті. Реферування й анотування займають центральне місце у згортанні інформації, і всі проблеми, пов’язані

з іншими різновидами згортання, так чи інакше відбиті в цих процесах.

Реферат є вторинним документом, основне призначення якого – подання актуальної науково-технічної інформації на основі її смислової переробки.

На відміну від анотації, що являє собою описову характеристику, реферат передає фактографічну інформацію. Індикативний реферат (резюме) містить тільки ті положення, що тісно пов’язані з темою первинного документа. Усе другорядне для даної теми в індикативному рефераті опускається. Індикативність припуcкає узагальнене подання матеріалу відповідно до конкретного призначення вторинного документа і характеру аналізованого тексту.

 

Реферат в ідеалі повинен задовольняти інформаційні потреби споживачів, які володіють знаннями у різноманітних галузях науки і цікавляться різними аспектами однієї й тієї ж проблеми тощо. Такий реферат умовно можна

було б назвати універсальним.

Моделювання процесу реферування є одним із найскладніших завдань

у розробці інтелектуальних систем, оскільки в основі логічного механізму цього процесу лежать закономірності людського мислення.

Складовими процесу реферування є аналіз, узагальнення і синтез. Процес узагальнення є найважчим, оскільки передбачає згортання смислу шляхом пошуку найбільш ємних засобів і форм подання інформації. При цьому зміст реферату повинен залишатися семантично адекватним і еквівалентним первинному документові.

Процес узагальнення смислу тексту під час реферування відбувається

на чотирьох рівнях: синтаксичному, семантичному, лексичному і частково – морфологічному.

Реалізація цих механізмів у системі автоматичного реферування дозволяє істотно прискорити і полегшити процес укладання рефератів, хоча сьогодні йдеться лише про створення автоматичних квазірефератів.

Удосконалення системи автоматичного реферування можливе, зокрема, при розв’язані проблеми моделювання інтелектуального аспекту процесу реферування, однією з важливіших складових якого є побудова моделі узагальнення смислу в процесі реферування текстів.

 

Глава 1. Огляд сучасних досліджень у галузі автоматичного

реферування

Глава 2. Методика опису процесу узагальнення в системі автоматичного реферування

Аналіз граматичних і словотворчих характеристик елементів реферативних конструкцій

 

Перш ніж перейти до побудови синтаксичної і семантичної моделей узагальнення в реферуванні, варто зупинитися на розгляді морфологічних (граматичних і словотворчих) характеристик елементів реферативних конструкцій (предикатів, актантів і сирконстантів), що дозволяють аналізувати план змісту цих елементів з урахуванням особливостей плану вираження.

 

Як правило, в системах АОТ морфологічний аналіз (МА) слів застосовується з метою ототожнення їх різних форм і одержання граматичної і семантичної інформації, необхідної на останніх етапах роботи таких систем. До завдань традиційного МА входять: визначення лексико-граматичних класів, до яких належать одиниці тексту; визначення всередині класу словозмінних характеристик словоформи; приведення словоформ однієї лексеми до канонічної форми. Семантика морфем, що входять у словоформу, в межах цих систем не розглядається. Це завдання словотворчого аналізу.

 

МА реферативних текстів уже проводився рядом учених [131; 132], при цьому формулювання завдань дослідження залишалися в межах традиційних. Завдання ж даного дослідження відрізняються від них тим, що в ньому МА зводиться до аналізу граматичних значень актантів і слів, які виступають у ролі предикативного ядра розглянутих синтаксичних конструкцій, а також до часткового морфемного (словотворчого) аналізу (МрА) предикатів на предмет наявності в них формальних ознак узагальнення.

 

Під МА тут передбачається аналіз граматичних значень G=(g1,g2,,…,gk) дієслів, що виступають у ролі предикатів V у СК індикативних рефератів російськомовних текстів, а також значень G=(g1,g2,,…,gk) всіх актантів A і сирконстантів Sr, що входять до складу даних конструкцій. Під МрА передбачається аналіз структури словоформ, розглянутих ізольовано, тобто без залучення відомостей про їх навколишній контекст [133], а саме виявлення в дієсловах V префіксальних морфів з визначеним значенням q.

 

Для опису граматичних значень слів, що входять до складу СК реферативного тексту, введемо граматичні ознаки G=(g1,g2,,…,gn) зі значеннями γ=(γ1,γ2,…,γn), де:

 

g1= {1, 2, 3, 4, 5, 6} – частина мови зі значеннями: 1 – іменник, 2 – прикметник, 3 – дієслово, 4 – дієприкметник, 5 – дієприслівник, 6 – прислівник;

 

g2 = {1, 2} – вид зі значеннями: 1 – доконаний, 2 – недоконаний;

 

g3 = {1, 2} – стан зі значеннями: 1 – активний, 2 – пасивний;

 

g4 = {1, 2, 3} – час зі значеннями: 1 – теперішній, 2 – минулий, 3 – майбутній;

 

g5 = {1, 2, 3} – особа зі значеннями: 1– перша, 2 – друга, 3 – третя;

 

g6 = {1, 2} – число зі значеннями: 1 – однина, 2 – множина;

 

g7 = {1, 2, 3, 4, 5, 6} – відмінок зі значеннями: 1 – називний, 2 – родовий, 3 – орудний, 4 – місцевий, 5 – знахідний, 6 – давальний (відмінкова парадигма подається не в традиційному порядку, а з огляду на частоту використання в реферативних конструкціях);

 

g8 = {1, 2} – форма зі значеннями: 1 – повна, 2 – коротка.

 

Тоді граматичні значення Gi предикатів, сирконстантів і актантів, що входять до складу СК реферативного тексту, можна подати у вигляді логічного добутку їхніх характерних граматичних ознак:

 

Gi=g1γ1g2γ2...…gnγn,

 

де n – кількість граматичних ознак, які входять у граматичне значення.

Граматичні значення залежних елементів актантів.

 

У ролі залежного елемента актанта може виступати прикметник у повній формі, граматичне значення якого описується як G7=g12g81.

 

Залежний прикметник у складі актанта реферативної конструкції може бути якісним (эффективный, актуальный, современный) чи відносним (финансовый, стратегический, интегральный). Якісний прикметник позначає властивість, притаманну предметові чи відкриту в ньому, часто таку, котра може характеризуватися з різним ступенем інтенсивності. Відносний прикметник називає ознаку через відношення до предмета чи іншої ознаки, що не може виявлятися з різним ступенем інтенсивності [134, c. 541]. Морфологічні значення прикметників повторюють морфологічні значення іменників (рід, число, відмінок), з якими вони погоджуються.

Граматичні значення сирконстантів.

 

Сирконстанти в реферативних конструкціях заповнюються винятково прислівниками G8=g16, що позначають непроцесуальну ознаку дії, виконують функцію оцінного узагальнення у рефераті. У даному випадку вживаються прислівники способу дії: детально, подробно, поэтапно.

УЗАГАЛЬНЕННЯ

 

СK1

 

СK2

 

СK3

 

СK4

 

СK5

 

 

СK1

 

СK2

 

Т

 

 

Рис. 3.1. Узагальнення на синтаксичному рівні

 

У кількісному відношенні індикативний реферат утворює набір від одного до трьох (найчастіше двох) речень однієї з синтаксичних конструкцій СК1 чи СК2, що зустрічаються в рефератах. Реферат у вигляді R1={СК1СК1}: «Дана токсиколого-гигиеническая и медико-биологическая характеристика поверхностно-активных веществ. Обобщены данные литературы и результаты собственных исследований медико-биологических аспектов проблемы загрязнения окружающей среды поверхностно-активными веществами» чи R2={СК2СК2}: «Анализируется инвестиционная привлекательность различных регионов Украины в контексте современных экономических преобразований. Формулируется система практических рекомендаций для более успешного привлечения потенциальных инвесторов» є більш вдалим, ніж, припустімо, R={СК2СК1}: «Рассматривается системный подход к обоснованию и моделированию социетальной психики неслучайных групп. Рассмотрен интегральный тип информационного метаболизма нации» чи R={СК1СК2}: «Обоснована важность изучения смысла на словообразовательном уровне. Рассматривается необходимость математического описания смысла».

 

Формальне представлення реферативних конструкцій у вигляді:

 

СК1=V(G1)A1(G3) і СК2=V(G2)A1(G3) є тільки основою парадигм реферативних речень. Як показав аналіз масиву інтелектуальних індикативних рефератів, речення, що входить до його складу, може містити не більше семи іменних актантів. У випадку наявності більшої кількості актантів речення здобуває громіздкого вигляду, що ускладнює його розуміння.

 

У результаті проведеного аналізу варіантів поширення СК1 пропонується звести її поширення до типового [141] із трьохслівним чи більш довгим ланцюжком словоформ іменників (жирним шрифтом виділено обов’язкові елементи):

 

 

В

 

 

СК1=Sr(g16)V1(g14g21g32g42g82)A1((g12g81)(g11g71))A2((g12g81)(g11g72))

 

A3((g12g81)(g11g72))A4((g12g81)(g11g73(2)))A5((g12g81)(g11g72)) (3.2)

 

A6 (g12g81)(g11g72))A7((g12g81)(g11g72(4))).

 

 

Висока частота вживання в РК іменників у родовому відмінку (G4) пояснюється тим, що родовий відмінок легко вступає в підрядні зв’язки з іменниками виконуючи роль атрибута. У наукових текстах родовий відмінок дозволяє уникнути неоднозначності, неточності, робить мову більш чіткою, заощаджує місце і час [141].

 

Синтаксична конструкція СК2 зустрічається в реферативних текстах трохи частіше, ніж конструкція СК1 [142], однак має менше варіантів поширення. Список варіантів поширення даної СК далеко не обмежується наданим. Тому пропонується уніфікувати поширення синтаксичної структури СК2,

представивши її у вигляді типової конструкції:

 

 

Таким чином, будь-який інтелектуальний реферат можна замінити семантично еквівалентним йому з точки зору індикативності рефератом, представленим у вигляді описаних синтаксичних конструкцій (приклади надано

в додатку Б).

 

Для повного формального представлення конструкцій СК1 і СК2, по-перше, опишемо всі можливі граматичні значення іменних груп у складі актантів і синтаксичні зв’язки ss1 ss2,... ssn між елементами двоскладних актантів, що входять до складу РК. Якщо іменна група, що заповнює актант A, складається

з одного елемента (позначимо його як А1), то:

 

 

5 3

 

A1=N, де N=(V Gi)= g11(V g7i).

 

i=3 i=1

 

Синтаксичні зв’язки всередині односкладних актантів відповідно відсутні. Якщо іменна група, що заповнює актант A, складається з двох елементів (позначимо його як А2 й А3), то:

 

 

6 3

 

A2=AdjN, A3=NN, де N=(V Gi)=g11(V g7i), Adj=G7=(g12g81).

 

i=3 i=1

 

Тут між елементами іменної групи можливі два типи синтаксичного зв’язку: ss1 – узгодження і ss2 – керування. Зв’язок ss1 виражає означальні відношення між іменником у ролі головного елемента іменної групи і прикметником, що виконує функцію визначення в ролі залежного елемента:

 

 

6 4

 

ss1=AdjN=Adj(G7)N(V Gi)= Adj(g12g81)N(g11(V g7i)),

 

i=3 i=1

 

наприклад: словообразовательное значение, естественно-языковое высказывание, социетальная психика, поверхностно-активные вещества, финансовых ресурсов, инвестиционной привлекательности, современными методами, в данной области…

 

Зв’язок ss2 (керування) встановлюється як між елементами ланцюжка іменників у складі іменної групи актанту, так і між іменниками, що є головними елементами різних актантів. Тут мова йде про сильне керування, при якому виникають заповнюючі відношення. При цьому головний елемент зв’язку (іменник) може мати форму називного, родового, орудного чи місцевого відмінка, а залежний (іменник) – форму родового чи місцевого відмінка:

 

4 2

 

ss2=NN=N(V Gi)N(G4 v G6)= N(g11(V g7i))N((g11g72)v(g11g74)),

 

i=3 i=1

 

наприклад: база данных, язык запросов, связи мозга, процедуры вывода, рака легких, метаболизма нации, методом подбора, исследований в области, состояние в мире…

 

Синтаксичні зв’язки всередині актантів можна умовно назвати зв’язками нижнього рівня, тоді як до верхнього рівня відносяться синтаксичні зв’язки між актантами в складі реферативної СК. Тут, крім описаних вище зв’язків ss1 і ss2, спостерігаються зв’язки: ss3 – координація, ss4 – прилягання і ss5 – поєднання. Причому синтаксичним зв’язком між двоскладними актантами вважаються зв’язки між їх головними елементами.

 

Зв’язок ss3 установлюється між присудком (V) і підметом (Sbj), які утворюють предикативний центр речення:

 

 

 

ss3=VSbj=V(V Gi)N(G3)=V((g14g21g32g42g82)v(g13g22g32g41))N(g11g71),

 

i=1

 

наприклад: рассматривается необходимость, анализируется модель, описана реализация, обоснована актуальность, разрабатывается схема… Зв’язок ss4 (прилягання) у реферативних СК установлює:

 

означальні відношення між дієсловом-присудком (V) і прислівником-обставиною (Sr), наприклад: особо отмечается, подробно описаны, детально анализируется;

 

означальні відносини між дієсловом-присудком (V) та іменником (N)

в орудному відмінку зі значенням засобу (способу), наприклад: описан моделями, описан с помощью, анализируется методами;

 

означальні відносини між дієсловом-присудком (V) та іменником (N)

у родовому відмінку зі значенням мети, наприклад: для поиска и обработки охарактеризованы, для распределения сформулированы, для привлечения формулируется.

 

2 2 2

 

ss4=SrV v VN=Sr(G8)V(VGi) v V(V Gi)N(G5) v V(V Gi)N(G4) =

 

i=1 i=1 i=1

 

= Sr(g16)V((g14g21g32g42g82)v(g13g22g32g41)) v V((g14g21g32g42g82)v(g13g22g32g41))N(g11g73) v

 

V((g14g21g32g42g82)v(g13g22g32g41))N(g11g74).

 

 

При представленні моделі СК у вигляді ДЗ зв’язок ss4 утворить окремі гілки, що виходять від присудка (Vi) до обставини-прислівника (Sr) і обставини-іменника (N(G4) чи N(G5)). При цьому обставина-іменник може мати залежний прикметник чи, як продовження гілки, залежні актанти, наприклад: описан математическими моделями, анализируется методами этносоционики, для привлечения потенциальных инвесторов формулируется, для поиска и предварительной обработки стратегической информации охарактеризованы…

 

На практиці прилягання зі значенням ss4=VN(G4) і ss4=VN(G5) не зустрічається в одному реченні, тому в синтаксичній моделі реферативної СК допустиме представлення даних типів зв’язку у вигляді однієї й тієї ж гілки.

 

Реферативні СК найчастіше поширені однорідними членами речення чи, як їх називають, сурядним рядом – рядом словоформ, об’єднаних сурядним зв’язком. Сурядний ряд у реферативних СК може займати позицію присудка, підмета, додатка або означення, наприклад:

 

Формулируется и доказывается принцип суперпозиции кратчайших предикатов.

 

Описана и проанализирована модель интегрального типа США методами этносоционики.

 

Показаны актуальность и значимость дальнейшей перспективы трансплантации печени.

 

Рассмотрены психоинформационная структура и взаимодействия интегральных типов информационного метаболизма коллективов.

 

Показана необходимость дальнейших исследований эффективности химиотерапии и комбинированного лечения рака мочевого пузыря.

 

Излагается проблема обоснования и моделирования социетальной психики неслучайных групп.

 

Анализируется необходимость формирования системы ипотечного, товарного и сезонного кредитования под залог сельскохозяйственной продукции.

 

Члени сурядного ряду завжди розташовуються контактно, при цьому самі можуть бути поширені, тобто мати при собі залежні від них словоформи, що виступають у ролі означення чи додатка:

 

Представлены методы купирования ангинозного приступа и неотложные мероприятия при нестабильной стенокардии.

 

Словоформи, що складають сурядний ряд, граматично пов’язані з яким-небудь одним спільним для них членом. Це може бути присудок, підмет чи додаток:

 

Подробно описаны особенности отбора доноров и реципиентов, этапы хирургического вмешательства, анестезиологическое пособие, возможные осложнения.

 

Рассматривается проблема обоснования и моделирования социетальной психики неслучайных групп.

 

Освещается системно-кибернетический анализ иерархических

пространственно-временных синхронных и асинхронных связей

головного мозга.

 

Рассматриваются интегральные типы информационного метаболизма коллективов, организаций, наций, этносов и государств.

 

Можлива також наявність в одній СК більш одного сурядного ряду:

 

Отмечается необходимость организации финансового консалтинга

и развития лизинга сельскохозяйственной техники, оборудования и технологий.

 

Сурядні ряди, що поширюють прості речення РК, є відкритими, тобто складаються з потенційно необмеженої кількості членів, а отже, порядок послідовності членів даного ряду – вільний. Сурядні відносини між словоформами всередині ряду є відношеннями поєднання (ss5) синтаксично недиференційованих членів (члени ряду цілком рівноправні). Показником сурядного зв’язку виступає простий сполучник и чи інтонація (кома в письмових текстах):

 

2 2 6 6

 

ss5=VV v NN v AdjAdj v SrSr=V(VGi)V(VGi)vN(VGi)N(VGi)vAdj(G7)Adj(G7)v

 

i=1 i=1 i=3 i=3

 

Sr(G8)Sr(G8)=V((g14g21g32g42g82) v (g13g22g32g41))V((g14g21g32g42g82) v

 

4 4

 

(g13g22g32g41)) v N(g11(V g7i))N(g11(V g7i))v Adj(g12g81)Adj(g12g81) v Sr(g16)Sr(g16).

 

i=1 i=1

 

 

Зв’язок ss5 є зв’язком нижнього рівня, якщо він поєднує однорідні залежні елементи всередині актанта, оскільки прикметник не може бути окремим актантом, наприклад: ипотечное, сезонное и товарное кредитование, паллиативное и симптоматическое лечение…В усіх інших випадках зв’язок ss5 є зв’язком верхнього рівня, що поєднує актанти у складі СК.

 

Наявність сурядних рядів ускладнює синтаксичну структуру речення, однак робить реферативну конструкцію в цілому більш інформативною.

 

У результаті синтаксичного аналізу конструкцій простих речень наукових текстів і текстів їх індикативних рефератів ми прийшли до висновку, що моделлю узагальнення в процесі реферування на синтаксичному рівні є дві типові реферативні синтаксичні конструкції СК1 і СК2 (рис.3.2), які володіють семантикою результативності, представлені у вигляді ДЗ і містять не більше семи іменних актантів.

 

У моделі реферативних СК у вигляді ДЗ зазначено максимально можливу кількість валентностей [143] кожного члена речення.

 

Типовий індикативний реферат складається з одного, двох чи трьох речень, що являють собою варіанти поширення даних СК.

 

Проведене дослідження також підтверджує, що будь-який інтелектуальний реферат можна замінити семантично еквівалентним йому індикативним рефератом, представленим у вигляді описаних синтаксичних конструкцій.

 

Таким чином, синтаксична модель SS реферату R описується відношенням:

 

O1(R,SS)={СК1, СК2},

 

 

і

 

ss =(V ssi).

 

i=1

з визначеним набором синтаксичних зв’язків ss усередині кожної СК:

ВСТУП

 

Нині, завдяки поширенню мережі Інтернет, швидкими темпами збільшується обсяг науково-технічної інформації на електронних носіях. Проблема автоматичної обробки цієї інформації, складання інформаційних оглядів, реферування й анотування джерел, що несуть інформацію для конкретного користувача, стає все більш актуальною.

Протягом останніх десятиліть ведуться активні дослідження в галузі формалізації змісту текстової інформації. Вони спираються на досягнення структурної і прикладної лінгвістики, логічної семантики, математичної логіки та низки інших фундаментальних і прикладних дисциплін. Результати цих теоретичних досліджень усе більше застосовуються в автоматизації процесів обробки інформації і побудові інтелектуальних інформаційних систем у різних галузях науки.

Одним із найважливіших напрямів у даних дослідженнях, на наш погляд,

є пошук шляхів і методів автоматичного стиснення (згортання) тексту. Під стисненням мається на увазі сукупність операцій аналітико-синтетичної переробки інформації, що переслідують мету створення вторинних документів чи вираження змісту вихідного тексту в більш економічній формі при максимальному збереженні його інформативності в похідному тексті. Реферування й анотування займають центральне місце у згортанні інформації, і всі проблеми, пов’язані

з іншими різновидами згортання, так чи інакше відбиті в цих процесах.

Реферат є вторинним документом, основне призначення якого – подання актуальної науково-технічної інформації на основі її смислової переробки.

На відміну від анотації, що являє собою описову характеристику, реферат передає фактографічну інформацію. Індикативний реферат (резюме) містить тільки ті положення, що тісно пов’язані з темою первинного документа. Усе другорядне для даної теми в індикативному рефераті опускається. Індикативність припуcкає узагальнене подання матеріалу відповідно до конкретного призначення вторинного документа і характеру аналізованого тексту.

 

Реферат в ідеалі повинен задовольняти інформаційні потреби споживачів, які володіють знаннями у різноманітних галузях науки і цікавляться різними аспектами однієї й тієї ж проблеми тощо. Такий реферат умовно можна

було б назвати універсальним.

Моделювання процесу реферування є одним із найскладніших завдань

у розробці інтелектуальних систем, оскільки в основі логічного механізму цього процесу лежать закономірності людського мислення.

Складовими процесу реферування є аналіз, узагальнення і синтез. Процес узагальнення є найважчим, оскільки передбачає згортання смислу шляхом пошуку найбільш ємних засобів і форм подання інформації. При цьому зміст реферату повинен залишатися семантично адекватним і еквівалентним первинному документові.

Процес узагальнення смислу тексту під час реферування відбувається

на чотирьох рівнях: синтаксичному, семантичному, лексичному і частково – морфологічному.

Реалізація цих механізмів у системі автоматичного реферування дозволяє істотно прискорити і полегшити процес укладання рефератів, хоча сьогодні йдеться лише про створення автоматичних квазірефератів.

Удосконалення системи автоматичного реферування можливе, зокрема, при розв’язані проблеми моделювання інтелектуального аспекту процесу реферування, однією з важливіших складових якого є побудова моделі узагальнення смислу в процесі реферування текстів.

 

Глава 1. Огляд сучасних досліджень у галузі автоматичного

реферування

Розвиток ідеї автоматичного реферування

 

Проблема автоматичної обробки інформації (АОІ) набуває з кожним роком усе більшого значення, що обумовлено стрімким збільшенням обсягу документів на електронних носіях і темпами розвитку всесвітньої мережі Інтернет. Одне із суттєвих завдань у цій галузі – пошук шляхів і методів автоматичного стиснення тексту, скорочення його обсягу, зберігаючи головний зміст, тобто побудова реферату.

Реферування, як і анотування, виникло в надрах бібліотечно-бібліографічної практики та наукової журналістики. Засоби аналізу документів, вироблені емпіричним шляхом, поступово формували методику бібліографічної роботи, яка мала яскраво виражений прикладний характер. Головним завданням прикладного анотування і реферування було визначення ступеня повноти відображення змісту першоджерела. Основна увага фахівців була сконцентрована на змістовній стороні, а питання про функції і типи рефератів

не розглядалися.

Така картина існувала до 20-х років минулого століття. Необхідно підкреслити, що анотування і реферування ніколи не розглядалися самостійно,

а завжди – в залежності від суті і завдань бібліографічної справи [1].

З виникненням і розвитком інформатики почався якісно новий етап осмислення даної проблеми: ставляться питання про автоматизацію анотування

і реферування, а також про види і функції вторинних документів, що використовуються як вихідні в інтегральних інформаційних системах. Вивчення цих питань виходить за межі бібліографії і книгознавства. Анотування і реферування стають об’єктами досліджень філософів, лінгвістів, фахівців у галузі кібернетики й обчислювальної техніки, а предметом постійних дискусій – теоретичні аспекти: функціональне призначення анотацій і рефератів і засоби розкриття змісту першоджерела у процесі згортання [2].

Проблема функціонального призначення рефератів виникла досить давно, і думки фахівців з цього приводу змінювалися неодноразово. Так, у певні часи вважалося, що реферат здатний повністю замінити читачеві першоджерело. Однак тоді ж існувала й радикально протилежна думка: реферат не може замінити першоджерело, він лише дозволяє робити висновок про необхідність звернення до цього джерела [3].

В основі суперечок, що постійно виникають з цього питання, лежить відносність розподілу в тексті першоджерела власне інформації, носієм якої є реферат, і метаінформації, носієм якої слугує анотація, а також нерозуміння принципової різниці між даними видами вторинних документів.

Різні автори використовують різні визначення поняття «реферат». Наведемо декілька прикладів:

Реферат (від лат. referre – повідомляти, доповідати) – це короткий

виклад змісту наукового документа [4].

Реферат – модель оригіналу, що пропорційно відображає його складові частини [5].

Реферат – це семантично адекватний, обмежений малий обсягом і разом з тим по можливості повний виклад основного змісту первинного документа, що характеризується постійністю структури і призначений для виконання різноманітних інформаційних функцій під час використання його читачами різних категорій [6].

 

Щоб уникнути неоднозначності трактування одного з ключових понять, зазначимо, що у процесі даного дослідження ми оперували останнім із наведених визначень.

Що стосується відмінності реферату від анотації, то, на наш погляд, вона полягає в наступному: реферат передає фактографічну інформацію і відповідає на питання, яку інформацію закладено в первинному документі; анотація ж являє собою стислу описову характеристику першоджерела і відповідає на запитання, про що говориться в первинному документі. Крім того, в анотації основний зміст передається «своїми словами», які припускають високий ступінь абстрагування та узагальнення матеріалу. У рефераті використовуються ключові фрагменти, тобто формулюються узагальнення, запозичені з тексту оригіналу, що робить більш реальним створення автоматичних рефератів.

 

Функціями реферату є [7]:

інформативна (передавання фактографічної інформації);

пошукова (подання пошукового образу первинного документа);

адресна (бібліографічний опис первинного документа);

довідкова (довідковий характер інформації в рефераті);

комунікативна (забезпечення обміну інформацією).

Реферати за функціональним призначенням поділяються на загальні

і спеціалізовані [7], а в залежності від повноти і форми викладу змісту первинного документа – на інформативні (реферат-конспект) та індикативні

(реферат-резюме).

Індикативний реферат містить лише ті положення, які тісно пов’язані

з темою реферованого документа, усе другорядне для даної теми не викладається. Індикативний реферат, окрім основних, може виконувати також індикативну функцію. Саме даний вид реферату викликає інтерес під час документального пошуку, використовується при вирішенні питання про необхідність перегляду першоджерела.

Основні вимоги до якісного автоматичного реферату не відрізняються від вимог до інтелектуального реферату. По-перше, реферат має бути релевантним першоджерелу, тобто встановлювати відповідність змісту документа до змісту запиту користувача. По-друге, реферат має стисло і точно відтворювати факти первинного документа.

 

Реферат в ідеальному вигляді має задовольняти інформаційні потреби споживачів, які володіють різними знаннями, що належать до різних галузей науки, і які цікавляться різними аспектами однієї й тієї ж проблеми і таке інше. Такий реферат умовно може бути названий універсальним [8].

У системі наукової комунікації реферат виступає як основна інформаційно-комунікативна одиниця [9], що зумовлено такими його властивостями [10]:

Від усіх видів вторинних інформаційних документів (анотації, резюме, бібліографічного опису) реферат відрізняється найбільшою інформативністю

в розкритті змісту першоджерела;

Використання рефератів для пошуку поточної або ретроспективної інформації може зекономити до 90% часу [11], необхідного на випадок звернення до первинних документів;

Форма надання інформації у вигляді реферату зручна для зберігання

у фондах довідково-інформаційних служб, у тому числі в автоматизованих інформаційних бібліотечних системах [11], а також в інформаційно-пошукових системах (ІПС).

Актуальність автоматизації процесу реферування була очевидною вже

40 років тому: «…різного виду кількісні підрахунки динаміки зростання первинних документів з екстраполяцією в майбутнє роблять вельми актуальною розробку питань механізації та автоматизації в цій галузі, оскільки підготовка вторинних документів пов’язана з колосальними витратами розумової праці, часу і коштів. Це, у свою чергу, вимагає як теоретичного і методологічного дослідження загалом, так і різних розробок у галузі формалізованих методів згортання» [12, c. 13].

Активні дослідження в галузі автоматичного реферування (АР) за останні два десятиліття ще більше зміцнили позиції реферату в системі АОІ. За всю історію розвитку реферування цей вид вторинного документа не був об’єктом такої пильної уваги дослідників у різних прикладних галузях, як у період автоматизації даного процесу. Внаслідок цього було розроблено чимало методів і систем АР, основні з яких описані в наступному підрозділі.



Поделиться:


Последнее изменение этой страницы: 2016-06-06; просмотров: 236; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.22.181.209 (0.139 с.)