Компьютерная лингвистика: моделирование общения и структуры сюжета 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Компьютерная лингвистика: моделирование общения и структуры сюжета



Связь ПЛ с др. науками.

Осн. часть? Пл — из теорет. яз-ния. Методология логики и матем-ки, философия яз. — для полного абстрагирования от действ-ти, чтобы создать целостную модель. Физиология, логопедия (проблема афазий), эскперим. психология, акустика, информатика, кибернетика, системы иск. интеллекта (ИИ).

С фун-ной т. зр. ПЛ м. б. определена как науч. дисциплина, в крой изучаются и разрабатываются способы оптимизации функ-ния яз. Ф-ции яз. (коммуник., когнит., информационная, эпистемическая — как способ хранения и передачи знаний, социальная…) задают точки отсчета для клас-ции огромной области приложения лингв. знаний.

Компоненты ПЛ:

теория и практика перевода (+ маш. перевод), 2) т. и практика преподавания (род/нерод. яз) — лингводидактика, 3) т. и практика ИПС, 4) т. кодирования, 5) социоЛ, 6) орфография и орфоэпия, 7) т. воздействия, т. аргументации, 8) полит. Л, 9) лексикография (в том ч. автоматическая), 10) терминология, терминография, 11) полевая Л (иссл-ние яз. малых народностей), 12) комп. Л (моделирование отд. аспектов яз.), 13) лингв. криминология, 14) психолингв-ка, 15) квантитат. Л

Осн. иссл-ские задачи ПЛ

- Создание лингвопроцессоров — системы автом. анализа и синтеза речи и текста на естеств. яз. Его компоненты: морф., семант., синт. анализаторы.

- Маш. перевод. ОЭ-ние плана выражение поср-вом планов содержания на разн. яз, в идеале — без участия чка. Модели: «текст - текст», «текст – смысл - текст», «текст – действ-ть – смысл - текст».

- Прикл. лексикология и маш. лексикография. Автом. составление словарей для разработки автом. ИПС, маш. перевода. Частотные словари, словоуказатели, конкордансы, термин. базы данных, маш. словари, энциклопедии.

- Системы автом. анализа и синтеза речи. Направлены на разработку естест-языкового интерфейса. Распознавание речи требует привлечения всех уровней организации яз.

- АОС. Повышения кач-ва и эффект-ти обучения. Направлены на самост. обучение.

В целом прикл. аспекты лингв. обеспечения разнообразных сфер чкой деятельности сводятся пре­жде всего к одной общей проблеме — проблеме обработки ин­фо, фун-щей в обществе. Это и текстовая ин­фо в ее письм. виде, и устная речь как наиболее привычный способ коммуникации. Особая роль яз-ния в решении практ. проблем и потребностей общества опре­деляется самой сущностью естеств. чкого языка, являющегося уник. средством хранения и передачи ин­фо.

Акт. практ. проблемы и потребности обще­ства— это внедрение в производство станков и приборов, управ­ляемых голосом оператора, систем автом. поиска, и обработки инфо на разных яз., совершенствова­ние организации связи (телефонной, радиосвязи и др.), исполь­зование фонет. данных при лечении нарушений речи и слуха.

Названные проблемы включают в себя ряд новых направ­лений ПЛ, связанных с автом. обработкой текста (речи), с шир. исп-нием ЭВМ, та­ких, как лингв. обеспечение инфо си­стем разных типов; маш. перевод; компьютеризация обу­чения; разработка систем, понимающих естественный язык (лингвистические задачи в системах искусственного интеллек­та); разработка систем использования информации, содержа­щейся в звуковом речевом сигнале.

ПЛ возникла в результате острой по­требности знать, что такое язык в действии, в коммуникации, поскольку теор. Л изучала преимуществен­но язык в его состоянии, в системе. При этом она долго чуж­далась и сторонилась своего родства с научно-технической и деловой прозой. Не было описаний, моделей, ориентированных на собственно прикл. задачи. Наконец, в 70-х годах XX в. ученые пришли к выводу, что решение многих прикл. про­блем не может быть чисто лингв-ким, а лежит на совсем иных путях, на путях моделирования поведения и мышления человека, семантики, синтеза формальных и семантических средств языка. Так появилась одна из важнейших межотрасле­вых фундаментальных проблем прикладной направленности — проблема моделирования знаний.

Моделирование знаний в последнее время оказалось сфе­рой приложений самых разных наук: логики, лингвистики, ма­тематики, психологии, кибернетики. Причина такого всеобщего интереса к этой проблеме одна — создание автом. систем ИИ. В то же время знания нам даны в языке и через язык. Знания существуют как в текстах спонтанной речи (монолог, диалог, реплики в раз­ных ситуациях), так и в письменных текстах (памятники древ­ней письменности, художественная литература, научная и тех­ническая литература). Через язык мы передаем свои знания от поколения к поколению. Язык, таким образом, выступает и как форма хранения знаний, и как средство и способ их пере­дачи. В науке и технике, по-видимому, вообще нет знаний вне текстов, а моделирование семантики научно-технических тек­стов — это моделирование системы знаний этой отрасли. Так постепенно проблема моделирования знаний сомкнулась с про­блемой моделирования смысла текста. И здесь центральным является вопрос о создании семантических представлений тек­ста.

Семантика пронизывает все уровни языка и тем самым не представляет собой отдельного уровня. В семантике постоянно сказывается влияние, с одной стороны, методов собственно лин­гв-ких, а с другой — методов лог. семантики, тео­рии классификаций.

При моделировании лекс. семантики в структ. Л возникли теории сем. поля, компонент­ного анализа, тезаурусного описания лексики. В синт. семантике было разработано большое число концепций се­м. структуры предложения.

Ядром совр. ПЛ является структ. и матем. Л во всем многооб­разии их методов и достижений.

Осн. предмет структ. и матем. Л. — разработка и совершенствование структ. и фор­м. методов анализа и описания языка. В наши дни мно­гие, хотя и не все, приемы и достижения структ. Л. стали уже достоянием общего яз-ния.

В целом, во всей своей совокупности целей, направлений, методов и подходов, ПЛ — это прежде все­го комплексная дисциплина, постоянно соприкасающаяся с фи­лософией, психологией, физиологией, математикой, логикой, со­циологией, информатикой.

Методы ПЛ

Разнообразие методов ПЛ сопоставимо с разнообразием конкр. областей приложения знаний о яз. Прим: квнтит Л. опирается на метод. инструментарий статистики, комп Л — методы программирования и представления знаний, теория воздействия — на представление о значимом варьировании яз. стр-р. Разнообр-зие методов х орошо видно при сравнении методов описательной, теор. и ПЛ.

1.Перед описательной Л стоит задача описания фактов языка различных уровней. На первом плане стоит метод классификации, то есть выявления той сетки параметров, кото­рая позволяет охватить все релевантные (в теории) свойства яз. стр-р.

2.Теор. Л формирует само представление о ре­левантности в концепт. моделях языка. Концепт. модели фун-ния языка не просто описывают, а объясняют наблюдае­мые факты, предсказывая, например, условия их появления. Моделирование в теор. Л. в своих существенных чертах соотв-ет идее моделирования в естественнонаучной сфере.

Метод моделирования исп-ся в тех случаях, когда непоср. изучение объекта моделирования в том или ином отношении затруд­нено — например, объект разрушается при непосредственном контакте или сам контакт затруднен. В этом случае объект моделирования пред­стает перед исс-лем как своеобр. «черный ящик». Прим: мышление человека и язык во всех его проявлениях. Тем самым для создания модели чего-либо надо знать, как ведет себя объект моделирования в тех или иных условиях. Прим: создание модели синтаксиса ест. языка опирается на факты возм-ти/невозм-ти осуществления тех или иных синт. трансформаций.

Ограничения метода моделирования: Апресян: «модели­ровать можно только те свойства объекта, которые не определяются его физической природой». Иными словами, успешно моделируются только те хар-ки, которые связаны со структ. организацией объек­та.

В теоретической лингвистике часто используются следующие типы моделей:

• компонентные модели или модели структуры (из чего сделан X);

• предсказывающие модели (предсказать поведение X в тех или иных
обстоятельствах);

• имитирующие модели (внешне вести себя как X);

• Диахронические модели (как и почему меняется X с течением вре­мени).

ПЛ также использует и метод классификации и метод моделирования. Однако поскольку задачи ПЛ сосредоточены в области оптимизации функций языка, а оптимизация определяется конкр. задачей, то в приложениях яз-ния исп-ся познавательная установка, известная под несколько ироническим названием «Фокус-покус» (более уважительно можно было бы сказать «Инженерный подход»). Эта установка в качестве основной ценности выдвигает не познание того, «как все обстоит на самом деле», а реше­ние конкретной задачи, в частном случае — удовлетворение требований «заказчика», преследующего свои собственные цели, часто очень далекие от канонов собственно лингв. иссл-ний. Это, впрочем, не означает, что рез-ты прикл. исследований не представля­ют никакой ценности для теории языка.

Таким образом, важн. св-вом методов ПЛ является оптимизация — описание (модель) проблемной области, при котором эта область сохраняет в результирующем представлении только те сущ. св-ва, крые необходимы для данной практ. задачи.

Пример: категория времени.

Описательная Л — описание грам. кат. времени (выделение граммем, морф. способов выражения граммем, сочетаемость граммем кат. времени с граммемами дру­гих гр. кат.), классификация лексики со зн-ем временных отношений, классификация синт. конструкций.

Теоретическая Л (в рамках уровневой модели языка) - семантика временных отношений —> способы выражения на синт. уровне; —» способы выражения на лекс. уровне; —>• способы выражения на морф. уровне.

Прикл. описание будет выглядеть совершенно по-другому:

составление техн. задания (определяется заказчиком);

анализ проблемной области (сколько типов временных отношений представлено в проблемной области и каковы форм. способы выражения темпоральных отношений в данном подъяз.);

формирование метаяз., способов описания пробл. области, совместимых с другими привлекаемыми метаяз.;

применение метаяз. —> результирующее представление (модель) пробл. области;

проверка результирующего представления (объяснительная и пред­сказывающая сила модели; компьютерная реализация или экспери­мент).

Прикл. модели в целом ориентированы на конкр. подъяз., а не на весь яз. в целом; они требуют большей степени формализации; исп-ют знания о языке выборочно; прикл. модели не делают различий между собственно лингв. и экстралин­гв. аспектами семантики яз. выражений; в большей степени огрубляют моделируемый объект, чем теор. модели, не налагают никаких сущностных ограничений на инструмент моделирования.

Др. методы.

теоретико-множ-ный. Гл. эл-т — лингв. матрица. (Изображение на плосткости соотношения каких-л. множ. объектов.) Прим: склонения и падежи.

Основания для представления в форм. виде — категории дистрибуции (синтагм.) и оппозиции (парадигм.)

оппозиц. метод. Отношения м/у мн-вами. 2 типа оппозиции: 1) привативные (м/у наличием или отсутствием какого-л эл-та). Прим: 2 фонемы с разной долготой не м. нах-ся в одной позиции. 2) градуальные (разная степень выраж-ти одного признака) Прим: гласные выс/низкого подъема.

дистрибут. метод. Дистрибуция — совок-ть окружений, в крых данная яз. ед.встречается в речи. Дистриб. стр-ра — это клас-ция яз. ед., посл-но устанавливаемая на основе их размещения относ-но др. др. в потоке речи. Типы дистрибуции: 1) дополнит.: члены не перес-ся, находятся в своем окружении. Прим: аллофоны.2) контрастная. Прим: аллофоны разных фонем так-ток, 3) эквивалентная: дистр-ция свободного варьирования. Прим: одно и то же слово, произнесенное в Москве и в Сибири, 4) частичной эквив-ции. Прим: Бог, но г не везде оглушается до х.

функтивный метод. Рассм-ся ч/з кат. функтора — яз. ср-во транспозиции одного мн-ва яз. ед. в др. мн-во ед. того же яз.. Фун-ция — это св-во, или зн-ие функтора. Прим: сообщать + морф. функтор –ение = сообщение. 3 типа функторов: яз. ед. (морфема, слово, Сч), синтагма (Миним. модель синт. построения), операция (Последовательное применение операций). Прим: приглашение отца — 2 смысла.

Методы совр. ПЛ по Степанову: м. познания, м. изложения, м. моделирования, алгебраический (м. мн-ств), репрезентативный (семиот. м.) — отношение м/у скрытой стороной знака и наблюдаемой стороной. Прим: предл. и его структ. схема.

 

 

Моделирование общения.

Проблематика КЛ часто связ-ся с моделир-нием общения, в частности, с обеспечением общения человека с ЭВМ на ест-ном или огранич-м ест-ном яз-е. + комп-ные модели общения часто исп-тся для изучения самого процесса общения.

Изучение накопившегося опыта эксплуатации комп-ных с-тем позволило иссл-лям по-новому взглянуть на f-ции и стр-ру ком-ции. Рассм-ся??: что обесп-т естеств-ть общения? Каковы условия связности беседы? Когда общение оказ-ся успешным? В каких случаях возникают ком-ные неудачи и м-но ли их избежать? Какие стратегии общения используют участники ком-ного <->действия при достижении своих ком-ных целей?

Одной из наи> интересных комп-ных моделей диалога, вызвавшей оживленные теоретич-е дискуссии, была прогр-ма Джозефа Вейценбаума "Элиза" (1й вариант в 1966), программа-имитатор, целью кот-й явл-ся не моделир-ние мышления в точном смысле, а моделир-ние реч-го поведения – огранич-ные прогр-кие ресурсы, лингв-й анализ и синтез были сведены к min-му.

Пр-ма "Элиза" была исп-на гр-пой иссл-лей во главе с М. Макгайром для изучения стр-ры диалога и особ-тей е.-я. ком-ции. В эксперименте с "Элизой" беседовали в течение часа 24 испытуемых. 15 участников (62 %) были уверены, что им отвечал ч-к, 5 испытуемых (21 %) обнаружили опред-е колебания и лишь четверо участников (17%) были абс-но уверены, что общались с ЭВМ. С лингв-кой т-ки зрения алгоритмы пр-мы "Элиза" включают минимум лингв-кой инфо. Во-1х, это комплекс ключевых слов, кот-е актуализуют некот-е устойчивые коммун-ные формулы (шаблоны), во-2х, спос-ть относ-но несложно трансформ-ть предшествующее выск-ние (ex: пр-ма в состоянии переделать предшеств-е утверждение в общий?).

Выводы: 1)проявление важнейшей особенности ком-ции на е.я.: е.-я. дискурс очень терпим по отношению к сбоям и ошибкам - он избыточен и помехоустойчив. =>ч-к склонен наделять смыслом то, что часто смысла не имеет (испытуемые сами порождают смысл диалога, сами обеспеч-т его связность, сами припис-т партнеру ком-ные интенции).

2) испытуемые старались установить кто перед ними – комп-р или ч-к (т.е. ролевые характеристики партнера) как можно раньше: 22 участника из 24 уяснили для себя ситуацию не >, чем за 5 реплик. Определение ролей в ком-ции относится к метауровню общения, т.к. это составляет 1у из предпосылок успешной ком-ции, предохран-щей общение от многочисл-х ком-ных неудач. Это свойство е.-я. ком-ции м-но назвать принципом приоритета метакоммуникативных параметров ситуации общения.

3)связано с сущ-нием разл-х типов коммун-го <->действия м/у людьми. Успешное <->действие м/у ч-ком и пр-мой типа "Элиза" возм-но т-ко в ситуации, когда происходит так называемое "ассоциативное общение", при кот-м реплики диалога связаны не столько логич-ми отн-ми типа "причина - следствие", "посылка - заключение", а ассоц-ми. Элиза не обладала ассоциативной базой =>1а из типичных стратегий "ухода от непонимания", реализ-ная в пр-ме - смена темы беседы.

4) неуниверсальность правил коммуникативного взаимодействия. Каждый тип коммун-и обслуживается своим набором относ-но простых правил, обеспеч-щих связность дискурса, его осмысленность для участников. Из экспериментов М. Макгайра с пр-мой "Элиза" следует, что кроме ассоциативного способа общения, выделяется еще "решение задач", "задавание вопросов" и "уточнение понимания".

Моделирование структуры сюжета.

Комп-ное моделир-ние стр-ры сюжета – перспективное напр-ние КЛ. Изучение стр-ры сюжета относится к проблематике стр-ного литературоведения (в широком смысле), семиотики и культурологии. Имеющиеся комп-ные программы моделир-ния сюжета основ-тся на 3х базовых формализмах представления сюжета – морфол-ком и синт-ком напр-ниях представления сюжета, а также на когнитивном подходе.

Идеи о морф-ком устройстве стр-ры сюжета восходят к известным работам В.Я.Проппа о русской волшебной сказке. Пропп заметил, что при обилии персонажей и событий волшебной сказки кол-во f-ций персонажей ограничено, и предложил аппарат для описания этих f-ций. Идеи Проппа легли в основу комп-ной пр-мы TALE, моделир-щей порождение сюжета сказки. В основу алгоритма программы TALE положена послед-ть f-ций персонажей сказки. Фактически f-ции Проппа задавали мн-во типизир-ных ситуаций, упоряд-ных на основе анализа эмпирического материала. Возм-сти сцепления разл-х ситуаций в правилах порождения определялись типичной послед-тью f-ций – в том виде, в котором это удается установить из т-тов сказок. В пр-ме типичные послед-ти f-ций опис-сь как типовые сценарии встреч персонажей.

В дальнейшем с-ма была усложнена за счет введения модели мира сказки, география кот-го состоит из обычного мира, промежуточного (среднего) мира и иного мира. " мир состоит из локусов, связ-х м/у собой опред-ми отн-ми. Отн-ния связ-т не т-ко локусы внутри " мира, но и локусы различных миров. Обычный мир состоит из след-х локусов: место проживания героя, место получения задания, место дарения волшебных предметов, помогающих выполнить задание. Средний мир отделяет мир героев от мира антигероев. Иной мир включает место обитания антигероя, место битвы м/у героем и антигероем и локус-место награды или цели, кот-й добивается герой. Локусы связаны отн-ми перехода, кот-е представляют возм-е послед-ти развертывания сюжета.

Чисто "морф-го" подхода к стр-ре сюжета сказки явно недостаточно. "Морфемы" сказочного сюжета д-ны не т-ко опред-ным образом сочетаться м/у собой, но и иметь специф-кие ограничения на сочетаемость. Фиксация одного типичного порядка следования f-ций персонажей волшебной сказки сущ-но огранич-ет имеющиеся возм-ти сочетаемости. > адекватное решение этой проблемы дает синт-й подход к стр-ре сюжета

 

 

Теоретич-ю основу синт-кого подхода к сюжету т-та составили «сюжетные грам-ки», или «грам-ки повествования» (story grammars). Они появ-сь в сер-не 70-х годов в рез-те переноса идей порождающей грам-ки Хомского на описание макростр-ры т-та. Если важнейшими составляющими синт-кой стр-ры в порождающей грам-ике были глаг-е и именные гр-пы, то в >ве сюжетных грам-к в качестве базовых выделялись экспозиция, событие и эпизод. В теории сюжетных грам-к широко обсужд-сь условия min-сти, т.е. ограничения, опред-шие статус послед-ти из Эл-тов сюжета как норм-й сюжет. НО! оказалось, что чисто лингв-кими мет-ми это сделать невозможно. Многие ограничения носят социокультурный хар-р. Сюжетные грам-ки, сущ-но различаясь набором категорий в дереве порождения, допускали весьма огранич-й набор правил модификации повествовательной стр-ры: в подавляющем >ве случаев эти правила заимствованы из той же порождающей грам-ки. Потенциал варьирования структуры сюжета обеспечивается в первую очередь трансформациями передвижения и опущения.

Исп-ние сюжетных грам-к в комп-ном моделир-нии оказалось неудачным. Синт-кий компонент сюжета, опис-мый грам-ми, отражает чисто внешние особ-ти т-та. Попытка исп-ть грам-ки сюжетов для порождения сюжета приводит к тому, что порождаются т-ты, кот-е не отвечают интуит-му предст-нию о рассказе. Основной вывод дискуссии о недостатках сюжетных грам-к свелся к необх-ти описания сюжета с привлечением категорий "цель", "проблема", "план" и т.д. =>метаязыка, учит-щего т-ко внешние особ-ти сюжета, явно недост-но. Необх-мо обращение к когн-ным состояниям персонажей.

Когнитивный подход к сюжету. В начале 80-х гг В.Ленерт в рамках работ по созданию комп-ного генератора сюжетов предложила оригинальный формализм эмоц-ных сюжетных 1ц, оказавшийся мощным ср-вом представления стр-ры сюжета. При том, что он был изначально разработан для с-мы AI, этот формализм исп-лся в чисто теоретич-х иссл-ниях. Сущность подхода Ленерт заключалась в том, что сюжет описывался как послед-ная смена когнитивно-эмоц-ных состояний персонажей. Тем самым в центре внимания формализма Ленерт стоят не внешние компоненты сюжета – экспозиция, событие, эпизод, мораль, – а его содержательные хар-ки. В этом отн-нии формализм Ленерт отчасти оказывается возвращением к идеям Проппа.

"аффективная сюжетная 1ца представляет собой бинарное отношение м/у некоторыми событиями, оцениваемые персонажами +/-, и когнитивно-эмоц-ми состояния персонажей (в разл-х комбинациях - событие & состояние; событие & событие и т.д.). Всего выдел-ся 5 типов бинарных отн-ий: мотивация, актуализация, прекращение 1го действия другим, эквивалентность, а также каузальная связь м/у персонажами. "сюжетная 1ца получает название, напр-р, УСПЕХ, НЕУДАЧА, УПОРСТВО, ПРОБЛЕМА и т.д.

+ Ленерт участвовала в проекте, в котором формализм, предназн-ный для машинной реализации, исп-тся для выявления сюжетных сверток евангельского т-та, объяс-щих, почему т-ты Евангелия оказали огромное влияние на мил-ны людей и на их культуру. Удалось выявить неск-ко таких сюжетных мотивов, повтор-хся в фольклоре и мифах, и занимающих центральное положение в сюжетной стр-ре Евангелий (ex: "восстания против неправедной власти и успех восстания, интерпретируемый как тайное блаженство, достигаемое ценой собст-ной смерти".

 

Структуры знаний

Фрейм. (М. Минский): стр-ра данных, предназначенная для представления стереотип. ситуации. Концепт. стр-ра для деклар. представления знаний о типизированной тематически единой ситуации, содержащей слоты, связанные м/у собой опред. семант. отношениями.

Ф. представляют в виде таблицы, строки крой образуют слоты. Или в виде кортежа: {<имя фрейма> <имя слота1> <значение слота1>,…,<имя слотаn> <значение слотаn>}

Ф. — часть когнит. системы чка = гештальт, протопит, стереотип, схема. В системах ИИ ф. образуют сложные стр-ры знаний, м. б. иерархичными.

По содержанию ф. близок кат. толкования. Слот — аналог валентности, заполнение слота — аналог актанта.

Сценарий. Концепт. стр-ра для представления процед. знания о стереотип. ситуации или стереотип. поведении. Прим: сценарий посещения ресторана, сценарий покупки… Сценарные (процед.) знания тесно связаны с опред. культурой, нежели деклар. Потому что описывает поведение, крое б. социологизировано, чем представление об абстр. кат. типа движения, времени, пространства…

Сц. м. представить не только в виде алноритма, но и в виде сети: вершины — нек. ситуации, дуги — связи м/у ситуациями.

Нек. иссл-ли исп-ют понятие скрипта — общепринятая посл-ть причинных связей.

План. Применение сценария к конкр. проблемной ситуации. План исп-ся для процед. представления знаний о возм. действиях, ведущих к достижению опред. цели. План соотносит цель с посл-тью действий. Связан с конкр. ситуацией, конкр. исп-лем и преследует достижение опред. цели. Выполнимость плана — обязат. условие его порождения в когнит. системе. К сценарию хар-ка выполнимости неприложима.

Модель мира. Совок-ть опред. образом организованных знаний о мире, св-ных когнит. системе или ее комп. модели. Связывается в пониманием текста или дискурса. Мент. модель, края строится в процессе понимания текста.

В системах ИИ модель мира — особ. блок, в крый входят общие знания о мире, нек. специф. факты, ценности и иерархии. В модели диалога происходит многоэтапная рефлексия моделей мира участников ситуации общения. В различных формализмах — разл. стр-ра модели мира: предикатная, сетевая, фреймовая…

Сцена. Концепт. стр-ра для деклар. представления актуализ. в реч. акте и выделенных яз. ср-вами ситуаций. В ИИ сцены — в системах распознавания образов, в прогах, ориентированных на иссл-ние проблемных ситуаций.

Модели представления знаний.

Логич. модель. В основе — форм. система. М = <Т, Р, А, В> где Т — мн-во базовых эл-тов разл. природы (слов из нек. ограниченного словаря); Р — мн-во синт. правил. С их пом. из Т. образ-ся синт-ки правильные совок-ти; А — аксиомы; В — правила вывода. Применяя их к А, м. получать новые синт. правильные совок-ти, к крым снова м. применить правила В. Так формируется мн-во выводимых совок-тей.

Сетевые модели. Формально — в виде Н = <I, C1, … Cn, Г>, где I — мн-во инф. единиц; C1… Cn — мн-во типов связи м/у I; Г — задает м/у I связи из заданного набора (из С). В завис-ти от типов связи различают: 1) классиф. сети, 2) ф-ные сети (вычислит. модели), 3) сценарии.

1) — отношения структуризации. Позволяет вводить иерарх. отношения.

2) наличие ф-ных отношений

3) каузальные отношения «ср-во — рез-т».

4) когда отношения разных типов — семант. сети.

Продукционная модель. Эл-ты логич. и сет. моделей.Из логич. — правила вывода (продукции), из сетевых — описание знаний в виде сем. сети.

Ленема. Предназначена для структ. – комплексного описания понятий предметной области. В яз. программирования выводят 3 типа Л.: для описания ф-ий, для описания отношений, для описания классов объектов.

 

Текстовые процессоры

Лингв проц-р (ЛП) – посредник м/у польз-лем и БД, в кот. хранится интересующая его инфа. Задача ЛП – преобразование ест яз пр-я (т-та) в нек набор сем стр-р, явл-ся формал предст-ем смысла исход пр-я (т-та). Цель – обеспечить исходные данные для работы посиковых мех=змов программ. Операции, выполняемые с пом ЛП: - разбиение т-та док-та на слова - распознавание яз док-та - морфологизация и лемматизация (преобр-е т-вых форм слов в словарные) - индексация слов и с/с-й

Для каждой операции сущ-ет неск-ко вар-тов ее практ реализ-и. На входе – т-вый док-т м.б. с наложенным форматированием, на выходе – бинарный морф образ док-та, с кот. можно работать без учета особ-тей конкр языка.

Т-вые проц-ры (ТП) решают задачу извлечения знаний в первую очередь из неструктурированных и слабоструктурированных т-тов на ест яз. ЛП м.б. выполнен в виде библиотеки, доступной разл приложениям; не взд-ет напрямую с польз-лем (эти ср-ва предоставл программным окруж-ем ЛП). Также в задачу ЛП не входит прям взд-е с БД исходных данных и БД рез-тов анализа – эту f-ю выполняет прикладная программа.

Уровни анализа: лекс и морв не предст-ют серьез трудностей для программной реализ-и. наиб трудность – синт-с + сем-ка.

1. Лекс сводится к стандартному лекс анализу, применяемому для формал яз-в. ЛА выполняет вспомогат f-и, не имеет возм-ти взд-я с польз-лем / настройки. Блок ЛА принимает исход т-т непосред-но от т-вого редактора. Анализируемый т-т – массив, кот. сост из прописных и строчных букв алфавита дан яз, цифр и знаков пунктуации. Анализатор д. преобразовать его в массив лекс 1ц. для кажд лекс 1цы формир-ся отд строка, в кот-ю копируются все смыслы, принадлежащие дан лекс 1це. При этом удаляются пробелы, символы переноса, конца строки и незнакомые символы.

Рез-т ЛА – выходной динамич массив, в кот. занесены указатели на все сформ-ся строки.

2. Морф сводится к списку слвф-мы в БД.

Задачи: - опр-ть все грам хар-ки слова (POS, р,ч,п, одуш-ть, спряжение) - приводить разл грам формы слова к нормал форме - получать все грам формы слова - проверять орфографию

Методы:

1) декларативный – поиск нужной слвф-мы в сл-ре и копирование морф инфы в программу. Хар-но наличие полн сл-ря всех возм-х слвф-м для кажд слова. Кажд слвф-ма снабжается полной и однозначн морф инфой, в кот-ю входят пост и перемен морф параметры.

Недостатки: - чрезмерно большой объем сл-ря (=> технич проб-мы); - невозм-ть полного размещения сл-ря в оперативной памяти ПК при МА; - высок избыточность инфы, связ с пост признаками каждой слвф-мы.

Достоинства: - простота при создании; - высокая скорость.

2) процедурный – кажд слово делится на основы и аффиксы. Сл-рь содержит т-ко основы слов + ссылки на соотв строки в таблице возм-х аф-сов. Осн критерий – основа д. оставаться неизменяемой во всех возм-х слвф-мах дан слова. => из сл-ря основ необх-мо поочередно выбирать все основы, совпад с начал буквами анализируемого слова и перебирать все возм аф-сы. Точн совпадение – рез-т успешный. Пост морф парам-ры опр-ся основой, а переменные – аф-сами.

Недостаток: невозм для кажд слова опр-ть основу и аффикс (ej мест-е)

3) комбинированный: 1. поиск по сл-рю морфем; 2. посик по сл-рю основ.

4) вероятностно-статистический – для кажд лекс-грам класса слвф-м указ-ся частота встречаемости исход лекс-грам класса отн-но других лекс-грам классов дан слвф-мы.

3. Синт. Осн пр-ма – решение неоднозначности. 2 подхода к это пр-ме:

а) формально-грам – создание сложн с-мы правил, кот. позволили бы в кажд конкр случае принимать решение в пользу любой синт стр-ры.

б) вероятностно-статистический – сбор статистики встречаемости разл стр-р в похожем конт-те, на основе кот. принимается решение о выборе вар-та стр-ры.

Задачи СА:

- грам разбор пр-я с построение дерева синт-сем зависимостей м/у его словами

- выделение п-й пр-я с опр-ем их синт и сем ролей

- разрешение морф омонимии

Этапы:

1) предсинт анализ – пр-е преобразуется в последовательность базовых текстовых 1ц (ПБТЕ), кот. соотв-ют отд словам и знакам препинания.

2) собственно синт ан-з – ПБТЕ подверг-ся комплексу процедур грам разбора в соотв-и с правилами согласования и управления в РЯ с исп-ем сл-ря моделей управления предикатов (V и отглаг N). Рез-т – список сем-ки значимых ТЕ + разл типов отн-й м/у ними (дерево синт-сем зависимостей).

3) постсинт ан-з:

- фильтрация сем-ки малозначимых слов

- замена синонимов и многословных п-й

- приведение п-й к > общим

Выявляются синт-сем отн-я м/у п-ми т-та, синтезир-ся именные группы и опр-ся синт роли п-й, пр-й в дереве зависимости.

4. Сем

Этапы:

1) поверхностный СА – устанавл-ся сем отн-я в рамках пр-я

2) глубинный СА – устан-ся сем связи м/у пр-ми, сем узлы связ-ся с др сем узлами, орг-ся связно-сем сеть

3) прагматический СА – смысловое связывание т-та в единое целое и его интерпретация

Сем узел – такой объект т-вой сем-ки, у кот. заполнены все валентности как эксплицитн выраж-я в т-те, так и имплицитные. В конце СА п/е выявления синтагм и парадигм связей строятся сем узлы. Источник связи – данные из синт анализ-ра + сл-рей тезаурусов. Все связи анализ-ся, комбинируются, строятся сем узлы.

Основа сем ан-за – 2 с-мы: синтагм и парадигм отн-й м/у лексемами:

1) толково-комбинаторн сл-ри – опис-ют ограничения на сочетаемость лекс 1ц в опр синт ролях

2) тезаурус – многоуровненвый тематич сл-рь-классификатор по устоявшимся отраслям знаний. Он отражает след виды отн-й м/у словами:

- гиперлексемные (гиперонимы – обобщ п-я, гипонимы – узк п-я)

- синонимич

- антонимич

- часть-целое (мероним - голоним)

Области применения ЛП:

Þ внутренние трансляторы (с одних яз-в индексирования на другие и на ИПЯ)

Þ поисков ЛП (сопоставление кодов и поисков предписаний на ИПЯ + принятие решения об их тематич соотв-и)

Þ ком трансляторы: прямые (с яз индексирования на яз-посредник) и обратные

Þ процессоры актуализации лингвопроцессорных и инф-яз сл-рей

Þ проц МП

Þ проц транслитерации

ej LinkParser USA 90s

проект Микрокосмос 91-99 - МП

 

Контент-анализ, количест анализ текстов и текстовых массивов с целью послед содержат интерпретации выявленных числовых закономерностей.

Осн идея КА проста и интуитивно наглядна. При восприятии текста и особенно больших текст-х потоков мы достаточно хорошо ощущаем, что разн форм и содержат компоненты предст-ны в них в разн степени, причем эта степень по крайней мере отчасти поддается измерению: ее мерой служит то место, которое они занимают в общем объеме, и/или частота их встречаемости. Через все выступления X-а красной нитью проходит тема Y; X постоянно обращался в своей речи к проблеме Y; Он не упускал ни одного случая, чтобы не лягнуть Z-а; Ну, задудел в свою дуду, – все эти выражения, число кот м легко увеличить, свидетельствуют об осознании нами такого феномена, как наличие в изливающемся на нас информацион потоке нек настойчиво повторяющихся тем, образов, ссылок на проблемы, оценок, утверждений (Карфаген должен быть разрушен или Российская экономика задыхается без инвестиций), аргументов, формальных конструкций, конкр имен и т.д. Более того, подобно тому как в мире механики мы ощущаем не скорость, а ускорение, так и при восприятии текста мы особенно хорошо осознаем именно динамику содержания – те случаи, когда, например, кого-то вдруг перестают или начинают бранить или когда в текстах вдруг появл-ся какая-то новая тема.

Замысел КА закл-ся в том, чтобы систематиз-ть эти интуитивные ощущения, сделать их наглядными и проверяемыми и разработать методику целенаправленного сбора тех текст-х свидетельств, на кот-х эти ощущения основ-ся. При этом предполаг-ся, что вооруженный такой методикой исследователь сможет не просто упорядочить свои ощущения и сделать свои выводы более обоснованными, но даже узнать из текста больше, чем хотел сказать его автор, ибо, скажем, настойчивое повторение в тексте каких-то тем или употребление каких-то характерных формал эл-тов или конструкций м не осознаваться автором, но обнаруживает и опр образом интерпретируется исследователем – отсюда принадлежащее социологу А.Г.Здравомыслову полушутливое определение КА как «научно обоснованного метода чтения между строк».

Реально гл отличит чертой КА явл-ся его квантитативный характер. КА – это прежде всего количеств-ый м-д, предполаг-щий числовую оценку каких-то компонентов текста, могущую дополняться также различн качественными классификациями и выявлением тех/иных структурн закономерностей. Поэтому наиб удачным опр-ем КА можно считать то, кот зафиксировано в относительно недавней книге Мангейма и Рича: КА – это систематическая числовая обработка, оценка и интерпретация формы и содержания инф-о источника.

С т зр лингвистов и специалистов по информатике, КА явл-ся типичным примером прикладного инф-го анализа т-та, сводящегося к извлечению из всего разнообразия имеющейся в нем инфы каких-то специально интересующих исследователя компонентов и представлению их в удобной для восприятия и последующего анализа форме. Многочисленные конкр варианты КА различ-ся в зависимости от того, каковы эти компоненты и что именно понимается под т-том.

Конкр прикладные цели КА также варьируют. Еще в 1952 амер исслед-тель Б.Берелсон сформулировал 17 целей КА – описание тенденций в изм-нии содержания коммуник процессов; описание различий в содержании коммуник процессов в разл странах; сравнение различ СМИ; выявление исп-мых пропагандистских приемов; опр-ние намерений и иных характ-тик участников коммуникации; опр-ние психологич состояния индивидов и/или групп; выявление установок, интересов и ценностей разл групп населения и обществ институтов; выявление фокусов внимания индивидов, групп и соц институтов и др.



Поделиться:


Последнее изменение этой страницы: 2016-04-19; просмотров: 507; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.142.53.68 (0.126 с.)