Заглавная страница Избранные статьи Случайная статья Познавательные статьи Новые добавления Обратная связь FAQ Написать работу КАТЕГОРИИ: АрхеологияБиология Генетика География Информатика История Логика Маркетинг Математика Менеджмент Механика Педагогика Религия Социология Технологии Физика Философия Финансы Химия Экология ТОП 10 на сайте Приготовление дезинфицирующих растворов различной концентрацииТехника нижней прямой подачи мяча. Франко-прусская война (причины и последствия) Организация работы процедурного кабинета Смысловое и механическое запоминание, их место и роль в усвоении знаний Коммуникативные барьеры и пути их преодоления Обработка изделий медицинского назначения многократного применения Образцы текста публицистического стиля Четыре типа изменения баланса Задачи с ответами для Всероссийской олимпиады по праву Мы поможем в написании ваших работ! ЗНАЕТЕ ЛИ ВЫ?
Влияние общества на человека
Приготовление дезинфицирующих растворов различной концентрации Практические работы по географии для 6 класса Организация работы процедурного кабинета Изменения в неживой природе осенью Уборка процедурного кабинета Сольфеджио. Все правила по сольфеджио Балочные системы. Определение реакций опор и моментов защемления |
Компьютерная лингвистика: моделирование общения и структуры сюжета↑ Стр 1 из 9Следующая ⇒ Содержание книги
Поиск на нашем сайте
Связь ПЛ с др. науками. Осн. часть? Пл — из теорет. яз-ния. Методология логики и матем-ки, философия яз. — для полного абстрагирования от действ-ти, чтобы создать целостную модель. Физиология, логопедия (проблема афазий), эскперим. психология, акустика, информатика, кибернетика, системы иск. интеллекта (ИИ). С фун-ной т. зр. ПЛ м. б. определена как науч. дисциплина, в крой изучаются и разрабатываются способы оптимизации функ-ния яз. Ф-ции яз. (коммуник., когнит., информационная, эпистемическая — как способ хранения и передачи знаний, социальная…) задают точки отсчета для клас-ции огромной области приложения лингв. знаний. Компоненты ПЛ: теория и практика перевода (+ маш. перевод), 2) т. и практика преподавания (род/нерод. яз) — лингводидактика, 3) т. и практика ИПС, 4) т. кодирования, 5) социоЛ, 6) орфография и орфоэпия, 7) т. воздействия, т. аргументации, 8) полит. Л, 9) лексикография (в том ч. автоматическая), 10) терминология, терминография, 11) полевая Л (иссл-ние яз. малых народностей), 12) комп. Л (моделирование отд. аспектов яз.), 13) лингв. криминология, 14) психолингв-ка, 15) квантитат. Л Осн. иссл-ские задачи ПЛ - Создание лингвопроцессоров — системы автом. анализа и синтеза речи и текста на естеств. яз. Его компоненты: морф., семант., синт. анализаторы. - Маш. перевод. ОЭ-ние плана выражение поср-вом планов содержания на разн. яз, в идеале — без участия чка. Модели: «текст - текст», «текст – смысл - текст», «текст – действ-ть – смысл - текст». - Прикл. лексикология и маш. лексикография. Автом. составление словарей для разработки автом. ИПС, маш. перевода. Частотные словари, словоуказатели, конкордансы, термин. базы данных, маш. словари, энциклопедии. - Системы автом. анализа и синтеза речи. Направлены на разработку естест-языкового интерфейса. Распознавание речи требует привлечения всех уровней организации яз. - АОС. Повышения кач-ва и эффект-ти обучения. Направлены на самост. обучение. В целом прикл. аспекты лингв. обеспечения разнообразных сфер чкой деятельности сводятся прежде всего к одной общей проблеме — проблеме обработки инфо, фун-щей в обществе. Это и текстовая инфо в ее письм. виде, и устная речь как наиболее привычный способ коммуникации. Особая роль яз-ния в решении практ. проблем и потребностей общества определяется самой сущностью естеств. чкого языка, являющегося уник. средством хранения и передачи инфо. Акт. практ. проблемы и потребности общества— это внедрение в производство станков и приборов, управляемых голосом оператора, систем автом. поиска, и обработки инфо на разных яз., совершенствование организации связи (телефонной, радиосвязи и др.), использование фонет. данных при лечении нарушений речи и слуха. Названные проблемы включают в себя ряд новых направлений ПЛ, связанных с автом. обработкой текста (речи), с шир. исп-нием ЭВМ, таких, как лингв. обеспечение инфо систем разных типов; маш. перевод; компьютеризация обучения; разработка систем, понимающих естественный язык (лингвистические задачи в системах искусственного интеллекта); разработка систем использования информации, содержащейся в звуковом речевом сигнале. ПЛ возникла в результате острой потребности знать, что такое язык в действии, в коммуникации, поскольку теор. Л изучала преимущественно язык в его состоянии, в системе. При этом она долго чуждалась и сторонилась своего родства с научно-технической и деловой прозой. Не было описаний, моделей, ориентированных на собственно прикл. задачи. Наконец, в 70-х годах XX в. ученые пришли к выводу, что решение многих прикл. проблем не может быть чисто лингв-ким, а лежит на совсем иных путях, на путях моделирования поведения и мышления человека, семантики, синтеза формальных и семантических средств языка. Так появилась одна из важнейших межотраслевых фундаментальных проблем прикладной направленности — проблема моделирования знаний. Моделирование знаний в последнее время оказалось сферой приложений самых разных наук: логики, лингвистики, математики, психологии, кибернетики. Причина такого всеобщего интереса к этой проблеме одна — создание автом. систем ИИ. В то же время знания нам даны в языке и через язык. Знания существуют как в текстах спонтанной речи (монолог, диалог, реплики в разных ситуациях), так и в письменных текстах (памятники древней письменности, художественная литература, научная и техническая литература). Через язык мы передаем свои знания от поколения к поколению. Язык, таким образом, выступает и как форма хранения знаний, и как средство и способ их передачи. В науке и технике, по-видимому, вообще нет знаний вне текстов, а моделирование семантики научно-технических текстов — это моделирование системы знаний этой отрасли. Так постепенно проблема моделирования знаний сомкнулась с проблемой моделирования смысла текста. И здесь центральным является вопрос о создании семантических представлений текста. Семантика пронизывает все уровни языка и тем самым не представляет собой отдельного уровня. В семантике постоянно сказывается влияние, с одной стороны, методов собственно лингв-ких, а с другой — методов лог. семантики, теории классификаций. При моделировании лекс. семантики в структ. Л возникли теории сем. поля, компонентного анализа, тезаурусного описания лексики. В синт. семантике было разработано большое число концепций сем. структуры предложения. Ядром совр. ПЛ является структ. и матем. Л во всем многообразии их методов и достижений. Осн. предмет структ. и матем. Л. — разработка и совершенствование структ. и форм. методов анализа и описания языка. В наши дни многие, хотя и не все, приемы и достижения структ. Л. стали уже достоянием общего яз-ния. В целом, во всей своей совокупности целей, направлений, методов и подходов, ПЛ — это прежде всего комплексная дисциплина, постоянно соприкасающаяся с философией, психологией, физиологией, математикой, логикой, социологией, информатикой. Методы ПЛ Разнообразие методов ПЛ сопоставимо с разнообразием конкр. областей приложения знаний о яз. Прим: квнтит Л. опирается на метод. инструментарий статистики, комп Л — методы программирования и представления знаний, теория воздействия — на представление о значимом варьировании яз. стр-р. Разнообр-зие методов х орошо видно при сравнении методов описательной, теор. и ПЛ. 1.Перед описательной Л стоит задача описания фактов языка различных уровней. На первом плане стоит метод классификации, то есть выявления той сетки параметров, которая позволяет охватить все релевантные (в теории) свойства яз. стр-р. 2.Теор. Л формирует само представление о релевантности в концепт. моделях языка. Концепт. модели фун-ния языка не просто описывают, а объясняют наблюдаемые факты, предсказывая, например, условия их появления. Моделирование в теор. Л. в своих существенных чертах соотв-ет идее моделирования в естественнонаучной сфере. Метод моделирования исп-ся в тех случаях, когда непоср. изучение объекта моделирования в том или ином отношении затруднено — например, объект разрушается при непосредственном контакте или сам контакт затруднен. В этом случае объект моделирования предстает перед исс-лем как своеобр. «черный ящик». Прим: мышление человека и язык во всех его проявлениях. Тем самым для создания модели чего-либо надо знать, как ведет себя объект моделирования в тех или иных условиях. Прим: создание модели синтаксиса ест. языка опирается на факты возм-ти/невозм-ти осуществления тех или иных синт. трансформаций. Ограничения метода моделирования: Апресян: «моделировать можно только те свойства объекта, которые не определяются его физической природой». Иными словами, успешно моделируются только те хар-ки, которые связаны со структ. организацией объекта. В теоретической лингвистике часто используются следующие типы моделей: • компонентные модели или модели структуры (из чего сделан X); • предсказывающие модели (предсказать поведение X в тех или иных • имитирующие модели (внешне вести себя как X); • Диахронические модели (как и почему меняется X с течением времени). ПЛ также использует и метод классификации и метод моделирования. Однако поскольку задачи ПЛ сосредоточены в области оптимизации функций языка, а оптимизация определяется конкр. задачей, то в приложениях яз-ния исп-ся познавательная установка, известная под несколько ироническим названием «Фокус-покус» (более уважительно можно было бы сказать «Инженерный подход»). Эта установка в качестве основной ценности выдвигает не познание того, «как все обстоит на самом деле», а решение конкретной задачи, в частном случае — удовлетворение требований «заказчика», преследующего свои собственные цели, часто очень далекие от канонов собственно лингв. иссл-ний. Это, впрочем, не означает, что рез-ты прикл. исследований не представляют никакой ценности для теории языка. Таким образом, важн. св-вом методов ПЛ является оптимизация — описание (модель) проблемной области, при котором эта область сохраняет в результирующем представлении только те сущ. св-ва, крые необходимы для данной практ. задачи. Пример: категория времени. Описательная Л — описание грам. кат. времени (выделение граммем, морф. способов выражения граммем, сочетаемость граммем кат. времени с граммемами других гр. кат.), классификация лексики со зн-ем временных отношений, классификация синт. конструкций. Теоретическая Л (в рамках уровневой модели языка) - семантика временных отношений —> способы выражения на синт. уровне; —» способы выражения на лекс. уровне; —>• способы выражения на морф. уровне. Прикл. описание будет выглядеть совершенно по-другому: составление техн. задания (определяется заказчиком); анализ проблемной области (сколько типов временных отношений представлено в проблемной области и каковы форм. способы выражения темпоральных отношений в данном подъяз.); формирование метаяз., способов описания пробл. области, совместимых с другими привлекаемыми метаяз.; применение метаяз. —> результирующее представление (модель) пробл. области; проверка результирующего представления (объяснительная и предсказывающая сила модели; компьютерная реализация или эксперимент). Прикл. модели в целом ориентированы на конкр. подъяз., а не на весь яз. в целом; они требуют большей степени формализации; исп-ют знания о языке выборочно; прикл. модели не делают различий между собственно лингв. и экстралингв. аспектами семантики яз. выражений; в большей степени огрубляют моделируемый объект, чем теор. модели, не налагают никаких сущностных ограничений на инструмент моделирования. Др. методы. теоретико-множ-ный. Гл. эл-т — лингв. матрица. (Изображение на плосткости соотношения каких-л. множ. объектов.) Прим: склонения и падежи. Основания для представления в форм. виде — категории дистрибуции (синтагм.) и оппозиции (парадигм.) оппозиц. метод. Отношения м/у мн-вами. 2 типа оппозиции: 1) привативные (м/у наличием или отсутствием какого-л эл-та). Прим: 2 фонемы с разной долготой не м. нах-ся в одной позиции. 2) градуальные (разная степень выраж-ти одного признака) Прим: гласные выс/низкого подъема. дистрибут. метод. Дистрибуция — совок-ть окружений, в крых данная яз. ед.встречается в речи. Дистриб. стр-ра — это клас-ция яз. ед., посл-но устанавливаемая на основе их размещения относ-но др. др. в потоке речи. Типы дистрибуции: 1) дополнит.: члены не перес-ся, находятся в своем окружении. Прим: аллофоны.2) контрастная. Прим: аллофоны разных фонем так-ток, 3) эквивалентная: дистр-ция свободного варьирования. Прим: одно и то же слово, произнесенное в Москве и в Сибири, 4) частичной эквив-ции. Прим: Бог, но г не везде оглушается до х. функтивный метод. Рассм-ся ч/з кат. функтора — яз. ср-во транспозиции одного мн-ва яз. ед. в др. мн-во ед. того же яз.. Фун-ция — это св-во, или зн-ие функтора. Прим: сообщать + морф. функтор –ение = сообщение. 3 типа функторов: яз. ед. (морфема, слово, Сч), синтагма (Миним. модель синт. построения), операция (Последовательное применение операций). Прим: приглашение отца — 2 смысла. Методы совр. ПЛ по Степанову: м. познания, м. изложения, м. моделирования, алгебраический (м. мн-ств), репрезентативный (семиот. м.) — отношение м/у скрытой стороной знака и наблюдаемой стороной. Прим: предл. и его структ. схема.
Моделирование общения. Проблематика КЛ часто связ-ся с моделир-нием общения, в частности, с обеспечением общения человека с ЭВМ на ест-ном или огранич-м ест-ном яз-е. + комп-ные модели общения часто исп-тся для изучения самого процесса общения. Изучение накопившегося опыта эксплуатации комп-ных с-тем позволило иссл-лям по-новому взглянуть на f-ции и стр-ру ком-ции. Рассм-ся??: что обесп-т естеств-ть общения? Каковы условия связности беседы? Когда общение оказ-ся успешным? В каких случаях возникают ком-ные неудачи и м-но ли их избежать? Какие стратегии общения используют участники ком-ного <->действия при достижении своих ком-ных целей? Одной из наи> интересных комп-ных моделей диалога, вызвавшей оживленные теоретич-е дискуссии, была прогр-ма Джозефа Вейценбаума "Элиза" (1й вариант в 1966), программа-имитатор, целью кот-й явл-ся не моделир-ние мышления в точном смысле, а моделир-ние реч-го поведения – огранич-ные прогр-кие ресурсы, лингв-й анализ и синтез были сведены к min-му. Пр-ма "Элиза" была исп-на гр-пой иссл-лей во главе с М. Макгайром для изучения стр-ры диалога и особ-тей е.-я. ком-ции. В эксперименте с "Элизой" беседовали в течение часа 24 испытуемых. 15 участников (62 %) были уверены, что им отвечал ч-к, 5 испытуемых (21 %) обнаружили опред-е колебания и лишь четверо участников (17%) были абс-но уверены, что общались с ЭВМ. С лингв-кой т-ки зрения алгоритмы пр-мы "Элиза" включают минимум лингв-кой инфо. Во-1х, это комплекс ключевых слов, кот-е актуализуют некот-е устойчивые коммун-ные формулы (шаблоны), во-2х, спос-ть относ-но несложно трансформ-ть предшествующее выск-ние (ex: пр-ма в состоянии переделать предшеств-е утверждение в общий?). Выводы: 1)проявление важнейшей особенности ком-ции на е.я.: е.-я. дискурс очень терпим по отношению к сбоям и ошибкам - он избыточен и помехоустойчив. =>ч-к склонен наделять смыслом то, что часто смысла не имеет (испытуемые сами порождают смысл диалога, сами обеспеч-т его связность, сами припис-т партнеру ком-ные интенции). 2) испытуемые старались установить кто перед ними – комп-р или ч-к (т.е. ролевые характеристики партнера) как можно раньше: 22 участника из 24 уяснили для себя ситуацию не >, чем за 5 реплик. Определение ролей в ком-ции относится к метауровню общения, т.к. это составляет 1у из предпосылок успешной ком-ции, предохран-щей общение от многочисл-х ком-ных неудач. Это свойство е.-я. ком-ции м-но назвать принципом приоритета метакоммуникативных параметров ситуации общения. 3)связано с сущ-нием разл-х типов коммун-го <->действия м/у людьми. Успешное <->действие м/у ч-ком и пр-мой типа "Элиза" возм-но т-ко в ситуации, когда происходит так называемое "ассоциативное общение", при кот-м реплики диалога связаны не столько логич-ми отн-ми типа "причина - следствие", "посылка - заключение", а ассоц-ми. Элиза не обладала ассоциативной базой =>1а из типичных стратегий "ухода от непонимания", реализ-ная в пр-ме - смена темы беседы. 4) неуниверсальность правил коммуникативного взаимодействия. Каждый тип коммун-и обслуживается своим набором относ-но простых правил, обеспеч-щих связность дискурса, его осмысленность для участников. Из экспериментов М. Макгайра с пр-мой "Элиза" следует, что кроме ассоциативного способа общения, выделяется еще "решение задач", "задавание вопросов" и "уточнение понимания". Моделирование структуры сюжета. Комп-ное моделир-ние стр-ры сюжета – перспективное напр-ние КЛ. Изучение стр-ры сюжета относится к проблематике стр-ного литературоведения (в широком смысле), семиотики и культурологии. Имеющиеся комп-ные программы моделир-ния сюжета основ-тся на 3х базовых формализмах представления сюжета – морфол-ком и синт-ком напр-ниях представления сюжета, а также на когнитивном подходе. Идеи о морф-ком устройстве стр-ры сюжета восходят к известным работам В.Я.Проппа о русской волшебной сказке. Пропп заметил, что при обилии персонажей и событий волшебной сказки кол-во f-ций персонажей ограничено, и предложил аппарат для описания этих f-ций. Идеи Проппа легли в основу комп-ной пр-мы TALE, моделир-щей порождение сюжета сказки. В основу алгоритма программы TALE положена послед-ть f-ций персонажей сказки. Фактически f-ции Проппа задавали мн-во типизир-ных ситуаций, упоряд-ных на основе анализа эмпирического материала. Возм-сти сцепления разл-х ситуаций в правилах порождения определялись типичной послед-тью f-ций – в том виде, в котором это удается установить из т-тов сказок. В пр-ме типичные послед-ти f-ций опис-сь как типовые сценарии встреч персонажей. В дальнейшем с-ма была усложнена за счет введения модели мира сказки, география кот-го состоит из обычного мира, промежуточного (среднего) мира и иного мира. " мир состоит из локусов, связ-х м/у собой опред-ми отн-ми. Отн-ния связ-т не т-ко локусы внутри " мира, но и локусы различных миров. Обычный мир состоит из след-х локусов: место проживания героя, место получения задания, место дарения волшебных предметов, помогающих выполнить задание. Средний мир отделяет мир героев от мира антигероев. Иной мир включает место обитания антигероя, место битвы м/у героем и антигероем и локус-место награды или цели, кот-й добивается герой. Локусы связаны отн-ми перехода, кот-е представляют возм-е послед-ти развертывания сюжета. Чисто "морф-го" подхода к стр-ре сюжета сказки явно недостаточно. "Морфемы" сказочного сюжета д-ны не т-ко опред-ным образом сочетаться м/у собой, но и иметь специф-кие ограничения на сочетаемость. Фиксация одного типичного порядка следования f-ций персонажей волшебной сказки сущ-но огранич-ет имеющиеся возм-ти сочетаемости. > адекватное решение этой проблемы дает синт-й подход к стр-ре сюжета
Теоретич-ю основу синт-кого подхода к сюжету т-та составили «сюжетные грам-ки», или «грам-ки повествования» (story grammars). Они появ-сь в сер-не 70-х годов в рез-те переноса идей порождающей грам-ки Хомского на описание макростр-ры т-та. Если важнейшими составляющими синт-кой стр-ры в порождающей грам-ике были глаг-е и именные гр-пы, то в >ве сюжетных грам-к в качестве базовых выделялись экспозиция, событие и эпизод. В теории сюжетных грам-к широко обсужд-сь условия min-сти, т.е. ограничения, опред-шие статус послед-ти из Эл-тов сюжета как норм-й сюжет. НО! оказалось, что чисто лингв-кими мет-ми это сделать невозможно. Многие ограничения носят социокультурный хар-р. Сюжетные грам-ки, сущ-но различаясь набором категорий в дереве порождения, допускали весьма огранич-й набор правил модификации повествовательной стр-ры: в подавляющем >ве случаев эти правила заимствованы из той же порождающей грам-ки. Потенциал варьирования структуры сюжета обеспечивается в первую очередь трансформациями передвижения и опущения. Исп-ние сюжетных грам-к в комп-ном моделир-нии оказалось неудачным. Синт-кий компонент сюжета, опис-мый грам-ми, отражает чисто внешние особ-ти т-та. Попытка исп-ть грам-ки сюжетов для порождения сюжета приводит к тому, что порождаются т-ты, кот-е не отвечают интуит-му предст-нию о рассказе. Основной вывод дискуссии о недостатках сюжетных грам-к свелся к необх-ти описания сюжета с привлечением категорий "цель", "проблема", "план" и т.д. =>метаязыка, учит-щего т-ко внешние особ-ти сюжета, явно недост-но. Необх-мо обращение к когн-ным состояниям персонажей. Когнитивный подход к сюжету. В начале 80-х гг В.Ленерт в рамках работ по созданию комп-ного генератора сюжетов предложила оригинальный формализм эмоц-ных сюжетных 1ц, оказавшийся мощным ср-вом представления стр-ры сюжета. При том, что он был изначально разработан для с-мы AI, этот формализм исп-лся в чисто теоретич-х иссл-ниях. Сущность подхода Ленерт заключалась в том, что сюжет описывался как послед-ная смена когнитивно-эмоц-ных состояний персонажей. Тем самым в центре внимания формализма Ленерт стоят не внешние компоненты сюжета – экспозиция, событие, эпизод, мораль, – а его содержательные хар-ки. В этом отн-нии формализм Ленерт отчасти оказывается возвращением к идеям Проппа. "аффективная сюжетная 1ца представляет собой бинарное отношение м/у некоторыми событиями, оцениваемые персонажами +/-, и когнитивно-эмоц-ми состояния персонажей (в разл-х комбинациях - событие & состояние; событие & событие и т.д.). Всего выдел-ся 5 типов бинарных отн-ий: мотивация, актуализация, прекращение 1го действия другим, эквивалентность, а также каузальная связь м/у персонажами. "сюжетная 1ца получает название, напр-р, УСПЕХ, НЕУДАЧА, УПОРСТВО, ПРОБЛЕМА и т.д. + Ленерт участвовала в проекте, в котором формализм, предназн-ный для машинной реализации, исп-тся для выявления сюжетных сверток евангельского т-та, объяс-щих, почему т-ты Евангелия оказали огромное влияние на мил-ны людей и на их культуру. Удалось выявить неск-ко таких сюжетных мотивов, повтор-хся в фольклоре и мифах, и занимающих центральное положение в сюжетной стр-ре Евангелий (ex: "восстания против неправедной власти и успех восстания, интерпретируемый как тайное блаженство, достигаемое ценой собст-ной смерти".
Структуры знаний Фрейм. (М. Минский): стр-ра данных, предназначенная для представления стереотип. ситуации. Концепт. стр-ра для деклар. представления знаний о типизированной тематически единой ситуации, содержащей слоты, связанные м/у собой опред. семант. отношениями. Ф. представляют в виде таблицы, строки крой образуют слоты. Или в виде кортежа: {<имя фрейма> <имя слота1> <значение слота1>,…,<имя слотаn> <значение слотаn>} Ф. — часть когнит. системы чка = гештальт, протопит, стереотип, схема. В системах ИИ ф. образуют сложные стр-ры знаний, м. б. иерархичными. По содержанию ф. близок кат. толкования. Слот — аналог валентности, заполнение слота — аналог актанта. Сценарий. Концепт. стр-ра для представления процед. знания о стереотип. ситуации или стереотип. поведении. Прим: сценарий посещения ресторана, сценарий покупки… Сценарные (процед.) знания тесно связаны с опред. культурой, нежели деклар. Потому что описывает поведение, крое б. социологизировано, чем представление об абстр. кат. типа движения, времени, пространства… Сц. м. представить не только в виде алноритма, но и в виде сети: вершины — нек. ситуации, дуги — связи м/у ситуациями. Нек. иссл-ли исп-ют понятие скрипта — общепринятая посл-ть причинных связей. План. Применение сценария к конкр. проблемной ситуации. План исп-ся для процед. представления знаний о возм. действиях, ведущих к достижению опред. цели. План соотносит цель с посл-тью действий. Связан с конкр. ситуацией, конкр. исп-лем и преследует достижение опред. цели. Выполнимость плана — обязат. условие его порождения в когнит. системе. К сценарию хар-ка выполнимости неприложима. Модель мира. Совок-ть опред. образом организованных знаний о мире, св-ных когнит. системе или ее комп. модели. Связывается в пониманием текста или дискурса. Мент. модель, края строится в процессе понимания текста. В системах ИИ модель мира — особ. блок, в крый входят общие знания о мире, нек. специф. факты, ценности и иерархии. В модели диалога происходит многоэтапная рефлексия моделей мира участников ситуации общения. В различных формализмах — разл. стр-ра модели мира: предикатная, сетевая, фреймовая… Сцена. Концепт. стр-ра для деклар. представления актуализ. в реч. акте и выделенных яз. ср-вами ситуаций. В ИИ сцены — в системах распознавания образов, в прогах, ориентированных на иссл-ние проблемных ситуаций. Модели представления знаний. Логич. модель. В основе — форм. система. М = <Т, Р, А, В> где Т — мн-во базовых эл-тов разл. природы (слов из нек. ограниченного словаря); Р — мн-во синт. правил. С их пом. из Т. образ-ся синт-ки правильные совок-ти; А — аксиомы; В — правила вывода. Применяя их к А, м. получать новые синт. правильные совок-ти, к крым снова м. применить правила В. Так формируется мн-во выводимых совок-тей. Сетевые модели. Формально — в виде Н = <I, C1, … Cn, Г>, где I — мн-во инф. единиц; C1… Cn — мн-во типов связи м/у I; Г — задает м/у I связи из заданного набора (из С). В завис-ти от типов связи различают: 1) классиф. сети, 2) ф-ные сети (вычислит. модели), 3) сценарии. 1) — отношения структуризации. Позволяет вводить иерарх. отношения. 2) наличие ф-ных отношений 3) каузальные отношения «ср-во — рез-т». 4) когда отношения разных типов — семант. сети. Продукционная модель. Эл-ты логич. и сет. моделей.Из логич. — правила вывода (продукции), из сетевых — описание знаний в виде сем. сети. Ленема. Предназначена для структ. – комплексного описания понятий предметной области. В яз. программирования выводят 3 типа Л.: для описания ф-ий, для описания отношений, для описания классов объектов.
Текстовые процессоры Лингв проц-р (ЛП) – посредник м/у польз-лем и БД, в кот. хранится интересующая его инфа. Задача ЛП – преобразование ест яз пр-я (т-та) в нек набор сем стр-р, явл-ся формал предст-ем смысла исход пр-я (т-та). Цель – обеспечить исходные данные для работы посиковых мех=змов программ. Операции, выполняемые с пом ЛП: - разбиение т-та док-та на слова - распознавание яз док-та - морфологизация и лемматизация (преобр-е т-вых форм слов в словарные) - индексация слов и с/с-й Для каждой операции сущ-ет неск-ко вар-тов ее практ реализ-и. На входе – т-вый док-т м.б. с наложенным форматированием, на выходе – бинарный морф образ док-та, с кот. можно работать без учета особ-тей конкр языка. Т-вые проц-ры (ТП) решают задачу извлечения знаний в первую очередь из неструктурированных и слабоструктурированных т-тов на ест яз. ЛП м.б. выполнен в виде библиотеки, доступной разл приложениям; не взд-ет напрямую с польз-лем (эти ср-ва предоставл программным окруж-ем ЛП). Также в задачу ЛП не входит прям взд-е с БД исходных данных и БД рез-тов анализа – эту f-ю выполняет прикладная программа. Уровни анализа: лекс и морв не предст-ют серьез трудностей для программной реализ-и. наиб трудность – синт-с + сем-ка. 1. Лекс сводится к стандартному лекс анализу, применяемому для формал яз-в. ЛА выполняет вспомогат f-и, не имеет возм-ти взд-я с польз-лем / настройки. Блок ЛА принимает исход т-т непосред-но от т-вого редактора. Анализируемый т-т – массив, кот. сост из прописных и строчных букв алфавита дан яз, цифр и знаков пунктуации. Анализатор д. преобразовать его в массив лекс 1ц. для кажд лекс 1цы формир-ся отд строка, в кот-ю копируются все смыслы, принадлежащие дан лекс 1це. При этом удаляются пробелы, символы переноса, конца строки и незнакомые символы. Рез-т ЛА – выходной динамич массив, в кот. занесены указатели на все сформ-ся строки. 2. Морф сводится к списку слвф-мы в БД. Задачи: - опр-ть все грам хар-ки слова (POS, р,ч,п, одуш-ть, спряжение) - приводить разл грам формы слова к нормал форме - получать все грам формы слова - проверять орфографию Методы: 1) декларативный – поиск нужной слвф-мы в сл-ре и копирование морф инфы в программу. Хар-но наличие полн сл-ря всех возм-х слвф-м для кажд слова. Кажд слвф-ма снабжается полной и однозначн морф инфой, в кот-ю входят пост и перемен морф параметры. Недостатки: - чрезмерно большой объем сл-ря (=> технич проб-мы); - невозм-ть полного размещения сл-ря в оперативной памяти ПК при МА; - высок избыточность инфы, связ с пост признаками каждой слвф-мы. Достоинства: - простота при создании; - высокая скорость. 2) процедурный – кажд слово делится на основы и аффиксы. Сл-рь содержит т-ко основы слов + ссылки на соотв строки в таблице возм-х аф-сов. Осн критерий – основа д. оставаться неизменяемой во всех возм-х слвф-мах дан слова. => из сл-ря основ необх-мо поочередно выбирать все основы, совпад с начал буквами анализируемого слова и перебирать все возм аф-сы. Точн совпадение – рез-т успешный. Пост морф парам-ры опр-ся основой, а переменные – аф-сами. Недостаток: невозм для кажд слова опр-ть основу и аффикс (ej мест-е) 3) комбинированный: 1. поиск по сл-рю морфем; 2. посик по сл-рю основ. 4) вероятностно-статистический – для кажд лекс-грам класса слвф-м указ-ся частота встречаемости исход лекс-грам класса отн-но других лекс-грам классов дан слвф-мы. 3. Синт. Осн пр-ма – решение неоднозначности. 2 подхода к это пр-ме: а) формально-грам – создание сложн с-мы правил, кот. позволили бы в кажд конкр случае принимать решение в пользу любой синт стр-ры. б) вероятностно-статистический – сбор статистики встречаемости разл стр-р в похожем конт-те, на основе кот. принимается решение о выборе вар-та стр-ры. Задачи СА: - грам разбор пр-я с построение дерева синт-сем зависимостей м/у его словами - выделение п-й пр-я с опр-ем их синт и сем ролей - разрешение морф омонимии Этапы: 1) предсинт анализ – пр-е преобразуется в последовательность базовых текстовых 1ц (ПБТЕ), кот. соотв-ют отд словам и знакам препинания. 2) собственно синт ан-з – ПБТЕ подверг-ся комплексу процедур грам разбора в соотв-и с правилами согласования и управления в РЯ с исп-ем сл-ря моделей управления предикатов (V и отглаг N). Рез-т – список сем-ки значимых ТЕ + разл типов отн-й м/у ними (дерево синт-сем зависимостей). 3) постсинт ан-з: - фильтрация сем-ки малозначимых слов - замена синонимов и многословных п-й - приведение п-й к > общим Выявляются синт-сем отн-я м/у п-ми т-та, синтезир-ся именные группы и опр-ся синт роли п-й, пр-й в дереве зависимости. 4. Сем Этапы: 1) поверхностный СА – устанавл-ся сем отн-я в рамках пр-я 2) глубинный СА – устан-ся сем связи м/у пр-ми, сем узлы связ-ся с др сем узлами, орг-ся связно-сем сеть 3) прагматический СА – смысловое связывание т-та в единое целое и его интерпретация Сем узел – такой объект т-вой сем-ки, у кот. заполнены все валентности как эксплицитн выраж-я в т-те, так и имплицитные. В конце СА п/е выявления синтагм и парадигм связей строятся сем узлы. Источник связи – данные из синт анализ-ра + сл-рей тезаурусов. Все связи анализ-ся, комбинируются, строятся сем узлы. Основа сем ан-за – 2 с-мы: синтагм и парадигм отн-й м/у лексемами: 1) толково-комбинаторн сл-ри – опис-ют ограничения на сочетаемость лекс 1ц в опр синт ролях 2) тезаурус – многоуровненвый тематич сл-рь-классификатор по устоявшимся отраслям знаний. Он отражает след виды отн-й м/у словами: - гиперлексемные (гиперонимы – обобщ п-я, гипонимы – узк п-я) - синонимич - антонимич - часть-целое (мероним - голоним) Области применения ЛП: Þ внутренние трансляторы (с одних яз-в индексирования на другие и на ИПЯ) Þ поисков ЛП (сопоставление кодов и поисков предписаний на ИПЯ + принятие решения об их тематич соотв-и) Þ ком трансляторы: прямые (с яз индексирования на яз-посредник) и обратные Þ процессоры актуализации лингвопроцессорных и инф-яз сл-рей Þ проц МП Þ проц транслитерации ej LinkParser USA 90s проект Микрокосмос 91-99 - МП
Контент-анализ, количест анализ текстов и текстовых массивов с целью послед содержат интерпретации выявленных числовых закономерностей. Осн идея КА проста и интуитивно наглядна. При восприятии текста и особенно больших текст-х потоков мы достаточно хорошо ощущаем, что разн форм и содержат компоненты предст-ны в них в разн степени, причем эта степень по крайней мере отчасти поддается измерению: ее мерой служит то место, которое они занимают в общем объеме, и/или частота их встречаемости. Через все выступления X-а красной нитью проходит тема Y; X постоянно обращался в своей речи к проблеме Y; Он не упускал ни одного случая, чтобы не лягнуть Z-а; Ну, задудел в свою дуду, – все эти выражения, число кот м легко увеличить, свидетельствуют об осознании нами такого феномена, как наличие в изливающемся на нас информацион потоке нек настойчиво повторяющихся тем, образов, ссылок на проблемы, оценок, утверждений (Карфаген должен быть разрушен или Российская экономика задыхается без инвестиций), аргументов, формальных конструкций, конкр имен и т.д. Более того, подобно тому как в мире механики мы ощущаем не скорость, а ускорение, так и при восприятии текста мы особенно хорошо осознаем именно динамику содержания – те случаи, когда, например, кого-то вдруг перестают или начинают бранить или когда в текстах вдруг появл-ся какая-то новая тема. Замысел КА закл-ся в том, чтобы систематиз-ть эти интуитивные ощущения, сделать их наглядными и проверяемыми и разработать методику целенаправленного сбора тех текст-х свидетельств, на кот-х эти ощущения основ-ся. При этом предполаг-ся, что вооруженный такой методикой исследователь сможет не просто упорядочить свои ощущения и сделать свои выводы более обоснованными, но даже узнать из текста больше, чем хотел сказать его автор, ибо, скажем, настойчивое повторение в тексте каких-то тем или употребление каких-то характерных формал эл-тов или конструкций м не осознаваться автором, но обнаруживает и опр образом интерпретируется исследователем – отсюда принадлежащее социологу А.Г.Здравомыслову полушутливое определение КА как «научно обоснованного метода чтения между строк». Реально гл отличит чертой КА явл-ся его квантитативный характер. КА – это прежде всего количеств-ый м-д, предполаг-щий числовую оценку каких-то компонентов текста, могущую дополняться также различн качественными классификациями и выявлением тех/иных структурн закономерностей. Поэтому наиб удачным опр-ем КА можно считать то, кот зафиксировано в относительно недавней книге Мангейма и Рича: КА – это систематическая числовая обработка, оценка и интерпретация формы и содержания инф-о источника. С т зр лингвистов и специалистов по информатике, КА явл-ся типичным примером прикладного инф-го анализа т-та, сводящегося к извлечению из всего разнообразия имеющейся в нем инфы каких-то специально интересующих исследователя компонентов и представлению их в удобной для восприятия и последующего анализа форме. Многочисленные конкр варианты КА различ-ся в зависимости от того, каковы эти компоненты и что именно понимается под т-том. Конкр прикладные цели КА также варьируют. Еще в 1952 амер исслед-тель Б.Берелсон сформулировал 17 целей КА – описание тенденций в изм-нии содержания коммуник процессов; описание различий в содержании коммуник процессов в разл странах; сравнение различ СМИ; выявление исп-мых пропагандистских приемов; опр-ние намерений и иных характ-тик участников коммуникации; опр-ние психологич состояния индивидов и/или групп; выявление установок, интересов и ценностей разл групп населения и обществ институтов; выявление фокусов внимания индивидов, групп и соц институтов и др. Исторически КА – наиб ранний систематич подход к изучению текста. Самый 1ый упоминаемый в лит-ре КА-тич-й опыт – это проведенный в Швеции в 18 в. анализ сборника из 90 церковных гимнов, прошедших гос цензуру и приобретших большую популярность, но обвиненных в несоответствии религ догматам. Наличие/отсутствие такового соответствия и определялось путем подсчета в т-тах этих гимнов религ символов и сравнения их с др религ текстами, в частности запрещенных церковью т-тами «моравских братьев». В 1930–40-х гг б вып-ны исслед-я, признаваемые ныне классикой КА, прежде всего работы Г.Лассуэлла, деят-ть кот продолжалась и в послевоенные годы. Во время 2 Мировой войны имел место самый знаменитый эпизод в истории КА – это предсказание британскими аналитиками времени начала исп-я Герма<
|
||||
Последнее изменение этой страницы: 2016-04-19; просмотров: 567; Нарушение авторского права страницы; Мы поможем в написании вашей работы! infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.222.97.216 (0.016 с.) |