Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Автоматическое построение гипертекстов.

Поиск

Когда нужно создать обширную систему помощи для сложной программы или систему справки, скажем, по атомной электростанции, расставить руками ссылки практически невозможно. Возникает потребность в автоматическом определении мест, где ссылки необходимы, в выявлении связей между документами и расстановке ссылок. Такие инструменты существуют, в том числе и российского производства (в частности, функцию расстановки гиперсвязей включает система HyperMethod петербургской фирмы AI Labs — veronica.etu. ru/ailab, а также система TextAnalyst — www.textanalyst.ru). Автор, к сожалению, никогда ими не пользовался, а только наблюдал их демонстрацию на выставках. Тем не менее есть сильное подозрение, что системы эти работают пока не слишком хорошо, поскольку, по словам их создателей, они не применяют сколько-нибудь развитых лингвистических средств, например синтаксического и морфологического анализа (как если бы капитан корабля по принципиальным соображениям отказывался пользоваться картой).

В любом случае с точки зрения функциональности системы автоматически расставленные гипертекстовые ссылки легко заменяются автоматической же встроенной поисковой системой, позволяющей щелкнуть по любому слову или словосочетанию и найти все его вхождения в данный набор документов (так сделано в большинстве современных электронных словарей и энциклопедий).

Машинное аннотирование.

Как уже говорилось выше, потребность в автоматическом составлении аннотаций для поисковых машин и каталогов довольно высока и со временем увеличивается. Держатели каналов вещания, списков рассылки новостей и корпоративных систем документооборота также начинают испытывать интерес к автоматизации этого процесса. Зачастую не только требование дать возможность быстрого просмотра содержания, но и желание не нарушать авторские права заставляет заменять полные тексты документов аннотациями.

Частному пользователю также может пригодиться возможность быстро просматривать большие объемы документов, используя их краткие аннотации.

Как составляется аннотация? Прежде всего нужно сказать, что фактически в во всех известных системах машинное аннотирование является экстрагированием — программа не «пересказывает» смысл текста, а просто извлекает из него те фрагменты, которые считает важными, и объединяет их в аннотацию. Важность конкретного предложения определяется по различным параметрам, в частности по так называемым маркерам важности (например, «в заключение нужно сказать, что...»), количеству содержательных слов в нем и т. д.

В наиболее развитых средствах аннотирования учитывается также зависимость предложений друг от друга с тем, чтобы не вносить в аннотацию обрывки, начинающиеся, например, со слов «К тому же...», «В-третьих...» и т. п. Чтобы аннотация получилась связной, программа подбирает группы взаимосвязанных (взаимозависимых) предложений, а затем «склеивает» их, для большей связности немного изменяя на стыках.

Однако развитый синтаксический разбор и применение тезаурусов (словарей синонимов), которые могли бы значительно улучшить качество аннотирования, пока что дело будущего.

Что имеется на рынке? Сейчас существует довольно много готовых систем, осуществляющих машинное аннотирование. В частности, в состав Microsoft Word 95 входит функция для автоматического аннотирования английских текстов. В русской версии Word средства аннотирования для русских документов нет.

Для аннотирования текстов на русском языке существует компонент системы ОРФО 5.0, выпускаемой компанией «Информатик» (www.informatic.ru), и программа «Либретто 1.0» компании «МедиаЛингва» (www.medialingua.ru), выполняющая аннотирование и для русских и для английских документов. Обе эти программы встраиваются в Microsoft Word. Пробную версию «Либретто» можно получить по адресу: www.medialingua.ru.

В сети Internet автоматически построенные аннотации на русском языке можно увидеть и оценить, запустив поиск по известному новостийному серверу «ИнфоАрт» (www.infoart.ru) с помощью установленной на нем поисковой машины «Следопыт», включающей средство аннотирования документов.

Кроме того, доступные по бесплатной подписке новости того же сетевого издательства «ИнфоАрт» рассылаются в виде заголовков с краткими аннотациями, автоматически созданными с помощью средства GoldenKey компании Textar.

Качество этих систем читатель может оценить сам; нужно сказать, что и так само по себе различное для разных программ качество аннотации обычно еще и «плавает» от документа к документу — так как гладкость и содержательность аннотации сильно зависит от самого документа.



Поделиться:


Последнее изменение этой страницы: 2016-12-28; просмотров: 229; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.147.52.243 (0.006 с.)