Системы автоматического перевода 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Системы автоматического перевода



Рассмотрим вкратце характеристики некоторых из таких сис­тем, предназначенных для достижения максимальной скорости обработки больших потоков информации.

Скорость перевода страницы текста у разных систем состав­ляет от 0,5 до 2 с в автоматическом режиме. Полученный в ре­зультате текст в большинстве случаев понялен сразу. Поэтому, потратив какие-то минуты на осознание информации, пользова­тель может сразу сохранить документ для более тщательного изу­чения.

Основными поставщиками подобных систем в настоящий момент являются московская компания «Арсеналъ» и санкт-пе- тербурская «ПРОМТ».

Одним из продуктов «Арсеналъ» является переводчик «СОКРАТ». Данная система поставляется в комплекте с обще­лексическим, коммерческим и компьютерным словарями. Дан­ная база составляет 95 % требуемого словарного запаса для тек­стов, которые существуют в электронном виде. Отдельно суще­ствует 9 дополнительных подключаемых к системе «СОКРАТ» словарей специализированного назначения, среди которых сло­вари по медицине, машиностроению, юриспруденции и др.

Интерфейс представляет собой два окна, одно из которых содержит текст оригинала, а в другом появляется перевод. Из­вестны версии «СОКРАТа». понимающие соответственно анг­лийский, немецкий и французский языки. Перевод в любом слу­чае является двухсторонним, т. е. можно переводить не только с иностранного языка на русский, но и наоборот.

Компания «ПРОМТ» давно специализируется на производст­ве языковых систем. Системы перевода STYLUS 2.хх и З.хх из­вестны пользователям Windows. «PROMT» также комплектуется общелексическим и компьютерным словарями. Однако основной особенностью данной программы является наличие гораздо боль­шего количества подключаемых словарей. Их число составляет на данный момент несколько десятков. Существуют четыре коллек­ции или подборки словарей — наука, коммерция, техника и про­мышленность. Каждая из коллекций содержит от 5 до 10 словарей определенной направленности. Например, коллекция «Коммер­ция» содержит словари «Коммерческий», «Информатика» и «Юридический», причем для всех возможных языковых пар.

Системы автоматического перевода Promt и XT-Diamond. Данные системы являются довольно типичными для рынка программных продуктов РФ и обеспечивают следующие воз­можности:

• ручной выбор и настройку словарей предметной области;

• пополнение словарей пользователем;

• автоматическое определение предметной области, при не­обходимости;

• выборочный или полный перевод текстового файла;

• редактирование оригинала и результата перевода.

На рис. 4.16—4.19 приведены примеры некоторых экранов данных систем, иллюстрирующие их возможности.

В табл. 4.4 приведен пример исходного и результирующего технического текста при автоматизированном переводе различ­ными системами, из которого видно, что несмотря на несомнен­ные успехи в данной области, технология все еше имеет опреде­ленные резервы для своего совершенствования.

Еше одна тенденция последних лет — слияние речевых тех­нологий с лингвистическими. Показателен пример L&H, став­ший действующим лицом в области машинного перевода с мо­мента приобретения фирмы Mendez в 1996 г. После этого к L&H присоединились А1 Logic Corp. и NeocorTech (специализировав­шиеся на машинном переводе с английского на японский и с японского на китайский и обратно), германская фирма Heitmann Group и, наконец. Globalink. Новая версия известной програм­мы-переводчика Power Translator Pro фирмы Globalink вышла уже под маркой L&H.

Таблица 4.4. Исходный и результирующий тексты систем автоматизированного перевода

Исходный текст Перевод Сократ Перевод XT DIAMOND

■ Most companies offering removable Большинства компаний, предла- Большинство компаний, предла- ; storage devices will claim that they're гающих сменные устройства па- гающих сменные устройства хра- great for backing up hard disks. In мяти потребует, чтобы они - нения будет утверждать, что они; reality, the market they're trying to большими для поддержки жест- являются большими для того, что- j muscle in on is outside their ких дисков. В действительности, бы поддержать жесткие диски, capabilities. The traditional security рынок, которые они пытаются в В действительности, рынок, в ко- backup technology - tape - remains мускул в на - за пределами сво- торый они пробуют ворваться - I the best choice, and for two very их возможностей. Резервная вне их способностей. Традицион- good reasons: capacity and cost. The технология традиционной безо- ная безопасность резервная тех-: more inconvenient a security backup пасности - лента - остается нология - лента(пленка) - оста- regime is to implement, the less likely наилучшим выбором, и для двух I ется лучшим выбором, и для двух users are to bother. With the size of очень хороших причин: возмож-; очень серьезных оснований: спо- the average hard disk now several ность и стоимая. Чем более не-. собность(вместимость) и стои- gigabytes, tape is generally the only удобный резервный режим мость. Чем более неудобный media that allows a complete hard безопасности должен осуществ- безопасность резервный режим disk to be backed-up without ляться, тем меньше вероятные: должен осуществить, тем менее needing to swap media during the; пользователи должны мешать.: вероятные пользователи должны process. Furthermore, removable l С размером среднего жесткого 1 беспокоиться. С размером сред- j storage media is comparatively i диска теперь несколько гигабай-i него жесткого диска теперь не- expensive, with overall costs up to ten 1 тов, лента является обычно сколько гигабайтов, лента(плен- times that of tape единственным носителем, кото- ка) - вообще единственные СМИ,

рый позволяет полный жесткий который позволяет полному жест- диск, чтобы быть вспомогатель- кому диску быть поддержанным, I ным без необходимости подка-. не нуждаясь к СМИ обмена в тече-

чать носителя в течение процес- ние процесса. Кроме того, смен- са. Кроме того, сменный носи- ные носители данных сравнитель- j тель памяти сравнительно но дороги, с полными затратами

дорог, с общими издержками до десяти раз больше чем это десять вплоть до раз (а) того же ленты(пленки). самого tape

Продукция L&H поддерживает в обшей сложности 25 язы­ков. Однако еше эффектнее выглядит программа Universal Translator фирмы LanguageForcc (США). Серия Universal Translator включает четыре системы машинного перевода, рабо­тающие с MS Office, имеющие функции распознавания/синтеза речи и проверки орфографии; при этом Universal Translator 2000 Professional переводит с 40 языков: арабский, китайский (упро­щенный и традиционный варианты), чешский, датский, нидер-

HID ©зйп Правка |ил Встзо*;а Формат Теизтика Гкрссод Atl Серюс £?;ио I. xj

Пйй & i^k -ft it-o ® |ico-.~V; SI V

[Касание IВ й Сс^фи'е; 10 Interne! I □ Ш Ac^cdUiM {ПШъЛсксЬ { □ 14 Aviation: 1 □ И Bank

311 АНГЛО-Р^КИЙ - И Инфсснатикэ - ШВ Ш Ш Ш S

"1 ж а- ч з = щ т

X? -

с- Surd з з icijtiv£-l'T n.:-v, CjiMbi it t j; FCe     .:jp:j:ii;ty 'О' PC С  
-tcyusy м. - - - ■ -tids^-J 1 »tsvn -- Lyi. cdj:«':0■. 11 — r**l;y cur iUHrtd 1 v,ti*ii  
-; ■■■■■K d-?s rye j. >1; Г licit./h EM   t'-o ■■■■■53 -ir:t d:rj Th-:- oticj ii; 1 lbVI d
Тмчелсеаря С r»tru>vj г ь ■ и;: •:> ь тн то й С п*ц л,-".' i с о & -зи н-a i С пси-с Л-* он: СЕ--М f ь>й С П =Ц riS.n.':•: AZ О Е- гН Hti Й Ct'i-Ц^ Tv. i-tpO В =м й С П*Ц и-"! Т.'ЛГ'5НHtiЙ

 

zJ


 

 


i Не*нз£оиые снова
спов-зри I

} В^елрвг-рсе-эн^ье ств-з


 

 


чгобы п&лучигть mAixawy:. «ажиите Fl

Рис. 4.16. Переводчик Promt, исходный экран


 

 


ш:

JfiJxJ


 

 


) ®айя Орзска Цид Вст-зр&э Фор$зт Хснэтика Пересол &П <>:но I


 

 


D£H <& З*1 iz

[ТмТ'-] а л''
®'
*1

]|1 АнЩ-Рдакт •


 

 


  и Ш \
i> Th: i: otsitously
trie;и  
we on ■ae-i s:i
; PS F г i UP

 

Система PROMT ссущесдвгяст rwpreoa текста. По тапире та, го дождит е.. так *-ж зто займет некоторое врем5,

г- Имя файла...... -....................................... -...

а п и сан; зарднео ' в но уху, ><1!С И пи домо.~

: jsound cad U?d


 

 


f Название |ам Сй.фи!й5 j 0 Ш Interne:! □ 1Л AercJtuie

\пт to&vctee

Jd
С nt ПУ-Л Vf"0 Г-* н

j D fc* Avi^bn! □ ы B«nk


ИЗ Сло&зри | [!Н5;нжоИг1^сп5ва | [j^] зззеирь-роынйь)? слои [ g свокст&э | 4l'Qttet ПОЩ'^Уь ГУ>ДС<а5р.у, г-.^'.мп'Гй F i

Рис. 4.17. Promt, процесс перевода


(sfj Пр20* 3 fciH- BCT.3D£.3 СОр^-ЗТ 1сИЗТИ'Г,2 Гк'DC-cOЛ АН Ссроя: £*ГНО £

d^b «?пк л - ts д =о а е- ai?

3fi AH'roP,..t,v- Щ) /нф - СЕ! S13 ® © И- Щгезпесеюда

[Аг.а1 " 3 | Zl ж к 4 S = = = i


Г u J и it I i н dL P < 1 I - Г^ rt I ~.I'll (J_______ t_ llf lu'lr P - A tp
I t Г = J il ■.<A?n
=1
Tin ) l ■» «■ НЧ "I" "-1 г • ич П u 4 1 r I U! i c HH L L 1 НЧ
I HdiBd-iie I I, 3 Л I t- ' ' □ Я A:rc:j!ur<: ( □ Ш autcf,xlive j □ M Avista* ; □ м B-mk
 

 

 


' [Ш Спзсори [ [**' Ня н j* utfeis его в а [Тй ссозг i свайстЕ-з j

-ircitei пй^'^'ь t» 4 i- +MHreFl

Рис. 4.18. Результирующий экран перевола Promt

BBSS """" п!ш               -jQ'ii
: twin О, к F - 1 V     t^lt:'        
1 & а /   > т Hu- ffl -   й P _    
Jt) с =1 ГР ^t       f.'s С >5 U   1 ^ r i conside I 1 t n г I  
г IJH П J Ti j 1! rr ра:;Ыв Pi   zesignes 4 H J ! 1 ^ а —'
mijilim ч э 1 1-й SO It's ПЛ'Ы; r sing is-iii-rjj, l i t   i ч p -it- i I
chip in 1 lit   Jt 1 r 1 t   j r rr r 11 1 * J t
r) Р г ■ V.'S: p t   pi: ri'-. d -f, = пп snnsi "L г P - \ p 4 1 1 nsh
I 1 L It-ill SOU d 05 IjbiltiOS ft:'   ■no iC'j't" i: o:'tl tl F ГС but:; s w: c'icko, and PC's
h -q, и сип с e P н pner П'.РГОГ.          
U second 1 it 1 1 F         J t f f ' " to
fcВ-5tils t I * у der la-dmy rnd T^jli applx-ili.   P sound 4 d ИГ jr a 1 И
  TH 1 H H т H L   T-JTIIY t J н Lib тельни не d
1 M 1 1 г H 1T -Д 3 pi     -срэб-ла П г  
П 11- н н   11! НУЛЬ-Ь HI   l   M CbJl i::.   н  
F II H - <> I I .■■H-. t. •тьтииед   ЧТО 1И 1T Ь 41 71 Hp
^ Г cl k 1 НИИ •осеяши-н.. Г U: L i. &::u.G4 rJ .ю его ар I h г ь ь  
т И H n 1 И -T^p-j-HrJ   'Г.ГИТР.-h- 1- H 1 1 H pf H H Н 1 1. м  
  Д 141 L-Л 1 с ал. к: 70;: Ь- й с.п- жия с   f Д f Л I Е тм И
1-Г и r T I Э   h Яблока,IF 1ел E с трсенные   t- Р Г F   п н г т ч  
II ц ICTC "Cj!> [ Г 1 5НР0ГС и _ г 1 F _ 1 1 LIT U Zl
Чтобы пйгучгп ь сп;;, Fl       ' AH* Л С   /HTrpHi'  

 

Рис. 4.19. Переводчик X-Translator, результирующий экран перевода

ландский, английский британский и американский, эсперанто, фарси, финский, французский (канадский и европейский вари­анты), немецкий, греческий, иврит, венгерский, итальянский, индонезийский, латинский, японский, корейский, норвежский, польский, португальский (бразильский и европейский вариан­ты), румынский, русский, словацкий, испанский (латиноамери­канский и европейский варианты), суахили, шведский, тагаль­ский, тайский, турецкий, украинский, вьетнамский, зулусский. Для Universal Translator 2000 Professional объявлена возможность перевода в любом направлении для любой языковой пары. Не­трудно подсчитать, что число таких пар составляет 1560. Кроме того, программа записывает текст под диктовку, читает вслух и проверяет грамотность написанного. Вместе с переводчиком по­ставляются две обучающие игры Space Attack и WortTris, кото­рые должны, по-видимому, окончательно сразить потребителя и конкурентов.

Лингвистический анализ текста — обязательная стадия про­цесса автоматического ввода текста под диктовку. Без этой ста­дии современное качество распознавания не могло бы быть дос­тигнуто, и многие эксперты связывают перспективы речевых систем именно с дальнейшим развитием содержащихся в них лингвистических механизмов. Как следствие, речевые техноло­гии делаются все более зависимыми от языка, с которым работа­ют. В сфере распознавания слитной речи зависимость стала аб­солютной, что подтверждается, в частности, отрицательным опытом локализации программного пакета фирмы Dragon Systems для русского языка (имеется в виду система «Горыныч», не показавшая объявленного качества распознавания). Однако и в других областях работы с речью, включая TTS и даже механиз­мы редактирования и сжатия, специфика языка все более дает себя знать. Следовательно распознавание, синтез и обработка русской речи являются той нишей, занять которую должны именно российские разработчики.

Контрольные вопросы

1. Перечислите основные принципы распознавания символов (OCR)

2. Что такое OCR А и OCR В?

3. В чем заключается содержание метода сопоставления с образцом?

4. Перечислите основные особенности метода POWR.

5. Каковы возможности программного продукта Finereader?

6. Что такое принципы!РА?

7. В чем заключается MDA?

8. Что такое бинаризация изображения?

9. Какие типы классификаторов-распознавателей вам известны?

10. Перечислите основные принципы систем распознавания речи (STT).

11. Охарактеризуйте программные продукты STT.

12. Перечислите основные принципы систем генерации речи (TTS).

13. Охарактеризуйте программные продукты TTS.

14. Назовите основные принципы систем автоматизированного перевода.

15. Что такое фразеологический машинный перевод?

16. Какова структура машинного словаря?

17. Назовите возможности системы машинного перевода Promt.

18. В чем заключается интеграция систем перевода и обработки речи?


Глава 5



Поделиться:


Последнее изменение этой страницы: 2017-02-22; просмотров: 634; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.144.243.184 (0.045 с.)