ТехноИнжениринг.РФ
Консалтинговая Корпорация
МЕТАЛЛУРГИЯ
Аналитические и синтетические элементы в английском языке
Аналитические и синтетические элементы в английском языке.
I am reading a newspaper. | Я читаю газету. |
She is watching TV. | Она смотрит телевизор (сейчас). |
—2.) Present Perfect Active (настоящее совершённое, действительный залог):
He has written the letter. | Он написал письмо. |
Here is the book I have just read. | Вот книга, которую я только что прочитал. |
—3.) Future Continuous Aktive (будущее длительное, действительный залог):
I shall be reading the article when you come. | Я буду читать статью, когда вы придёте. |
—4.) Present Indefinite Passive (настоящее неопределённое, страдательный залог):
Houses are built very quickly. | Дома строятся очень быстро. |
—5.) Past Indefinite Passive (прошедшее неопределённое, страдательный залог):
The house was built last year. | Дом построили в прошлом году. |
—6.) Future Indefinite Passive (будущее неопределённое, страдательный залог):
A new scool will be built next year. | Новую школу построят в следующем году. |
___Можно сказать, что аналитические формы глагола — это одна из характерных черт современного английского языка.
Источник
Аналитические и синтетические языки. Машинный перевод между ними
Введение. Типы языков. Различия между ними
В языках мира существуют две основных группы способов выражения грамматических значений – синтетические и аналитические.
Аналитические языки — те, в которых грамматические отношения имеют тенденцию к передаче в основном через синтаксис, то есть через отдельные служебные слова (предлоги, модальные глаголы и т. п.) через фиксированный порядок слов, контекст и/или интонационные вариации, а не через словоизменение с помощью зависимых морфем (окончаний, суффиксов, приставок и т. д.).
В синтетических языках грамматические значения выражаются в пределах самого слова (аффиксация, внутренняя флексия, ударение, супплетивизм), то есть формами самих слов.
Помимо двух основных типов существуют два экстремальных подтипа – полисинтетические и изолирующие.
Полисинтетические языки — те, в которых все члены предложения (полная инкорпорация) или некоторые компоненты словосочетания (частичная инкорпорация) соединяются в единое целое без формальных показателей у каждого из них. Другими словами, целое предложение может оказываться внутри одного массивного слова, несущего как основную информацию, так и дополнительные оттенки эмоциональные и смысловые.
Изолирующие языки́ (иначе аморфные, односложные, корневые) — языки с низким соотношением морфем к слову. Слова в максимально изолирующем языке будут состоять только из одной морфемы — корня, не образуя ни составных слов, ни сочетаний с суффиксами, префиксами и т. д.
Классический пример синтетического и аналитического строя:
В английском языке, считающемся аналитическим, фраза I love you может быть правильно воспринята только при такой последовательности слов. При изменении последовательности страдает смысл и, зачастую, грамматика. Так, нельзя сказать Love you I или I you love.
В то же время в русском языке, считающемся синтетическим, фраза «Я тебя люблю» может достаточно легко трансформироваться в «Тебя люблю я», «Тебя я люблю» и так далее. Это происходит за счёт того, что грамматические конструкции находятся внутри самих слов, что позволяет легко идентифицировать их значение вне зависимости от положения в предложении.
Другой характерный пример различия этих языков – однословное предложение «Смеркалось». В то время, как в русском языке смысл передан одним словом, которое указывает одновременно и на действие, и на время, не требуя при этом подлежащего, в английском языке аналог будет растянут на длинное предложение: It was getting dark.
В большинстве языков есть и аналитические, и синтетические средства выражения грамматических значений, однако их удельный вес бывает разным. В зависимости от того, какие способы преобладают, различают языки аналитического и синтетического строя. К синтетическим языкам принадлежат все славянские языки (кроме болгарского), санскрит, древнегреческий, латынь, немецкий, якутский, суахили и др. Важно отметить, что чистых аналитических или синтетических не существует, есть примеры (окончания числовых?). Так. В аналитическом английском число в существительных отображается с помощью окончания s.
К языкам аналитического типа относятся все романские языки, английский, болгарский, новоперсидский, датский и др.
Языки, в которых почти отсутствуют возможности синтетического выражения грамматических значений (китайский, вьетнамский и др.), называют изолирующими (ранее их называли аморфными), как бы лишенными формы.
Есть языки, в которых слово оформляется большим количеством разных служебных морфем, оно превращается по смыслу в слово-предложение, но при этом остается оформленным как слово. Такое устройство «слова-предложения» называют инкорпорацией, а соответствующие языки – инкопрорирующими или полисинтетическими (индейские языки, чукотский, корякский и др).
Критерии выбора языков для исследования. Методика анализа
В качестве материала для исследования была взято руководство пользователя iPhone для программного обеспечения iOS-8 на исследуемых языках. Выбор был продиктован тем, что данная тематика представляет наименьшие трудности для алгоритмов NMT, предложения в таких материалах, как инструкции, наиболее просты грамматически и не отличаются сложной лексикой. Объём текста для каждой языковой пары оказался около 40 страниц.
Перед исследованием не ставился вопрос о том, как быстро можно постредактировать переводы внутри и между типами языков. Главный вопрос – насколько изначально читаемым и схожим будет материал на выходе.
В качестве системы МТ был выбран один из основных российских разработчиков МТ, среди движков которого оказалось подавляющее большинство необходимых для исследования языковых пар. Таким образом, несмотря на неизбежные отличия в качестве корпусов, сводилась к нулю вероятность различия результатов в силу разных алгоритмов разных систем МТ.
Для анализа было решено выбрать несколько языков: по два каждого типа. Основными критериями выбора стали: отсутствие близких связей между выбранными языками, их популярность и возможность выполнения нейромашинного перевода для всех выбранных языков на единой платформе во избежание влияния алгоритмов разных систем МТ на конечный результат перевода.
В качестве синтетических языков были взяты:
В качестве аналитических выбраны:
- Английский
- Китайский (считается изолирующим, что по сути значит ещё меньшее количество синтетических конструкций)
Выбор был продиктован следующим соображениями:
Русский язык – представитель славянских языков и наиболее используемый из них в международной практике и, следовательно, в переводческой отрасли.
Турецкий язык – наиболее популярный язык тюркской группы.
Английский язык – самый используемый в мире язык, представитель германской ветви индоевропейских языков.
Китайский – язык с наибольшим числом носителей в мире из сино-тибетской семьи, являющийся изолирующим по грамматическому строю.
Выбор языков был также обусловлен количеством носителей, принадлежностью к разным языковым семьям, разным группам с точки зрения типологической классификации и влиянием в экономическом плане.
В качестве методики выбрана схема оценки переводов общей тематики с и на языки внутри своей группы, а также перевод с и на языки противоположной группы.
Под коэффициентом качества понимается отношение количества ошибок выше средней степени тяжести к количеству слов в переводе. Так, учитывались только средние и тяжёлые ошибки (явные лексические ошибки, пропуски, искажение смысла, грамматика), поскольку они в конечном счёте больше всего влияют на восприятие перевода (как и на время постредактирования). В практическом смысле коэффициенты способны показать, какие пары больше подходят для их использования без редактирования, а какие – меньше или не подходят совсем.
Формула для подсчёта коэффициента качества:
Q = (Em*1 + Eh*2)/Nw*100
Q – коэффициент качества
Em – количество ошибок средней тяжести
Eh – количество тяжёлых ошибок
Nw – количество слов в переведённом тексте
Для наглядности приведём примеры ошибок, считающихся в рамках нашего исследования лёгкими, средними и тяжёлыми.
- Лёгкие ошибки