Головна » Статті » Мовознавство » Мовознавство як наука

Прикладна лінгвістика, комп'ютерний переклад

Стан розвитку науки ХХ ст. характеризується зміцненням взаємодії гуманітарних, природничих і технічних дисциплін, що обумовлено досягненнями кібернетики, інформатики, семіотики, які внесли суттєві корективи у зміст і компетенцію ряду наук.

Прикладна лінгвістика традиційно пов’язана з різноманітними аспектами лінгвістичного забезпечення людської комунікації, які можна звести до єдиної проблеми оброблення інформації, що функціонує у суспільстві у вигляді текстів. Це проблеми лінгводидактики мов, орфографії, транслітерування, перекладу, термінології, дешифрування тощо.

Комп’ютеризація інформаційної сфери стимулювала розвиток нового напрямку прикладної лінгвістики – комп’ютерного, до компетенції якого входить лінгвістичне забезпечення функціонування інформації в автоматизованих системах різних типів. У мовознавців з’явився новий адресат – компютер, якого треба навчати мов не за „людськими”, а за спеціальними словниками і граматиками, максимально формалізованими, написаними у вигляді алгоритмів. Тільки сформувавши в штучному інтелекті комп’ютера знання природних мов, можна зробити з нього інтелектуального, набагато енергійнішого за людину партнера-помічника. В університетах усього світу понад 50 років успішно займаються вирішенням цього завдання.

Сьогодні комп’ютер навчений здійснювати чимало трудомісткої роботи – укладати словники різних типів – орфографічні, перекладні, синонімів, антонімів, омонімів, перекладати стандартизовані тексти, створювати реферати, здійснювати коректорську і частково редакторську роботу, підтримувати масштабні бази даних для найрізноманітніших дослідницьких проектів. І це лише початок, перспективи тандему людина – комп'ютер грандіозні. Вирішення цих завдань не є тривіальним і шаблонним, види їх весь час змінюються під впливом динамічних комунікативних ситуацій „людина – людина”, „людина – ЕОМ”.

У 70-х роках учені зрозуміли, що вирішення багатьох прикладних проблем не може бути суто лінгвістичним. Так виникла міжгалузева дисципліна – моделювання знань, яка досліджує мислення, мовну та психічну поведінку людини Ця сфера дотична до ряду наук  – логіки лінгвістики, психології, математики, кібернетики. Такий синтез наукових інтересів, викликаний необхідністю створення автоматизованих систем штучного інтелекту, здатних підтримувати науково-дослідну роботу, видавати спеціалісту енциклопедичні знання та бібліографічні відомості, допомагати у створенні багатоаспектних, глибоко ешелонованих класифікацій матеріалу. Такого роду автоматизовані системи називаються базами знань, створенням яких займається також і комп'ютерна лінгвістика.

Сучасна комп’ютерна лінгвістика цілком визначила сферу своєї компетенції – це створення лінгвістичних процесорів для автоматизованих інтелектуальних систем.

Комп’ютерний переклад. Інтерес до машинного перекладу постійно зростає, практично прямо пропорційно росту обсягів інформації, які доводиться читати іноземними мовами. Інтернет-сайти, електронна пошта, різні описи й інструкції все це хотілося б прекладати швидко та якісно. Саме для вирішення цих завдань існують програми-перекладачі. Тут доречно буде відзначити, що часто виникає плутанина, і перекладачем називають будь-яку програму, що дає переклад слів. Уточнимо, що система машинного перекладу перекладає весь текст, на відміну від електронних словників, які дають тільки переклад окремих слів.

Про переклад за допомогою окремих програм уже написано чимало. Однак ми порівняємо машинні перекладачі з погляду  технології. Сьогодні у світі існують дві технології машинного перекладу: традиційна, на основі правил (rule-based machіne translatіon) і статистична (statіstіcal-based machіne translatіon). Необхідно визначити переваги та недоліки цих технологій.

Технологія статистичного перекладу. Слово „статистичний” у назві технології відразу наводить на думку про те, що для отримання перекладу в системі застосовуються якісь математичні методи. Точніше сказати, весь принцип роботи заснований на статистичному обчисленні ймовірності того, що фрази з вихідного тексту збіжаться із фразами, які зберігаються в базі системи перекладу.

Для правильної роботи такий програм потрібна велика база текстів  вихідною мовою і їхніми перекладами (база паралельних текстів), що програма аналізує за певними алгоритмами. Потім програма обчислює найбільш імовірну послідовність слів вихідної мови, яку вона вважає найбільш відповідну перекладу вихідного тексту.

Перевагою статистичної технології є те, що вона в принципі не має потреби в спеціальних лінгвістичних алгоритмах. Як заявляють розроблювачі, при наявності зводу статистичних алгоритмів і достатньої бази паралельних текстів можна зробити систему перекладу з будь-якої мови.

Недоліком статистичного перекладу є те, що він не враховує граматичні правила. У результаті замість зв’язного тексту статистичний перекладач може видавати ніяк не погоджені слова.

Друга проблема полягає в тому, що такій системі необхідний доступ до дуже великої кількості паралельних текстів. По суті, чим більша база паралельних текстів, тим вище ймовірність знайти необхідний збіг. Очевидно, що практично єдиним (зате невичерпним) джерелом такої бази служить Інтернет. Саме тому в порівняльних тестах по перекладу з арабського й китайського на англійський, проведеним Національним інститутом науки й технологій США в 2005 році, переміг онлайн-перекладач Google Translate.

Під перекладом за правилами ми будемо розуміти переклад з використанням лінгвістичних правил вхідної та вихідних мов. Ця технологія існує з початку 50-х років минулого століття й по праву може називатися традиційною. На зорі комп’ютерної ери не могло бути й мови не тільки про бази паралельних текстів, але й про машинні ресурси, достатніх для їхньої обробки. Тому протягом декількох десятків років розвивалися тільки технології перекладу, засновані на лінгвістичних алгоритмах. За цією технологією працюють системи PROMT, Systran, Lіnguatec та ін. Оскільки нас цікавить переклад з іноземних мов на російську (адже поки що немає статистичної технології для української мови і не можна буде порівняти), візьмемо систему PROMT 8.0 виробництва російської компанії ПРОМТ.

У цій технології використовують лінгвістичні алгоритми. Спочатку система досліджує вхідний текст: виконує морфологічний аналіз слів у пропозиції (визначає рід, число, особу й інші морфологічні характеристики), потім синтаксичний аналіз (визначає члени пропозиції: підмет, присудок, додаток, обставини) і на заключному етапі виконує синтез пропозицій у перекладеному тексті.

Перевагою такої системи є її самодостатність: адже лінгвістичній програмі не потрібний доступ до баз паралельних текстів. Крім того, система налаштовується, що серйозно підвищує якість перекладу спеціалізованих текстів.

Недоліком цієї технології можна назвати те, що для підвищення якості перекладу потрібно дуже кропітка робота – адже для цього потрібно не тільки розробляти нові алгоритми, але й поліпшувати раніше створені.

Отже, кожна із названих технологій має як свої переваги, так і недоліки. В перспективі можливе поєднання цих технологій для кращого перекладу.

Категорія: Мовознавство як наука | Додав: damar (06.06.2009)
Переглядів: 9731 | Рейтинг: 4.1/7
Всього коментарів: 0
Додавати коментарі можуть лише зареєстровані користувачі.
[ Реєстрація | Вхід ]