. مقدمه
فناوری ترجمه شاخهای مهم از حوزۀ مطالعات ترجمه بوده است. جیمز هلمز[1] در سال 1972 در سومین کنفرانس زبانشناسی کاربردی، حوزۀ فناوری ترجمه را به عنوان زیرشاخهای از شاخۀ «کاربردی» از علم میانرشتهای نوظهور «مطالعات ترجمه» معرفی کرد (Malmkjær, 2013: 32- 31). وی نظریههای ترجمه را با توجه به فاعل آن به سه گروه تقسیم میکند: نظریههای ترجمه توسط انسان، توسط ماشین و توسط هر دو (ترجمۀ انسان به کمک ماشین یا ترجمۀ ماشین به کمک انسان) (Holmes, 1988: 74).
با گذشت زمان و پیشرفت فناوری جایگاه فناوری ترجمه در مطالعات ترجمه اهمیت بیشتری یافت. ماری اسنل- هورنبی[2] فرآیند جهانیسازی و پیشرفت چشمگیر فناوری اطلاعات و ارتباطات را عواملی خارجی میداند که صنعتهای زبانی [مانند صنعت ترجمه] را همچون سایر جوانب زندگی مدرن دچار تحولات عمیقی کرد. این دگرگونی که در دهۀ 1990 در حوزۀ مطالعات ترجمه رخ داد «چرخش جهانیسازی»[3] خوانده شده است و میتواند به اهمیت چرخش قبلی مطالعات ترجمه که در دهۀ 1980 رخ داد؛ یعنی «چرخش فرهنگی»[4]، باشد (Snell-Hornby, 2010: 367- 368).
بخش عظیمی از تلاشها در حوزۀ فناوری ترجمه بر این متمرکز بوده است که ماشین بتواند بدون دخالت انسان عمل ترجمه را انجام دهد. این نوع از ترجمه، ترجمۀ ماشینی نام گرفته است. ترجمۀ ماشینی نخواهد توانست ترجمۀ انسانی حرفهای را در میدان کیفیت شکست دهد، اما از مزیتهایی دیگر مانند سرعت بالا، هزینه پایین و دسترسی راحت برخوردار است. متقاضیان همیشه به ترجمه با کیفیت بالای مناسب برای انتشار نیاز ندارند، بلکه گاهی نیاز دارند به درکی کلی از یک متن با زبان بیگانه برسند و ترجیح میدهند این کار با سرعت زیاد و هزینۀ کم انجام شود؛ هر چند کیفیت آن پایین باشد. همچنین گاهی نیاز است که متون با زبان بیگانه که به سرعت و با حجم بالا در فضای مجازی در حال تولید شدن هستند، ترجمه شوند. این نوع از تقاضا در بازار ترجمه نیز تنها با مزیت عرضه شده توسط ماشین قابل پاسخگویی است. حتی در صورتی که نیاز به متن ترجمه شده با کیفیت بالا داشته باشیم، باز هم ماشین بلااستفاده نیست و میتوان از آن برای تهیه سریع و راحت نسخۀ اولیه ترجمه استفاده کرد و آن را برای ویرایش به مترجمین حرفهای سپرد تا آن را به نسخۀ ترجمه با کیفیت مبدل کنند. بنابراین در شرایط ویژۀ عصر اطلاعات، ترجمۀ ماشینی در کنار ترجمۀ انسانی نقشی مهم و حیاتی ایفا میکند (Hutchins, 2003: 5- 7 & 22- 24).
اوج دسترسی راحت و هزینه پایین برای خدمت ترجمه را میتوان در ماشینهای ترجمه برخط رایگان دید. آنها از طریق هر سامانۀ دارای مرورگر و متصل به اینترنت به صورت رایگان قابل دسترسی و استفاده هستند؛ برخی نیز دارای برنامۀ کاربردی خاص تلفن هوشمند هستند که قابلیتهای اضافه همچون ترجمۀ سیار برونخط (بدون اتصال به اینترنت) را فراهم میکنند. بعضی از این سامانهها دارای امکانات مهم دیگری نیز هستند، از جمله: ترجمۀ صوت، تصویر و دستخط، و پخش صوتی متن مبدأ و مقصد ترجمه. بعضی از سامانههای ترجمۀ ماشینی برخط رایگان از زبانهای عربی و فارسی پشتیبانی میکنند و میتوانند متون را از عربی به فارسی و برعکس ترجمه کنند (رجوع شود به جدول (1)).
ارزیابی پدیدۀ ترجمۀ ماشینی به طور عام شامل مباحث بسیاری میشود؛ میتوان با روشهای مختلفی جنبههای مختلفی از آن را در پاسخ به نیازهای مختلف افراد دخیل (از جمله: کاربر نهایی، توسعهدهنده و سرمایهگذار) مورد بررسی قرار داد (White, 2003: 222).
تمرکز ما در این مقاله بر ارزیابی خروجی یا محصول ترجمۀ ماشینی خواهد بود. از آنجا که هدف از ماشین ترجمه، تولید همین محصول است، ارزیابی آن مورد توجه خاص تمامی افراد دخیل است و به عنوان یک معیار اصلی ارزیابی ترجمۀ ماشینی به طور عام شناخته میشود (Kit & Wong, 2023: 225).
این پژوهش قصد دارد کیفیت محصول ترجمۀ سامانههای ترجمۀ ماشینی برخط رایگان از عربی به فارسی و برعکس را مورد ارزیابی تطبیقی قرار دهد. سؤالات اصلی پژوهش عبارتند از:
- محصول ترجمۀ عربی به فارسی کدام ماشین ترجمه برخط رایگان کیفیت بهتری دارد؟
- محصول ترجمۀ فارسی به عربی کدام ماشین ترجمه برخط رایگان کیفیت بهتری دارد؟
- مبانی نظری
1-2. تعریف کیفیت محصول ترجمۀ ماشینی
یک تعریف موجز کیفیت متن ترجمه که جامع نظریات ترجمه از جمله اسکوپوس است و به طور گسترده در زمینۀ ترجمۀ ماشینی نیز استفاده میشود از این قرار است: «صحت[5] و سلاست[6] به مقتضای مخاطب و هدف و مطابقت با سایر مشخصات توافق شده بین درخواستکننده و ارائهدهندۀ خدمت ترجمه با در نظر گرفتن نیازهای کاربر نهایی». بنابراین کیفیت ترجمه سه معیار اصلی دارد: 1- سلاست، فهمپذیری[7] یا پذیرفتگی[8] متن به زبان مقصد، 2- صحت، بسندگی[9] یا وفاداری[10] به معنای تعادل معناشناسی و کاربردشناسی میان متن مبدأ و مقصد و 3- مطابقت با مشخصات خاص درخواستدهنده؛ در صورت وجود (Chatzikoumi, 2020: 2).
2-2. روشهای ارزیابی کیفیت ترجمۀ ماشینی
ارزیابی کیفیت ترجمۀ ماشینی معمولاً طی دو مرحلۀ اساسی انجام میشود؛ ابتدا واحدهایی زبانی از زبان مبدأ انتخاب شده (مجموعۀ آزمایش[11]) و وارد ترجمۀ ماشینی میشوند، سپس خروجی سامانه به زبان مقصد دریافت شده و مورد بررسی و قضاوت قرار میگیرد. ۀدوم از این فرآیند میتواند به صورت دستی و مستقیماً توسط انسان انجام شود، یا به صورت اتوماتیک توسط ماشین انجام شود. بر این اساس ارزیابی ترجمه به دو نوع انسانی و خودکار (یا ماشینی) تقسیم میشود (Chatzikoumi, 2020: 3 and Kit & Wong, 2023: 227).
ارزیابیهای خودکار و انسانی خود به انواع روشهای دیگری تقسیم میشوند. ارزیابی ماشینی معمولاً به سه نوع تقسیم میشود:
1- مبتنی بر ترجمه مرجع[12]: در این روش، میزان شباهت یا نزدیکی متون ترجمه شده توسط ماشین با ترجمههایی انجام شده توسط مترجمهای انسانی حرفهای که ترجمۀ مرجع خوانده میشوند، سنجیده میشود.
2- تخمین کیفیت[13]
3- ارزیابی تشخیصی مبتنی بر نقاط بازرسی[14]
ارزیابی انسانی نیز معمولاً به شش نوع تقسیم میشود:
1- برآورد کیفیت[15]: در این روش انسان به صورت فیالبداهه نظر خود را دربارۀ یک ترجمه بیان میکند؛ با تعیین سطح (برای مثال خوب، بد یا متوسط) یا نمرهدهی (برای مثال از 0 تا 100).
2- رتبهبندی: چینش چندین ترجمه به ترتیب کیفیت از بهترین تا بدترین
3- تحلیل و طبقهبندی خطا[16]: بر خلاف دو روش قبل که بر قضاوت مستقیم ارزیاب متکی هستند و ممکن است تنها منعکسکننده نظرهایی شخصی باشند در این روش ارزیاب سعی میکند متن را تحلیل کند و انواع خطای رخ داده در ترجمه را شناسایی و سطحبندی کند. سپس نمرۀ منفی تعلق گرفته بر این اساس محاسبه میشود؛ بنابراین، قابل اعتمادتر از سطح/ نمره تعلق گرفته در روشهای قبل است.
4- استخراج اطلاعات[17]
5- آزمون درک مطلب[18]
6- پسویرایش[19] (Chatzikoumi, 2020: 4- 9 and Kit & Wong, 2023: 227- 237).
یک عامل بسیار مهم در فرآیند ارزیابی انسانی، قضاوتکنندگان[20] هستند که به آنها نشانگذار[21] نیز گفته میشود که باید دارای ویژگیهای خاصی باشند تا قضاوتشان قابل اعتماد باشد. بسته به نوع ارزیابی، قضاوتکنندگان میتوانند تک زبانه یا دوزبانه باشند؛ یعنی افراد بومی یا شبه بومی زبان مقصد یا هر دو زبان مبدأ و مقصد. آموزش فرآیند به قضاوتکنندگان، دستورالعمل ارزشیابی به همراه مثال و همچنین آشنایی قضاوتکننده با حوزۀ موضوع متن از پیشنیازهای پروژه ارزیابی است. توصیه میشود که زبان مقصد زبان مادری قضاوتکننده باشد (Chatzikoumi, 2020: 10).
2-3. مدل DQF-MQM برای ارزیابی ترجمۀ ماشینی
در اینجا یکی از مدلهای ارزیابی انسانی مبتنی بر تحلیل و طبقهبندی خطا به نام DQF-MQM که در این پژوهش از آن استفاده خواهد شد، توضیح داده میشود. این طبقهبندی تلفیقی است از دو مدل MQM [22] و DQF[23] که توسط دو گروه اروپایی متخصص بر اساس تلاشهای گذشته در حوزۀ مطالعات و صنعت ترجمه طراحی شدهاند. این مدل در سال 2014 پیشنهاد شد و در حال تبدیل شدن به یک استاندارد جهانی برای ارزیابی کیفیت ترجمه است (Lommel, 2018: 109- 110).
طبقهبندی DQF-MQM دارای هفت نوع خطای سطح بالا[24] است و برای هر کدام از این نوع خطاها انواعی از خطاهای ریزدانهای[25] تعریف میکند. ذکر تمامی این موارد از حوصله این پژوهش خارج است و در اینجا تنها به بیان مواردی که برای طبقهبندی خطای ترجمۀ ماشینی مناسب هستند، اکتفا میشود (لومل و دیگران[26]، 2015: 6؛ تاوس[27]، بیتا). این موارد از این قرار هستند:
2-3-1. خطای صحت
* اضافه[28]: متن مقصد شامل متنی است که در متن مبدأ موجود نیست.
* حذف[29]: محتوایی در متن مقصد از قلم افتاده است که در متن مبدأ وجود دارد.
* سوءترجمه[30]: محتوای متن مقصد محتوای متن مبدأ را به درستی بازتاب نمیدهد.
* بلاترجمه[31]: محتوایی که باید ترجم[32]ه میشد بدون ترجمه شدن و به زبان مبدأ به متن مقصد منتقل شده است.
2-3-2. خطای سلاست
اگر متن کاملاً غیر قابل فهم باشد، ما آن را به عنوان خطایی سطح بالا در سلاست در نظر میگیریم و اگر تا حدی قابل فهم باشد، اما دارای خطاهایی جزئی باشد یکی از انواع خطای ریزدانه ذیل را برای آن در نظر میگیریم:
* دستور زبان[33]: خطاهای مربوط به دستور زبان یا نحو.
* سیاق دستوری[34]: متن مقصد از سیاق دستوری اشتباه استفاده میکند؛ وقتی انتظار میرود از حالتهای غیررسمی فعل یا ضمیر استفاده شود از حالتهای رسمی استفاده شود؛ برای مثال انتظار رود از ضمیر محاورهای «اونا» استفاده شود، اما از حالت رسمی آن؛ یعنی «ایشان» استفاده شود.
* املاء[35]: مسائل مربوط به غلطهای املایی یا تایپی در کلمات.
2-3-3. خطای قرارداد محلی[36]
متن به قراردادهای ظاهری ویژه محل پایبند نیست و الزامات ارائه محتوا در منطقه زبان مقصد را نقض میکند. برای مثال، در یک متن فارسی به جای استفاده از گیومه («») از علامت نقل قول غربی (“”) استفاده شود.
2-3-4. خطای اصطلاح شناسی[37]
یک اصطلاح (واژۀ مختص به حوزهای خاص) با اصطلاح دیگری که دور از انتظار است، ترجمه شود.
برای ارزیابی یک سامانه معمولاً شمردن خطاها کافی نیست، بلکه ارزیابان باید بدانند هر کدام از این خطاها چقدر شدت[38] دارند. شدت به طبیعت خطای یافته شده فی نفسه و اثر آن بر میزان مفید بودن ترجمه بستگی دارد. هر چه خطا شدیدتر باشد احتمال و شدت اثر منفی آن بر مخاطب بیشتر میشود. (Lommel, 2018: 120) مدل DQF-MQM دارای چهار نوع شدت خطا به این شرح (تاوس، بیتا) است:
* وخیم[39]: خطاهایی که ممکن است حامل پیامدهای ناگوار بهداشتی، ایمنی، حقوقی، یا مالی باشند، از دستورالعملهای استفاده ژئوپلتیکی تخطی کنند، به اعتبار شرکت آسیب بزنند، باعث اختلال در عملکرد نرم افزار، محصول، یا خدمات شوند، توهین آمیز تلقی شوند، یا ...
* عمده[40]: خطاهایی که ممکن است باعث سردرگمی یا گمراهی مخاطب شوند، یا مانع استفاده صحیح محصول/ خدمت توسط کاربر شوند؛ چون تغییر قابل توجهی در معنا رخ داده است یا خطاها در بخشی قابل مشاهده یا مهم از محتوا رخ دادهاند.
* خرده[41]: خطاهایی که باعث از دست رفتن معنا و سردرگمی یا گمراهی مخاطب نمیشوند، اما مورد توجه واقع میشوند، از کیفیت اسلوبی، سلاست و وضوح یا جذابیت متن میکاهند.
* خنثی[42]: برای بایگانی اطلاعات اضافی، مسائل یا تغییراتی که باید انجام شوند، اما خطا شمرده نمیشوند؛ برای مثال آنها صرفاً منعکسکننده انتخاب یا سبک ترجیحی بازبین هستند، اشتباهاتی هستند که تکرار شدهاند، یا تغییراتی در دستوالعمل یا واژهنامه هستند که هنوز پیادهسازی نشدهاند و یا تغییری است که باید انجام شود، اما مترجم از آن بیخبر بوده است.
میتوان از این سطوح شدت برای دادن نمرههایی منفی به هر کدام از خطاهای موجود در مجموعهای از ترجمهها استفاده کرد و از آنها برای محاسبه سنجهای برای ارزیابی[43] کلی کیفیت مجموعه بهره برد. به ازای هر سطح شدت جریمه یا نمرۀ منفی خاصی در نظر گرفته میشود؛ برای مثال برای هر خطای سطح وخیم 10 نمرۀ منفی، برای سطح عمده 5 نمرۀ منفی، برای سطح خرده 1 نمرۀ منفی و برای سطح خنثی 0 نمرۀ منفی در نظر گرفته میشود)، سپس این مقادیر با هم جمع میشوند تا مقدار نمرۀ منفی کل به دست بیاید. سپس میتوان با این فرمول (Lommel, 2018: 121- 122) مقدار امتیاز کل کیفیت ترجمههای مورد نظر را به دست آورد:
- پیشینۀ پژوهش
چند مقاله به ترجمۀ ماشینی بین عربی و فارسی پرداختهاند. نظری (1393) در مقالۀ «گونهشناسی چالشها و جایگاه ترجمۀ ماشینی از عربی به فارسی» چالشهای پیش رو در ترجمۀ ماشینی از عربی به فارسی از جمله مسائل ابهام نوشتاری، واژگانی و اعراب را به تفصیل بیان میکند. وی همچنین نمونهای از ترجمۀ انجام شده توسط ماشینهای ترجمه برخط رایگان را ارائه میدهد که نشان میدهد هنوز راه درازی تا رسیدن به ترجمۀ ماشینی عربی به فارسی قابل قبول پیش رو داریم (نظری، 1393: 40 و 54).
بشار (2021) در مقالۀ «إشکالیات الترجمة الآلیة بین العربیة والفارسیة» به توضیحاتی در مورد ابهامهای واژگانی مشکلآفرین برای ترجمه بین عربی و فارسی و همچنین به بررسی ترجمۀ متونی از انواع مختلف با مترجم گوگل میپردازد و نتیجه میگیرد که هنوز به کیفیت مطلوب نرسیده است. اگرچه برای انواعی از متون (فنی و غیر ادبی) بهتر از انواعی دیگر (شامل امثال و کنایات و اصطلاحها) عمل میکند (بشار، 2021: 192-193).
عبدالعباس (2021) در مقالۀ «واکاوی ترجمۀ ماشینی تارنماهای خبری فارسی به عربی» ترجمۀ ماشینی برخی متون خبری را از فارسی به عربی مورد ارزیابی قرار میدهد و انواع اشتباهات موجود در آن را گزارش میدهد (عبدالعباس، 2021: 514 و 534)
چندین پژوهش علمی با موضوع ارزیابی تطبیقی ترجمۀ ماشینی به جفتزبانهای عربی- انگلیسی یا فارسی- انگلیسی پرداختهاند، اما هنوز هیچ پژوهشی در این حوزه برای جفت زبان عربی- فارسی منتشر نشده است. این پژوهشها عموماً ابتدا یک مجموعه آزمایش انتخاب کردهاند، سپس ترجمۀ آن را توسط چند ماشین ترجمه انجام داده و خروجی را با استفاده از یک یا چند یک از روشهای خاص ارزیابی ترجمۀ ماشینی مورد مطالعه قرار دادهاند. در ادامه خلاصهای از جدیدترین مطالعات این حوزه آمده است.
بن میلاد (2022) در پژوهشی با عنوان «ارزیابی تطبیقی کیفیت ترجمه ماشینی عصبی در ترجمه انگلیسی عربی»[44] متونی عربی و متونی انگلیسی هر کدام حدود 100 جمله را از یک پیکره موازی متون خبری انتخاب کرد، و آنها را توسط ماشینهای ترجمۀ رایگان و غیررایگان از جمله گوکل، بینگ و یاندکس به زبان مقابل ترجمه کرد. وی متون به دست آمده را با دو روش، ارزیابی انسانی برآورد کیفیت و ارزیابی خودکار با دو مدل مختلف، مورد بررسی قرار داد. ارزیابی انسانی گوگل را به برتری شناخت، اما مدلهای ارزیابی خودکار مختلف نتایج متفاوتی به همراه داشت و بر برتری هیچکدام از آنها اتفاق نداشت (بن میلاد، 2022: 142).
المحاسیس (2020) در رسالۀ دکتری خود با عنوان «ارزیابی درزمانی گوگل ترنزلیت، مترجم مایکروسافت و صخر در ترجمه انگلیسی به عربی»[45] پیکرهای حدوداً 4500 واژهای از انواع مختلف متون عربی و انگلیسی میسازد و ترجمۀ آن به انگلیسی و عربی توسط سامانههایی شامل گوگل و بینگ را به دو روش انسانی برآورد کیفیت و تحلیل خطا مورد ارزیابی قرار داد، و به این نتیجه رسید که گوگل ترجمۀ بهتری ارائه میدهد (المحاسیس، 2020: 3).
ابوعیاش (2017) در مقالهای با عنوان «خطاها و عدم خطاها در ترجمه ماشینی انگلیسی به عربی ساختارهای جنسیتی در متون فنی»[46] چند متن فنی انگلیسی با حدود 400 واژه را به چند ماشین ترجمه شامل گوگل و بینگ داد و ترجمۀ عربی خروجی را به روش ارزیابی انسانی مبتنی بر نقاط بازرسی (تطابق جنس فعل- فاعل، صفت- موصوف، و ضمیر- مرجع) مورد مطالعه قرار داد و به این نتیجه رسید که گوگل و بینگ تعداد خطای برابری داشتند (ابوعیاش، 2017: 73، 79).
الشلبی و دیگران (2017) در پژوهشی با عنوان «ارزیابی ترجمه ماشینی از عربی به انگلیسی و بالعکس»[47] پیکرۀ موازی عربی- انگلیسی شامل 60 جمله را از اینترنت جمعآوری کردند، سپس ترجمۀ هر جمله را به زبان دیگر توسط ماشینهای ترجمۀ گوگل، بینگ، بابیلون و سیسترن مورد ارزیابی خودکار قرار دادند و به این نتیجه رسیدند که گوگل ترجمۀ عربی به انگلیسی و برعکس بهتری ارائه میدهد (الشلبی و دیگران، 2017: 1).
- روش پژوهش
اولین گام برای اجرای ارزیابی ترجمۀ ماشینی، انتخاب مجموعه آزمایش است. همچنان که در سؤالات پژوهش منعکس شده است، این پژوهش سعی دارد به مقایسه کیفیت خروجی ماشینهای ترجمۀ عربی به فارسی و برعکس بپردازد و به نوع خاصی از متون این دو زبان محدود نباشد. برای رسیدن به این هدف از جملات موجود در دو کتاب فرهنگ بسامدی عربی[48] و فارسی[49] انتشارات راتلج استفاده شد؛ چون این جملات از پیکرههایی با انواع مختلف متون نوشتاری و صوتی انتخاب شدهاند و همچنانکه از عنوان کتابها نیز برمیآید سعی شده طوری انتخاب شوند که نمایندۀ زبانهای عربی و فارسی باشند و محدود به نوع خاصی از متون نباشند (Miller, et al., 2018: 1- 2 and Buckwalter & Parkinson, 2010: 3- 4). 60 جملۀ اول از هر کدام از این دو کتاب به عنوان مجموعه آزمایش برای هر کدام از دو جهت ترجمۀ عربی به فارسی و برعکس انتخاب شدند. این جملات به حالتهای[50] مختلف نوشتاری و گفتاری، انواع مختلف خبری، داستانی، علمی و... و موضوعات مختلف سیاسی، دینی، تاریخی، جغرافیایی و... هستند.
گام دوم انتخاب ماشینهای ترجمۀ مورد آزمایش است. در اینجا همانطور که در مقدمه اشاره شد، سامانههای برخط رایگان پشتیبانیکننده از عربی و فارسی انتخاب شدند. با جستوجو در اینترنت شش سامانه با این مشخصات به دست آمدند: گوگل ترنزلیت[51]، بینگ ترنزلیتور[52]، یاندکس ترنزلیت[53]، رورسو[54]، مادرنامتی[55]، و نیوترنس[56]. در جدول (1) معرفی اجمالی این سامانهها و قابلیتهای ادعاییشان آمده است.
جدول 1. معرفی اجمالی مشخصات و قابلیتهای ادعایی ترجمههای ماشینی برخط رایگان
نام ماشین ترجمه
|
گوگل
|
بینگ
|
یاندکس
|
رورسو
|
مادرنامتی
|
نیوترنس
|
کشور توسعهدهنده
|
آمریکا
|
آمریکا
|
روسیه
|
فرانسه
|
ایتالیا
|
چین
|
تعداد زبان پشتیبانی شده
|
133
|
88
|
100
|
26
|
200
|
450+
|
حداکثر تعداد نویسه
|
5000
|
1000
|
10000
|
2000
|
5000
|
5000
|
ترجمه صوت
|
ü
|
ü
|
ü
|
û
|
û
|
û
|
پخش صوت
|
ü
|
ü
|
ü
|
ü
|
û
|
û
|
ترجمه تصویر
|
ü
|
û
|
ü
|
û
|
û
|
û
|
ترجمه سند
|
ü
|
û
|
ü
|
ü
|
û
|
û
|
ترجمه وبسایت
|
ü
|
û
|
ü
|
ü
|
û
|
û
|
ترجمه دستخط
|
ü
|
ü
|
ü
|
û
|
û
|
û
|
ترجمه برونخط (آفلاین)
|
ü
|
ü
|
ü
|
û
|
û
|
û
|
گام سوم انتخاب روشی برای ارزیابی خروجی ترجمۀ ماشینی است. در این پژوهش از ارزیابی انسانی استفاده خواهد شد که بر روشهای ماشینی برتری کلی دارد (Kit & Wong, 2023: 227). روشهای ارزیابی خودکار مبتنی بر ترجمه مرجع مخصوصاً برای زبانهایی مثل عربی و فارسی که از نظر صرفی غنی هستند یا از نظر منابع پیکرهای کمبود دارند، مناسب نیست (Beseiso, M., et al., 2022: 189).
از میان روشهای انسانی روش مبتنی بر تحلیل و طبقهبندی خطا استفاده خواهد شد که بیش از همه از جانبگیری و نظر شخصی که از اصالت علمی پژوهش میکاهد به دور هستند. مدلهای بسیاری برای این نوع از ارزیابی وجود دارد که در اینجا طبقهبندی موسوم به DQF-MQM که یک مورد به روز و استاندارد است (راتول و دیگران[57]، 2023: 107) اختیار شده است.
گام چهارم در ارزیابی انسانی انتخاب نشانگذار(ان) است. در اینجا نویسندۀ مسئول این مقاله خود نقش نشانگذار را نیز بازی کرده است. زبان فارسی زبان اصلی پژوهشگر است و به زبانهای عربی و انگلیسی نیز تسلط نسبی دارد. ترجمۀ انگلیسی جملات مجموعۀ آزمایش در کتابهای مورد اشاره موجود هستند و میتوانند به نحوی همچون ترجمۀ مرجع عمل کنند. بنابراین، به نظر میرسد پژوهشگر شایستگی کافی برای ایفای نقش نشانگذاری این پیکره را دارا باشد.
گام پنجم انتخاب ابزاری برای تسهیل اجرای فرآیند ارزیابی است. در اینجا از قالب اکسل مخصوص مدل DQF-MQM، موجود روی سایت رسمی شرکت ابداع کننده آن، استفاده میشود.[58] این قالب اکسل دارای هشت زبانه است؛ زبانۀ اول عنوان را دربر دارد. زبانۀ دوم مقدمهای است که نحوۀ استفاده از قالب را توضیح داده است. زبانۀ سوم جدولی است که مشخصات کلی متن مبدأ همچون تعداد کلمات در آن وارد میشود. زبانۀ چهارم جدولی است که ارزیاب متن مبدأ را بخش به بخش[59] در آن وارد میکند و خطا(های) موجود در هر بخش را با انتخاب گزینه مربوطه مشخص میکند. زبانۀ پنجم نمرۀ منفی و امتیاز ترجمه را به صورت خودکار محاسبه کرده و نمایش میدهد. زبانههای بعدی به توضیح سطوح و شدتهای مختلف خطاها پرداختهاند که در بخش ادبیات پژوهش آمد (TAUS, Undated).
گام ششم اجرای عملی فرآیند ارزیابی است. جملات مجموعۀ آزمایش تک تک وارد ماشینهای ترجمه شدند و خروجی آنها دریافت شد. هر کدام از این جملات به عنوان یک بخش محسوب میشوند که باید در خانههای مربوطه در قالب اکسل وارد شوند. این جملات وارد فایل اکسل شده و خطاها در خانههای مربوطه تعیین شدند. طبقهبندی خطای موجود در این قالب دارای شاخهها و زیرشاخههای بسیاری است که همگی برای ارزیابی ترجمۀ ماشینی مناسب نیستند؛ نشانگذار خود را محدود میکند به زیر مجموعهای از این طبقهبندی که برای ارزیابی ترجمۀ ماشینی توصیه شده و در بخش سوم مبانی نظری شرح آن آمد.
- یافتهها
در این بخش گزارشی از دادههای به دست آمده از فرآیند تحلیل و طبقهبندی خطای انجام شده، ارائه میشود. دادههای مربوط به هر کدام از ماشینهای ترجمه برای هر کدام از دو جهت عربی به فارسی و فارسی به عربی در قالبهای اکسل جداگانهای قرار دارد که همگی از طریق اینترنت قابل دسترسی است[60]. حجم این دادهها بیش از این است که در این مقابله قابل گنجاندن باشد. در ادامه توضیحات و مثالهایی دربارۀ انواع و شدتهای مختلف خطاهای مشاهده شده در ترجمهها آورده میشود:
* گوگل جملۀ شمارۀ 28 عربی «اللی بیدخن وما بیعمل ریاضة نهائیا بیتعب بربع ساعة» را به «هر کس سیگار میکشد و اصلاً ورزش نمی کند در یک ربع خسته میشود» ترجمه کرده است که کلمۀ «اصلًا» در آن اضافه است؛ بنابراین به عنوان خطای صحت از نوع اضافه محسوب شد. با توجه به اینکه این خطا تغییر چندانی در معنا حاصل نمیکند، خطایی از شدت خرده دانسته شد.
* رورسو جملۀ شمارۀ 27 فارسی «افراد معمولی هم میتوانند برند.» را به «یمکن للناس العادیین أیضًا» ترجمه کرده که معادل کلمۀ «برند» در آن وجود ندارد؛ بنابراین، خطای صحت از نوع حذف در آن رخ داده است. با توجه به اینکه این حذف موجب سردرگمی خواننده میشود، خطایی از شدت عمده رخ داده است.
* نیوترنس جملۀ شمارۀ 36 فارسی «من هم بهائی هستم.» را به «أنا أیضا أحمق.» ترجمه کرده است که خطای صحت از نوع سوءترجمه رخ داده است، و با توجه به اینکه ممکن است، توهینآمیز تلقی شود، سطح شدت خطا وخیم تشخیص داده شد.
* یاندکس جملۀ شمارۀ 7 فارسی «چند روز در هفته ورزش میکنی؟» را به «کم یوما فی الأسبوع هل ممارسة؟» ترجمه کرده که نا مفهوم است؛ بنابراین، خطای از نوع سلاست رخ داده است. این نوع خطا در طبقهبندی MQM با اصطلاح نامفهوم[61] شناخته میشود که در DQF-MQM معادلی ندارد؛ بنابراین، در قالب اکسل تنها با خطای سطح بالای سلاست مشخص شده است و نوع آن تعیین نشده است (Lommel, et al., 2015: 16 and TAUS, Undated)).
* مادرنامتی جمله اخیر را به «کم عدد الأیام فی الأسبوع التی تمارس فیها الریاضة؟» که بهتر بود به جمله کوتاهتر «کم یوما فی الأسبوع تمارس الریاضة؟» ترجمه میشد، ترجمه کرده است؛ بنابراین، میتوان آن را خطای سلاست از نوع دستوری دانست. با توجه به اینکه امکان دارد این مورد اصلاً خطا محسوب نشود از شدت خنثی شناسایی شده است.
* نیوترنس جملۀ شمارۀ 1 عربی «أمضى البائع حیاته فی البحث عن الألماس» را به «اون فروشنده تمام عمرش رو به دنبال الماس گذاشته بود» ترجمه کرد. کلمات «اون» و «رو» در حالت گفتاری یا عامیانه هستند و با حالت نوشتاری یا رسمی متن مبدأ هماهنگی ندارند؛ بنابراین، خطای سلاست از نوع سیاق دستوری رخ داده است.
* نیوترنس جملۀ شمارۀ 23 فارسی «رسید به سیصد تومن.» را به «وصل إلى ثلاثمائة تومین» ترجمه کرد که در کلمۀ «تومین» خطای سلاست از نوع املائی دارد.
* یاندکس جملۀ شمارۀ 7 عربی «سقط الحاج محمود على الأرض من شدة وقع الخبر على نفسه» را به جملهای فاقد نقطه ترجمه کرد؛ بنابراین، خطای سلاست از نوع علائم نگارشی رخ داد. این نوع از خطا در زیرمجموعۀ پیشنهاد شده در مبانی نظری نیامده بود، اما نشانگذار در عمل متوجه شد که برای ثبت کامل خطاها به آن نیاز دارد.
* رورسو جملۀ شمارۀ 8 عربی «هل هذا یعنی أنکم ستدعمون موقف سوریا؟» را به «آیا این به این معنی است که شما از موضع سوریه حمایت میکنید؟» ترجمه کرده که در آن از علامت سؤال لاتین استفاده شده است؛ بنابراین، خطای قرارداد محلی رخ داده است.
* رورسو جملۀ شمارۀ 18 عربی «عین فی قسم الهیستولوجی بدلا من الجراحة العامة التی کان یحلم بها» را به «او به جای جراحی عمومی که در خواب دید، به سمت دپارتمان هیدرولوژی منصوب شد» ترجمه کرده که در آن اصطلاح «الهیستولوجی» اشتباهاً به «هیدرولوژی» ترجمه شده است؛ بنابراین ،خطای اصطلاحشناسی رخ داده است.
در زبانۀ پنجم هر کدام از فایلهای اکسل مربوط به هر یک از ماشینهای ترجمه برای هر یک از دو جهت ترجمه از عربی به فارسی و برعکس، تعداد انواع خطاها و امتیاز منفی آنها محاسبه و نمایش داده شده است که در دو جدول (2) و (3) به صورت خلاصه ارائه شدهاند
جدول 2. تعداد و نمرۀ منفی برای هر نوع خطا برای ترجمه از عربی به فارسی
نام ماشین ترجمه
|
گوگل
|
بینگ
|
یاندکس
|
رورسو
|
مادرنامتی
|
نیوترنس
|
خطای صحت
|
31
|
99
|
29
|
81
|
27
|
75
|
33
|
122
|
29
|
93
|
36
|
129
|
خطای سلاست
|
7
|
7
|
17
|
30
|
18
|
52
|
11
|
74
|
9
|
38
|
18
|
84
|
قرارداد محلی
|
0
|
0
|
0
|
0
|
1
|
0
|
4
|
0
|
0
|
0
|
0
|
0
|
اصطلاح شناسی
|
0
|
0
|
0
|
0
|
0
|
0
|
0
|
0
|
0
|
0
|
1
|
1
|
تعداد/جریمه کل
|
38
|
106
|
46
|
111
|
46
|
127
|
48
|
196
|
38
|
131
|
55
|
214
|
امتیاز
|
84%
|
83%
|
81%
|
70%
|
80%
|
67%
|
جدول 3. تعداد و نمرۀ منفی برای هر نوع خطا برای ترجمه از فارسی به عربی
نام ماشین ترجمه
|
گوگل
|
بینگ
|
یاندکس
|
رورسو
|
مادرنامتی
|
نیوترنس
|
خطای صحت
|
24
|
60
|
21
|
73
|
22
|
90
|
29
|
101
|
24
|
84
|
26
|
95
|
خطای سلاست
|
1
|
1
|
1
|
5
|
2
|
6
|
3
|
7
|
2
|
10
|
8
|
33
|
قرارداد محلی
|
0
|
0
|
0
|
0
|
2
|
0
|
0
|
0
|
0
|
0
|
0
|
0
|
اصطلاح شناسی
|
0
|
0
|
0
|
0
|
0
|
0
|
0
|
0
|
0
|
0
|
0
|
0
|
تعداد/جریمه کل
|
25
|
61
|
22
|
78
|
26
|
96
|
32
|
108
|
26
|
94
|
34
|
128
|
امتیاز
|
87%
|
83%
|
79%
|
76%
|
79%
|
72%
|
برای محاسبه امتیاز کل هر کدام از ماشینهای ترجمه باید تعداد کلمات کل جملات (برای عربی 656 کلمه و برای فارسی 454 کلمه) و میزان نمرۀ منفی کل مورد اشاره در جدولهای بالا را در فرمول بیان شده در مبانی نظری جایگذاری کنیم. امتیازهای موجود در سطر آخر جدولهای بالا از این طریق محاسبه شدند. نمودارهای (1) و (2) امتیاز کل (رنگ نارنجی) و نمرۀ منفی کل (رنگ آبی) ماشینهای ترجمه از عربی به فارسی و برعکس را نمایش میدهند.
نمودار 1. نمرۀ منفی کل (آبی) و امتیاز کل (نارنجی) ماشینهای ترجمه برخط رایگان برای ترجمه از عربی به فارسی
نمودار 2. نمرۀ منفی کل (آبی) و امتیاز کل (نارنجی) ماشینهای ترجمه برخط رایگان برای ترجمه از فارسی به عربی
نشانگذار در عمل اجرای ارزیابی با مواردی مواجه شد که با زیرمجموعۀ DQF-MQM پیشنهادی برای ارزیابی ترجمۀ ماشینی ارائه شده در مبانی نظری، سازگاری نداشت. خطای بلاترجمه اصلاً مشاهده نشده است؛ بنابراین ظاهراً کاربرد چندانی برای ارزیابی ماشینهای ترجمه امروزی ندارند. علاوه بر این، خطای سلاست علائم نگارشی در زیرمجموعۀ پیشنهادی موجود نبود، اما برای نشانگذاری کامل مورد نیاز بود.
نشانگذار در فرآیند نشانگذاری با مشکلات دیگری نیز مواجه شد. گاهی تعیین دقیق طبقهبندی امکانپذیر نبود؛ برای مثال، جملۀ «بسیاری از کردهای ترکیه به استانبول مهاجرت کردهاند» توسط مادرنامتی اینگونه ترجمه شده «هاجر العدید من الأکراد الأتراک إلى اسطنبول» که از طرفی میتوان گفت که «الأکراد الأتراک» یک سوءترجمه از «کردهای ترکیه» است و از طرفی دیگر میتوان گفت که «الأکراد الأتراک» همان «أکراد ترکیا» است که صورت دستوری غلطاندازی به خود گرفته است.
همچنین تصمیمگیری در مورد شدت برخی از خطاها نیز سخت بود. برای مثال اسم خاص «عجلون» در جملۀ عربی شمارۀ 26 در ترجمۀ یاندکس به صورت «اجلون» آمده است؛ تصمیمگیری در مورد اینکه آیا این کلمه توسط خواننده درک خواهد شد و بنابراین شدت خرده داشته باشد، یا اینکه املای این واژه به گونهای تغییر کرده که موجب سردرگمی خواننده میشود و بنابراین شدت عمده داشته باشد، سخت است. این مشکل در حقیقت از مجهول بودن خواننده در این پژوهش نشأت میگیرد؛ اگر درک کافی از نوع مخاطب وجود داشته باشد، شاید تصمیمگیری در چنین مواردی راحتتر باشد.
مشکل دیگری که در تعیین شدت خطاها با آن مواجه شدیم، این بود که ممکن بود یک ماشین ترجمه، یک ترجمۀ نامفهوم از یک جمله ارائه دهد و بنابراین نمرۀ منفی سطح عمده بگیرد؛ در حالی که یک ماشین دیگر تنها بخشی کوچک از آن جمله را اشتباه ترجمه کند و آن هم نمرۀ منفی سطح عمده بگیرد. برای مثال جملۀ شمارۀ 29 عربی «قال إن المحافظة استعدت جیدا لهذه المناسبة» توسط رورسو به «او گفت که بخشدار به این مناسبت به خوبی آماده شده است» ترجمه شده که نامفهوم است و چون خواننده را سردرگم میکند باید نمرۀ منفی سطح عمده بگیرد. علاوه بر این، این جمله توسط مادرنامتی به «او گفت که فرمانداری به خوبی برای این مناسبت آماده شده است» ترجمه شده است که خطای سوءترجمه فقط در کلمۀ «فرمانداری» رخ داده است و چون خواننده نمیتواند به واژۀ صحیح که «استان» است، پی ببرد؛ بنابراین، باید شدت از سطح عمده در نظر گرفته شود. در این صورت هر دو نمرۀ منفی برابری خواهند گرفت، اما واضح است که باید رورسو نمرۀ منفی بیشتری بگیرد، چون اشتباهات بیشتری مرتکب شده است که موجب نامفهوم شدن کل جمله شده است. برای جلوگیری از این مشکل، نشانگذار از سطح شدت وخیم برای ترجمۀ نامفهوم استفاده کرد.
همچنانکه در جدولهای پیشینی مشاهده میشود، تعداد خطاهای اصطلاحشناسی و قرارداد محلی بسیار کم بود. کم بودن تعداد خطاهای اصطلاحشناسی ناشی از کم بودن تعداد اصطلاحات تخصصی در مجموعه آزمایش بود. اما کم بودن تعداد خطاهای قرارداد محلی بیشتر به طبیعت خود این نوع خطا برمیگردد؛ این نوع خطا منحصر است به عدم رعایت قالب محلی در مواردی معدود همچون علائم نگارشی، آدرس، تلفن، تاریخ، واحدهای اندازه گیری و ارز که تنوع یا کاربرد کمی دارند. جالب است که ماشینهای ترجمه مواردی همچون تبدیل قالب تاریخ را به صورت هوشمند انجام میدهند؛ برای مثال، تمامی ماشینهای ترجمه بجز نیوترنس در ترجمۀ جملۀ شمارۀ 5 عربی سال 1979 را به 1357 (اما در یک مورد به 1358) ترجمه کردند.
نکته دیگری که در جدولها و نمودارهای بالا به چشم میخورد این است که عموماً کیفیت ترجمه در جهت فارسی به عربی بالاتر از جهت عربی به فارسی بود. این مورد میتواند به این دلیل باشد که در این پژوهش جملات مجموعۀ آزمایشی فارسی از جملات جملات مجموعۀ آزمایشی عربی سادهتر بودند و لزوماً به این معنا نیست که کیفیت ترجمۀ ماشینی در جهت فارسی به عربی بهتر از جهت عربی به فارسی است.
بحث و نتیجهگیری
در این پژوهش کیفیت ترجمۀ عربی به فارسی و برعکس شش سامانه ترجمۀ ماشینی برخط رایگان با استفاده از مدل DQF-MQM مورد ارزیابی واقع شد. همچنان که در جدولهای (2) و (3) و نمودارهای (1) و (2) دیده میشود، این سامانهها برای ترجمۀ عربی به فارسی به ترتیب کیفیت خروجی بالا به پایین از این قرار هستند: 1- گوگل، 2- بینگ، 3- یاندکس، 4- مادرنامتی، 5- رورسو و 6- نیوترنس و برای ترجمه از فارسی به عربی از این قرار: 1- گوگل، 2- بینگ، 3- یاندکس و مادرنامتی، 4- رورسو و 5- نیوترنس. همچنین میتوان آنها را در سه رده قرار داد که ماشینهای هر رده امتیازهای نزدیک به هم دارند: 1- گوگل و بینگ، 2- یاندکس و مادرنامتی و 3- رورسو و نیوترنس. این نتایج با آنچه در بخش پیشینۀ پژوهش آمد، مبنی بر اینکه گوگل غالباً توانسته بود ترجمه (بین عربی و انگلیسی) بهتری به نسبت سایر ماشینهای ترجمه ارائه دهد، سازگاری دارد.
لازم به ذکر است که این رتبهبندی به معنای برتری مطلق یکی از این ماشینهای ترجمه بر دیگری نیست. برای مثال، نیوترنس رتبه آخر شده است، اما در ترجمۀ جملۀ فارسی شمارۀ 5 بهتر از گوگل عمل کرده است. بنابراین، میتوان گفت که نتایج در بهترین حالت تنها بر یک برتری احتمالی دلالت دارند.
همین برتری احتمالی هم ممکن است، با گذر زمان تغییر کرده و در آینده ماشین ترجمۀ دیگری بر گوگل و بینگ فائق آید. بنابراین، توصیه میشود، چنین آزمایشهایی به صورت دورهای تکرار شود. همچنین توصیه میشود، آزمایشهای دیگر با تفکیک انواع متن صورت پذیرد تا به درک بهتری از ترجمۀ ماشینی عربی به فارسی و برعکس انواع مختلف متون برسیم. همچنین آزمایشهای دیگری با روشهای دیگر بیان شده در بخش مبانی نظری انجام شود یا به جای وارد کردن جمله به جمله که در این پژوهش انجام شد، متون به صورت کامل به ماشین ترجمه وارد شوند.
تعارض منافع
تعارض منافع ندارم.
ORCID
Shahryar Niazi
|
|
https://orcid.org/0000-0002-5157-0009
|
Mahmood Bijankhan
|
|
https://orcid.org/0000-0002-4175-6854
|
Mazyar Pashaei
|
|
https://orcid.org/0000-0002-9633-5715
|
[1]. Holmes, J.
[2]. Snell-Hornby, M.
[3]. Globalization Turn
[4]. Cultural Turn
[5]. Accuracy
[6]. Fluency
[7]. Intelligibility
[8]. Acceptability
[9]. Adequacy
[10]. Fidelity
[11]. تعریف اصطلاح «مجموعه آزمایش» (Test Suite/Set): مجموعهای از متون، جملهها یا عبارات که به یک سامانه ترجمه ماشینی وارد میشود تا خروجی یا محصول آن مورد ارزیابی قرار بگیرد. (Rothwell et al., 2023: xxi)
[12]. Reference Translation-based
[13]. Quality Estimation
[14]. Diagnostic Evaluation Based on Checkpoints
[15]. Quality Assessment
[16]. Error Analysis and categorization
[17]. Information Extraction
[18]. Comprehension Test
[19]. Post-editing
[20]. Judge
[21]. تعریف اصطلاح «نشانه گذاری» (annotation): به فرایند اضافه کردن اطلاعات زبانی به یک پیکره نشان گذاری گفته میشود. برای مثال ممکن است نقشهای دستوری کلمات به پیکره اضافه شود. به فردی که این کار را میکند نشانه گذار (annotator) گفته میشود. (Sin-Wai, 2004: 12)
[22]. Multidimensional Quality Metrics
[23]. Dynamic Quality Framework
[24]. High-level error type
[25]. Granular error type
[26] .Lommel, A., et al.
[27]. TAUS
[28]. Addition
[29]. Omission
[30]. Mistranslation
[31]. Untranslated
[32]. Lommel, A., et al.
[33]. Grammar
[34]. Grammatical Register
[35]. Spelling
[36]. Locale Convention
[37]. Terminology
[38]. Severity
[39]. Critical
[40]. Major
[41]. Minor
[42]. Neutral
[43]. تعریف اصطلاح «سنجه ارزیابی» (evaluation metric): معیار یا اندازهای که برای سنجش و اندازهگیری کیفیت به کار میرود (Rothwell et al., 2023: xiii). تفاوت «سنجه» با مفهوم ساده «اندازه» در این است که سنجه با هدف خاصی اندازهگیری و محاسبه میشود؛ برای مثال، اینکه خانهای 60 متر مربع مساحت دارد صرفاً یک اندازه است، اما اینکه به ازای هر نفر از خانوادهای سه نفره 20 متر مربع مساحت دارد، یک سنجه است که به هدف پی بردن به مناسب بودن یا نبودن این خانه برای این خانواده محاسبه شده است (Lommel & Melby, 2018: 7).
[44]. Comparative Evaluation of Neural Machine Translation Quality in Arabic English Translation
[45]. Diachronic Evaluation of Google Translate, Microsoft Translator and Sakhr in English-Arabic Trasnlation
[46]. Errors and non-errors in English-Arabic machine translation of gender-bound constructs in technical texts
[47]. Evaluating Machine Translations from Arabic into English and Vice Versa
[48]. A Frequency Dictionary of Arabic: Core Vocabulary for Learners (by Buckwalter & Parkinson)
[49]. A Frequency Dictionary of Persian: Core Vocabulary for Learners (by Miller et al.)
[50]. Mode
[51]. Google Translate: https://translate.google.com/
[52]. Microsoft Translator: https://www.bing.com/translator
[53]. Yandex Translate: https://translate.yandex.com/
[54]. Reverso: https://www.reverso.net/text-translation
[55]. ModernMT: https://www.modernmt.com/translate
[56]. NiuTrans: https://translate.niutrans.com/
[57]. Rothwell, A., et al.
[58]. آدرس صفحه دانلود:
https://info.taus.net/dqf-mqf-error-typology-template-download
[59]. تعریف اصطلاح «بخش» (Segment): واحدهای کمینهای که میتوان متن مبدأ را به آن شکست و بخش متناظر با هر کدام را در متن مقصد (ترجمه شده توسط ماشین یا به کمک ماشین) یافت؛ برای مثال جمله، تیتر و محتویات یک خانه از یک جدول. شبیه به مفهوم واحد ترجمه در مطالعات ترجمه است. (Rothwell et al., 2023: xix; Sin-Wai, 2004: 203)
[60]. https://github.com/mazyar1990/MTE-Spreadsheets
[61]. Unintelligible