ارزیابی تطبیقی کیفیت خروجی ماشین‌های ترجمه برخط رایگان بین عربی و فارسی بر اساس مدل DQF-MQM

نیازی, شهریار; بی جن خان, محمود; پاشایی, مازیار

doi:10.22054/rctall.2024.78817.1724

فهرست نشریات

کسب رتبه «ب» برای فصلنامه مطالعات مدیریت خدمات عمومی در ارزیابی سال ۱۴۰۳

ابلاغ رسمی «راهنمای استفاده مسئولانه از هوش مصنوعی در تحقیقات پژوهشی»

کسب رتبه «الف» برای دوفصلنامه کلام تطبیقی شیعه در ارزیابی سال ۱۴۰۳

خط‌مشی جدید برای استفاده از هوش مصنوعی در نشریات دانشگاه علامه‌طباطبائی ابلاغ شد

اخذ رتبه توسط نشریه پژوهش‌های رهبری آموزش از وزارت علوم، تحقیقات و فناوری

اخذ رتبه «الف» توسط نشریه پژوهشنامه معارف قرآنی از وزرات علوم، تحقیقات و فناوری

نشست مشورتی مسئولان مجلات علمی دانشگاه علامه‌طباطبائی

نتایج ارزیابی علمی نشریات دانشگاه علامه طباطبائی در سال ۱۴۰۱; 19عنوان موفق به دریافت رتبه الف شدند.

تعداد نشریات	61
تعداد شماره‌ها	2,203
تعداد مقالات	17,958
تعداد مشاهده مقاله	55,156,945
تعداد دریافت فایل اصل مقاله	28,873,532

ارزیابی تطبیقی کیفیت خروجی ماشین‌های ترجمه برخط رایگان بین عربی و فارسی بر اساس مدل DQF-MQM

پژوهش های ترجمه در زبان و ادبیات عربی

مقاله 3، دوره 14، شماره 30، فروردین 1403، صفحه 71-98 اصل مقاله (837.95 K)

نوع مقاله: مقاله پژوهشی

شناسه دیجیتال (DOI): 10.22054/rctall.2024.78817.1724

نویسندگان

شهریار نیازی¹؛ محمود بی جن خان²؛ مازیار پاشایی^* ³

¹دانشیار، گروه زبان و ادبیات عربی، دانشگاه تهران، تهران، ایران

²استاد، گروه زبان‌شناسی، دانشگاه تهران، تهران، ایران

³دانشجوی دکتری مطالعات ترجمۀ عربی، دانشگاه تهران، تهران، ایران

چکیده

نیاز بشر به اجرای فرآیند ترجمه با بازدهی هر چه بیشتر موجب تلاش وی برای دست ‌یافتن به فناوری‌های پیشرفته ترجمه بوده است. بخش اعظم تلاش‌ها در این میدان صرف رسیدن به ترجمۀ ماشینی یا خودکار (بدون دخالت انسان) شده است که کیفیت ترجمۀ انسانی را ندارد، اما دارای مزیت‌های دیگری مانند سرعت و دسترسی بالا و هزینه پایین است. اوج این مزایا را می‌توان در ماشین‌های ترجمه برخط رایگان دید. بعضی از این ماشین‌ها (یعنی گوگل، بینگ، یاندکس، رورسو، مادرن‎‌ام‌تی و نیوترنس) از ترجمۀ عربی به فارسی و برعکس پشتیبانی می‌کنند. هدف این پژوهش مقایسۀ کیفیت خروجی این ماشین‌های ترجمه با همدیگر و یافتن بهترین گزینه برای ترجمۀ خودکار بین زبان‌های عربی و فارسی است. برای رسیدن به این هدف، ابتدا دو پیکرۀ کوچک عربی و فارسی هر کدام شامل 60 جمله با انواع و موضوع‌های تصادفی از جملات موجود در دو کتاب فرهنگ بسامدی عربی و فارسی انتشارات راتلج انتخاب شد، سپس این جملات تک به تک در ماشین‌های ترجمۀ اشاره شده وارد شد و خروجی دریافت شده با روش ارزیابی انسانی بر اساس مدل تحلیل و طبقه‌بندی خطای DQF-MQM مورد بررسی قرار گرفت. ماشین‌های ترجمه به ترتیب از بیشترین به کمترین کیفیت خروجی از این قرار بودند: گوگل، بینگ، یاندکس، مادرن‌ام‌تی، رورسو، و نیوترنس. این نتیجه مطلق و همیشگی نیست، بلکه آماری و احتمالاتی است؛ ماشین‌های با رتبه پایین‌تر بعضی جملات را بهتر از ماشین‌های با رتبه بالاتر ترجمه می‌کنند.

کلیدواژه‌ها

مطالعات ترجمه؛ فناوری ترجمه؛ ارزیابی ترجمۀ ماشینی؛ گوگل ترنزلیت؛ بینگ ترنزلیتور؛ یاندکس ترنزلیت؛ رورسو؛ مادرن‌ام‌تی؛ نیوترنس

اصل مقاله

. مقدمه

فناوری ترجمه شاخه‌ای مهم از حوزۀ مطالعات ترجمه بوده است. جیمز هلمز[1] در سال 1972 در سومین کنفرانس زبان‌شناسی کاربردی، حوزۀ فناوری ترجمه را به عنوان زیرشاخه‌ای از شاخۀ «کاربردی» از علم میان‌رشته‌ای نوظهور «مطالعات ترجمه» معرفی کرد (Malmkjær, 2013: 32- 31). وی نظریه‌های ترجمه را با توجه به فاعل آن به سه گروه تقسیم می‌کند: نظریه‌های ترجمه توسط انسان، توسط ماشین و توسط هر دو (ترجمۀ انسان به کمک ماشین یا ترجمۀ ماشین به کمک انسان) (Holmes, 1988: 74).

با گذشت زمان و پیشرفت فناوری جایگاه فناوری ترجمه در مطالعات ترجمه اهمیت بیشتری یافت. ماری اسنل- هورنبی[2] فرآیند جهانی‌سازی و پیشرفت چشمگیر فناوری اطلاعات و ارتباطات را عواملی خارجی می‌داند که صنعت‌های زبانی [مانند صنعت ترجمه] را همچون سایر جوانب زندگی مدرن دچار تحولات عمیقی کرد. این دگرگونی که در دهۀ 1990 در حوزۀ مطالعات ترجمه رخ داد «چرخش جهانی‌سازی»[3] خوانده شده است و می‌تواند به اهمیت چرخش قبلی مطالعات ترجمه که در دهۀ 1980 رخ داد؛ یعنی «چرخش فرهنگی»[4]، باشد (Snell-Hornby, 2010: 367- 368).

بخش عظیمی از تلاش‌ها در حوزۀ فناوری ترجمه بر این متمرکز بوده است که ماشین بتواند بدون دخالت انسان عمل ترجمه را انجام دهد. این نوع از ترجمه، ترجمۀ ماشینی نام گرفته است. ترجمۀ ماشینی نخواهد توانست ترجمۀ انسانی حرفه‌ای را در میدان کیفیت شکست دهد، اما از مزیت‌هایی دیگر مانند سرعت بالا، هزینه پایین و دسترسی راحت برخوردار است. متقاضیان همیشه به ترجمه با کیفیت بالای مناسب برای انتشار نیاز ندارند، بلکه گاهی نیاز دارند به درکی کلی از یک متن با زبان بیگانه برسند و ترجیح می‌دهند این کار با سرعت زیاد و هزینۀ کم انجام شود؛ هر چند کیفیت آن پایین باشد. همچنین گاهی نیاز است که متون با زبان بیگانه که به سرعت و با حجم بالا در فضای مجازی در حال تولید شدن هستند، ترجمه شوند. این نوع از تقاضا در بازار ترجمه نیز تنها با مزیت عرضه شده توسط ماشین قابل پاسخگویی است. حتی در صورتی که نیاز به متن ترجمه شده با کیفیت بالا داشته باشیم، باز هم ماشین بلااستفاده نیست و می‌توان از آن برای تهیه سریع و راحت نسخۀ اولیه ترجمه استفاده کرد و آن را برای ویرایش به مترجمین حرفه‌ای سپرد تا آن را به نسخۀ ترجمه با کیفیت مبدل کنند. بنابراین در شرایط ویژۀ عصر اطلاعات، ترجمۀ ماشینی در کنار ترجمۀ انسانی نقشی مهم و حیاتی ایفا می‌کند (Hutchins, 2003: 5- 7 & 22- 24).

اوج دسترسی راحت و هزینه پایین برای خدمت ترجمه را می‌توان در ماشین‌های ترجمه برخط رایگان دید. آن‌ها از طریق هر سامانۀ دارای مرورگر و متصل به اینترنت به صورت رایگان قابل دسترسی و استفاده هستند؛ برخی نیز دارای برنامۀ کاربردی خاص تلفن هوشمند هستند که قابلیت‌های اضافه همچون ترجمۀ سیار برون‌خط (بدون اتصال به اینترنت) را فراهم می‌کنند. بعضی از این سامانه‌ها دارای امکانات مهم دیگری نیز هستند، از جمله: ترجمۀ صوت، تصویر و دستخط، و پخش صوتی متن مبدأ و مقصد ترجمه. بعضی از سامانه‌های ترجمۀ ماشینی برخط رایگان از زبان‌های عربی و فارسی پشتیبانی می‌کنند و می‌توانند متون را از عربی به فارسی و برعکس ترجمه کنند (رجوع شود به جدول (1)).

ارزیابی پدیدۀ ترجمۀ ماشینی به طور عام شامل مباحث بسیاری می‌شود؛ می‌توان با روش‌های مختلفی جنبه‌های مختلفی از آن را در پاسخ به نیازهای مختلف افراد دخیل (از جمله: کاربر نهایی، توسعه‌دهنده و سرمایه‌گذار) مورد بررسی قرار داد (White, 2003: 222).

تمرکز ما در این مقاله بر ارزیابی خروجی یا محصول ترجمۀ ماشینی خواهد بود. از آنجا که هدف از ماشین ترجمه، تولید همین محصول است، ارزیابی آن مورد توجه خاص تمامی افراد دخیل است و به عنوان یک معیار اصلی ارزیابی ترجمۀ ماشینی به طور عام شناخته می‌شود (Kit & Wong, 2023: 225).

این پژوهش قصد دارد کیفیت محصول ترجمۀ سامانه‌های ترجمۀ ماشینی برخط رایگان از عربی به فارسی و برعکس را مورد ارزیابی تطبیقی قرار دهد. سؤالات اصلی پژوهش عبارتند از:

- محصول ترجمۀ عربی به فارسی کدام ماشین ترجمه برخط رایگان کیفیت بهتری دارد؟

- محصول ترجمۀ فارسی به عربی کدام ماشین ترجمه برخط رایگان کیفیت بهتری دارد؟

مبانی نظری

1-2. تعریف کیفیت محصول ترجمۀ ماشینی

یک تعریف موجز کیفیت متن ترجمه که جامع نظریات ترجمه از جمله اسکوپوس است و به طور گسترده در زمینۀ ترجمۀ ماشینی نیز استفاده می‌شود از این قرار است: «صحت^[5] و سلاست[6] به مقتضای مخاطب و هدف و مطابقت با سایر مشخصات توافق شده بین درخواست‌کننده و ارائه‌دهندۀ خدمت ترجمه با در نظر گرفتن نیازهای کاربر نهایی». بنابراین کیفیت ترجمه سه معیار اصلی دارد: 1- سلاست، فهم‌پذیری[7] یا پذیرفتگی^[8] متن به زبان مقصد، 2- صحت، بسندگی^[9] یا وفاداری^[10] به معنای تعادل معناشناسی و کاربردشناسی میان متن مبدأ و مقصد و 3- مطابقت با مشخصات خاص درخواست‌دهنده؛ در صورت وجود (Chatzikoumi, 2020: 2).

2-2. روش‌های ارزیابی کیفیت ترجمۀ ماشینی

ارزیابی کیفیت ترجمۀ ماشینی معمولاً طی دو مرحلۀ اساسی انجام می‌شود؛ ابتدا واحدهایی زبانی از زبان مبدأ انتخاب شده (مجموعۀ آزمایش[11]) و وارد ترجمۀ ماشینی می‎شوند، سپس خروجی سامانه به زبان مقصد دریافت شده و مورد بررسی و قضاوت قرار می‌گیرد. ۀدوم از این فرآیند می‌تواند به صورت دستی و مستقیماً توسط انسان انجام شود، یا به صورت اتوماتیک توسط ماشین انجام شود. بر این اساس ارزیابی ترجمه به دو نوع انسانی و خودکار (یا ماشینی) تقسیم می‌شود (Chatzikoumi, 2020: 3 and Kit & Wong, 2023: 227).

ارزیابی‌های خودکار و انسانی خود به انواع روش‌های دیگری تقسیم می‌شوند. ارزیابی ماشینی معمولاً به سه نوع تقسیم می‌شود:

1- مبتنی بر ترجمه مرجع[12]: در این روش، میزان شباهت یا نزدیکی متون ترجمه شده توسط ماشین با ترجمه‌هایی انجام شده توسط مترجم‎های انسانی حرفه‌ای که ترجمۀ مرجع خوانده می‌شوند، سنجیده می‌شود.

2- تخمین کیفیت[13]

3- ارزیابی تشخیصی مبتنی بر نقاط بازرسی[14]

ارزیابی انسانی نیز معمولاً به شش نوع تقسیم می‌شود:

1- برآورد کیفیت[15]: در این روش انسان به صورت فی‌البداهه نظر خود را دربارۀ یک ترجمه بیان می‌کند؛ با تعیین سطح (برای مثال خوب، بد یا متوسط) یا نمره‌دهی (برای مثال از 0 تا 100).

2- رتبه‌بندی: چینش چندین ترجمه به ترتیب کیفیت از بهترین تا بدترین

3- تحلیل و طبقه‌بندی خطا[16]: بر خلاف دو روش قبل که بر قضاوت مستقیم ارزیاب متکی هستند و ممکن است تنها منعکس‌کننده نظرهایی شخصی باشند در این روش ارزیاب سعی می‌کند متن را تحلیل کند و انواع خطای رخ داده در ترجمه را شناسایی و سطح‌بندی کند. سپس نمرۀ منفی تعلق گرفته بر این اساس محاسبه می‌شود؛ بنابراین، قابل اعتمادتر از سطح/ نمره تعلق گرفته در روش‌های قبل است.

4- استخراج اطلاعات[17]

5- آزمون درک مطلب[18]

6- پس‌ویرایش[19] (Chatzikoumi, 2020: 4- 9 and Kit & Wong, 2023: 227- 237).

یک عامل بسیار مهم در فرآیند ارزیابی انسانی، قضاوت‌کنندگان^[20] هستند که به آن‌ها نشان‌گذار[21] نیز گفته می‌شود که باید دارای ویژگی‌های خاصی باشند تا قضاوتشان قابل اعتماد باشد. بسته به نوع ارزیابی، قضاوت‌کنندگان می‌توانند تک زبانه یا دوزبانه باشند؛ یعنی افراد بومی یا شبه بومی زبان مقصد یا هر دو زبان مبدأ و مقصد. آموزش فرآیند به قضاوت‌کنندگان، دستورالعمل ارزشیابی به همراه مثال و همچنین آشنایی قضاوت‌کننده با حوزۀ موضوع متن از پیش‌نیازهای پروژه ارزیابی است. توصیه می‌شود که زبان مقصد زبان مادری قضاوت‌کننده باشد (Chatzikoumi, 2020: 10).

2-3. مدل DQF-MQM برای ارزیابی ترجمۀ ماشینی

در اینجا یکی از مدل‌های ارزیابی انسانی مبتنی بر تحلیل و طبقه‌بندی خطا به نام DQF-MQM که در این پژوهش از آن استفاده خواهد شد، توضیح داده می‌شود. این طبقه‌بندی تلفیقی است از دو مدل MQM [22] و DQF^[23] که توسط دو گروه اروپایی متخصص بر اساس تلاش‌های گذشته در حوزۀ مطالعات و صنعت ترجمه طراحی شده‌اند. این مدل در سال 2014 پیشنهاد شد و در حال تبدیل شدن به یک استاندارد جهانی برای ارزیابی کیفیت ترجمه است (Lommel, 2018: 109- 110).

طبقه‌بندی DQF-MQM دارای هفت نوع خطای سطح بالا^[24] است و برای هر کدام از این نوع خطاها انواعی از خطاهای ریزدانه‌ای^[25] تعریف می‌کند. ذکر تمامی این موارد از حوصله این پژوهش خارج است و در اینجا تنها به بیان مواردی که برای طبقه‌بندی خطای ترجمۀ ماشینی مناسب هستند، اکتفا می‌شود (لومل و دیگران[26]، 2015: 6؛ تاوس[27]، بی‌تا). این موارد از این قرار هستند:

2-3-1. خطای صحت

* اضافه[28]: متن مقصد شامل متنی است که در متن مبدأ موجود نیست.

* حذف[29]: محتوایی در متن مقصد از قلم افتاده است که در متن مبدأ وجود دارد.

* سوءترجمه[30]: محتوای متن مقصد محتوای متن مبدأ را به درستی بازتاب نمی‌دهد.

* بلاترجمه[31]: محتوایی که باید ترجم[32]ه می‌شد بدون ترجمه شدن و به زبان مبدأ به متن مقصد منتقل شده است.

2-3-2. خطای سلاست

اگر متن کاملاً غیر قابل فهم باشد، ما آن را به عنوان خطایی سطح بالا در سلاست در نظر می‌گیریم و اگر تا حدی قابل فهم باشد، اما دارای خطاهایی جزئی باشد یکی از انواع خطای ریزدانه ذیل را برای آن در نظر می‌گیریم:

* دستور زبان[33]: خطاهای مربوط به دستور زبان یا نحو.

* سیاق دستوری[34]: متن مقصد از سیاق دستوری اشتباه استفاده می‌کند؛ وقتی انتظار می‌رود از حالت‌های غیررسمی فعل یا ضمیر استفاده شود از حالت‌های رسمی استفاده شود؛ برای مثال انتظار رود از ضمیر محاوره‌ای «اونا» استفاده شود، اما از حالت رسمی آن؛ یعنی «ایشان» استفاده شود.

* املاء[35]: مسائل مربوط به غلط‌های املایی یا تایپی در کلمات.

2-3-3. خطای قرارداد محلی^[36]

متن به قراردادهای ظاهری ویژه محل پایبند نیست و الزامات ارائه محتوا در منطقه زبان مقصد را نقض می‌کند. برای مثال، در یک متن فارسی به جای استفاده از گیومه («») از علامت نقل قول غربی (“”) استفاده شود.

2-3-4. خطای اصطلاح شناسی^[37]

یک اصطلاح (واژۀ مختص به حوزه‌ای خاص) با اصطلاح دیگری که دور از انتظار است، ترجمه شود.

برای ارزیابی یک سامانه معمولاً شمردن خطاها کافی نیست، بلکه ارزیابان باید بدانند هر کدام از این خطاها چقدر شدت^[38] دارند. شدت به طبیعت خطای یافته شده فی نفسه و اثر آن بر میزان مفید بودن ترجمه بستگی دارد. هر چه خطا شدیدتر باشد احتمال و شدت اثر منفی آن بر مخاطب بیشتر می‌شود. (Lommel, 2018: 120) مدل DQF-MQM دارای چهار نوع شدت خطا به این شرح (تاوس، بی‌تا) است:

* وخیم[39]: خطاهایی که ممکن است حامل پیامدهای ناگوار بهداشتی، ایمنی، حقوقی، یا مالی باشند، از دستورالعمل‌های استفاده ژئوپلتیکی تخطی کنند، به اعتبار شرکت آسیب بزنند، باعث اختلال در عملکرد نرم افزار، محصول، یا خدمات شوند، توهین آمیز تلقی شوند، یا ...

* عمده[40]: خطاهایی که ممکن است باعث سردرگمی یا گمراهی مخاطب شوند، یا مانع استفاده صحیح محصول/ خدمت توسط کاربر شوند؛ چون تغییر قابل توجهی در معنا رخ داده است یا خطاها در بخشی قابل مشاهده یا مهم از محتوا رخ داده‌اند.

* خرده[41]: خطاهایی که باعث از دست رفتن معنا و سردرگمی یا گمراهی مخاطب نمی‌شوند، اما مورد توجه واقع می‌شوند، از کیفیت اسلوبی، سلاست و وضوح یا جذابیت متن می‌کاهند.

* خنثی[42]: برای بایگانی اطلاعات اضافی، مسائل یا تغییراتی که باید انجام شوند، اما خطا شمرده نمی‌شوند؛ برای مثال آن‌ها صرفاً منعکس‌کننده انتخاب یا سبک ترجیحی بازبین هستند، اشتباهاتی هستند که تکرار شده‌اند، یا تغییراتی در دستوالعمل یا واژه‌نامه هستند که هنوز پیاده‌سازی نشده‌اند و یا تغییری است که باید انجام شود، اما مترجم از آن بی‌خبر بوده است.

می‌توان از این سطوح شدت برای دادن نمره‌هایی منفی به هر کدام از خطاهای موجود در مجموعه‌ای از ترجمه‌ها استفاده کرد و از آن‌ها برای محاسبه سنجه‌ای برای ارزیابی[43] کلی کیفیت مجموعه بهره برد. به ازای هر سطح شدت جریمه یا نمرۀ منفی خاصی در نظر گرفته می‌شود؛ برای مثال برای هر خطای سطح وخیم 10 نمرۀ منفی، برای سطح عمده 5 نمرۀ منفی، برای سطح خرده 1 نمرۀ منفی و برای سطح خنثی 0 نمرۀ منفی در نظر گرفته می‌شود)، سپس این مقادیر با هم جمع می‌شوند تا مقدار نمرۀ منفی کل به دست بیاید. سپس می‌توان با این فرمول (Lommel, 2018: 121- 122) مقدار امتیاز کل کیفیت ترجمه‌های مورد نظر را به دست آورد:

پیشینۀ پژوهش

چند مقاله به ترجمۀ ماشینی بین عربی و فارسی پرداخته‌اند. نظری (1393) در مقالۀ «گونه‌شناسی چالش‌ها و جایگاه ترجمۀ ماشینی از عربی به فارسی» چالش‌های پیش رو در ترجمۀ ماشینی از عربی به فارسی از جمله مسائل ابهام نوشتاری، واژگانی و اعراب را به تفصیل بیان می‌کند. وی همچنین نمونه‌ای از ترجمۀ انجام شده توسط ماشین‌های ترجمه برخط رایگان را ارائه می‌دهد که نشان می‌دهد هنوز راه درازی تا رسیدن به ترجمۀ ماشینی عربی به فارسی قابل قبول پیش رو داریم (نظری، 1393: 40 و 54).

بشار (2021) در مقالۀ «إشکالیات الترجمة الآلیة بین العربیة والفارسیة» به توضیحاتی در مورد ابهام‌های واژگانی مشکل‌آفرین برای ترجمه بین عربی و فارسی و همچنین به بررسی ترجمۀ متونی از انواع مختلف با مترجم گوگل می‌پردازد و نتیجه می‌گیرد که هنوز به کیفیت مطلوب نرسیده است. اگرچه برای انواعی از متون (فنی و غیر ادبی) بهتر از انواعی دیگر (شامل امثال و کنایات و اصطلاح‌ها) عمل می‌کند (بشار، 2021: 192-193).

عبدالعباس (2021) در مقالۀ «واکاوی ترجمۀ ماشینی تارنماهای خبری فارسی به عربی» ترجمۀ ماشینی برخی متون خبری را از فارسی به عربی مورد ارزیابی قرار می‌دهد و انواع اشتباهات موجود در آن را گزارش می‌دهد (عبدالعباس، 2021: 514 و 534)

چندین پژوهش علمی با موضوع ارزیابی تطبیقی ترجمۀ ماشینی به جفت‌زبان‌های عربی- انگلیسی یا فارسی- انگلیسی پرداخته‌اند، اما هنوز هیچ پژوهشی در این حوزه برای جفت زبان عربی- فارسی منتشر نشده است. این پژوهش‌ها عموماً ابتدا یک مجموعه آزمایش انتخاب کرده‌اند، سپس ترجمۀ آن را توسط چند ماشین ترجمه انجام داده و خروجی را با استفاده از یک یا چند یک از روش‌های خاص ارزیابی ترجمۀ ماشینی مورد مطالعه قرار داده‌اند. در ادامه خلاصه‎‌ای از جدیدترین مطالعات این حوزه آمده است.

بن میلاد (2022) در پژوهشی با عنوان «ارزیابی تطبیقی کیفیت ترجمه ماشینی عصبی در ترجمه انگلیسی عربی»[44] متونی عربی و متونی انگلیسی هر کدام حدود 100 جمله را از یک پیکره موازی متون خبری انتخاب کرد، و آن‌ها را توسط ماشین‌های ترجمۀ رایگان و غیررایگان از جمله گوکل، بینگ و یاندکس به زبان مقابل ترجمه کرد. وی متون به دست آمده را با دو روش، ارزیابی انسانی برآورد کیفیت و ارزیابی خودکار با دو مدل مختلف، مورد بررسی قرار داد. ارزیابی انسانی گوگل را به برتری شناخت، اما مدل‌های ارزیابی خودکار مختلف نتایج متفاوتی به همراه داشت و بر برتری هیچ‌کدام از آن‌ها اتفاق نداشت (بن میلاد، 2022: 142).

المحاسیس (2020) در رسالۀ دکتری خود با عنوان «ارزیابی درزمانی گوگل ترنزلیت، مترجم مایکروسافت و صخر در ترجمه انگلیسی به عربی»[45] پیکره‌ای حدوداً 4500 واژه‌ای از انواع مختلف متون عربی و انگلیسی می‌سازد و ترجمۀ آن به انگلیسی و عربی توسط سامانه‌هایی شامل گوگل و بینگ را به دو روش انسانی برآورد کیفیت و تحلیل خطا مورد ارزیابی قرار داد، و به این نتیجه رسید که گوگل ترجمۀ بهتری ارائه می‌دهد (المحاسیس، 2020: 3).

ابوعیاش (2017) در مقاله‌ای با عنوان «خطاها و عدم خطاها در ترجمه ماشینی انگلیسی به عربی ساختارهای جنسیتی در متون فنی»[46] چند متن فنی انگلیسی با حدود 400 واژه را به چند ماشین‌ ترجمه شامل گوگل و بینگ داد و ترجمۀ عربی خروجی را به روش ارزیابی انسانی مبتنی بر نقاط بازرسی (تطابق جنس فعل- فاعل، صفت- موصوف، و ضمیر- مرجع) مورد مطالعه قرار داد و به این نتیجه رسید که گوگل و بینگ تعداد خطای برابری داشتند (ابوعیاش، 2017: 73، 79).

الشلبی و دیگران (2017) در پژوهشی با عنوان «ارزیابی ترجمه ماشینی از عربی به انگلیسی و بالعکس»[47] پیکرۀ موازی عربی- انگلیسی شامل 60 جمله را از اینترنت جمع‌آوری کردند، سپس ترجمۀ هر جمله را به زبان دیگر توسط ماشین‌های ترجمۀ گوگل، بینگ، بابیلون و سیسترن مورد ارزیابی خودکار قرار دادند و به این نتیجه رسیدند که گوگل ترجمۀ عربی به انگلیسی و برعکس بهتری ارائه می‌دهد (الشلبی و دیگران، 2017: 1).

روش پژوهش

اولین گام برای اجرای ارزیابی ترجمۀ ماشینی، انتخاب مجموعه آزمایش است. همچنان که در سؤالات پژوهش منعکس شده است، این پژوهش سعی دارد به مقایسه کیفیت خروجی ماشین‌های ترجمۀ عربی به فارسی و برعکس بپردازد و به نوع خاصی از متون این دو زبان محدود نباشد. برای رسیدن به این هدف از جملات موجود در دو کتاب فرهنگ بسامدی عربی^[48] و فارسی^[49] انتشارات راتلج استفاده شد؛ چون این جملات از پیکره‌هایی با انواع مختلف متون نوشتاری و صوتی انتخاب شده‌اند و همچنانکه از عنوان کتاب‌ها نیز برمی‌آید سعی شده طوری انتخاب شوند که نمایندۀ زبان‌های عربی و فارسی باشند و محدود به نوع خاصی از متون نباشند (Miller, et al., 2018: 1- 2 and Buckwalter & Parkinson, 2010: 3- 4). 60 جملۀ اول از هر کدام از این دو کتاب به عنوان مجموعه آزمایش برای هر کدام از دو جهت ترجمۀ عربی به فارسی و برعکس انتخاب شدند. این جملات به حالت‌های[50] مختلف نوشتاری و گفتاری، انواع مختلف خبری، داستانی، علمی و... و موضوعات مختلف سیاسی، دینی، تاریخی، جغرافیایی و... هستند.

گام دوم انتخاب ماشین‌های ترجمۀ مورد آزمایش است. در اینجا همانطور که در مقدمه اشاره شد، سامانه‎‌های برخط رایگان پشتیبانی‌کننده از عربی و فارسی انتخاب شدند. با جست‌وجو در اینترنت شش سامانه با این مشخصات به دست آمدند: گوگل ترنزلیت^[51]، بینگ ترنزلیتور^[52]، یاندکس ترنزلیت^[53]، رورسو^[54]، مادرن‌ام‌تی^[55]، و نیوترنس^[56]. در جدول (1) معرفی اجمالی این سامانه‌ها و قابلیت‌های ادعایی‌شان آمده است.

جدول 1. معرفی اجمالی مشخصات و قابلیت‌های ادعایی ترجمه‌های ماشینی برخط رایگان

نام ماشین ترجمه	گوگل	بینگ	یاندکس	رورسو	مادرن‌ام‌تی	نیوترنس
کشور توسعه‌دهنده	آمریکا	آمریکا	روسیه	فرانسه	ایتالیا	چین
تعداد زبان پشتیبانی شده	133	88	100	26	200	450+
حداکثر تعداد نویسه	5000	1000	10000	2000	5000	5000
ترجمه صوت	ü	ü	ü	û	û	û
پخش صوت	ü	ü	ü	ü	û	û
ترجمه تصویر	ü	û	ü	û	û	û
ترجمه سند	ü	û	ü	ü	û	û
ترجمه وبسایت	ü	û	ü	ü	û	û
ترجمه دستخط	ü	ü	ü	û	û	û
ترجمه برونخط (آفلاین)	ü	ü	ü	û	û	û

گام سوم انتخاب روشی برای ارزیابی خروجی ترجمۀ ماشینی است. در این پژوهش از ارزیابی انسانی استفاده خواهد شد که بر روش‌های ماشینی برتری کلی دارد (Kit & Wong, 2023: 227). روش‌های ارزیابی خودکار مبتنی بر ترجمه مرجع مخصوصاً برای زبان‌هایی مثل عربی و فارسی که از نظر صرفی غنی هستند یا از نظر منابع پیکره‌ای کمبود دارند، مناسب نیست (Beseiso, M., et al., 2022: 189).

از میان روش‌های انسانی روش مبتنی بر تحلیل و طبقه‌بندی خطا استفاده خواهد شد که بیش از همه از جانب‌گیری و نظر شخصی که از اصالت علمی پژوهش می‌کاهد به دور هستند. مدل‌های بسیاری برای این نوع از ارزیابی وجود دارد که در اینجا طبقه‌بندی موسوم به DQF-MQM که یک مورد به روز و استاندارد است (راتول و دیگران[57]، 2023: 107) اختیار شده است.

گام چهارم در ارزیابی انسانی انتخاب نشان‌گذار(ان) است. در اینجا نویسندۀ مسئول این مقاله خود نقش نشان‌گذار را نیز بازی کرده است. زبان فارسی زبان اصلی پژوهشگر است و به زبان‌های عربی و انگلیسی نیز تسلط نسبی دارد. ترجمۀ انگلیسی جملات مجموعۀ آزمایش در کتاب‌های مورد اشاره موجود هستند و می‌توانند به نحوی همچون ترجمۀ مرجع عمل کنند. بنابراین، به نظر می‌رسد پژوهشگر شایستگی کافی برای ایفای نقش نشان‌گذاری این پیکره را دارا باشد.

گام پنجم انتخاب ابزاری برای تسهیل اجرای فرآیند ارزیابی است. در اینجا از قالب اکسل مخصوص مدل DQF-MQM، موجود روی سایت رسمی شرکت ابداع کننده آن، استفاده می‌شود.[58] این قالب اکسل دارای هشت زبانه است؛ زبانۀ اول عنوان را دربر دارد. زبانۀ دوم مقدمه‌ای است که نحوۀ استفاده از قالب را توضیح داده است. زبانۀ سوم جدولی است که مشخصات کلی متن مبدأ همچون تعداد کلمات در آن وارد می‌شود. زبانۀ چهارم جدولی است که ارزیاب متن مبدأ را بخش به بخش[59] در آن وارد می‌کند و خطا(های) موجود در هر بخش را با انتخاب گزینه مربوطه مشخص می‌کند. زبانۀ پنجم نمرۀ منفی و امتیاز ترجمه را به صورت خودکار محاسبه کرده و نمایش می‌دهد. زبانه‌های بعدی به توضیح سطوح و شدت‌های مختلف خطاها پرداخته‌اند که در بخش ادبیات پژوهش آمد (TAUS, Undated).

گام ششم اجرای عملی فرآیند ارزیابی است. جملات مجموعۀ آزمایش تک تک وارد ماشین‌های ترجمه شدند و خروجی آن‌ها دریافت شد. هر کدام از این جملات به عنوان یک بخش محسوب می‌شوند که باید در خانه‌های مربوطه در قالب اکسل وارد شوند. این جملات وارد فایل اکسل شده و خطاها در خانه‌های مربوطه تعیین شدند. طبقه‌بندی خطای موجود در این قالب دارای شاخه‌ها و زیرشاخه‌های بسیاری است که همگی برای ارزیابی ترجمۀ ماشینی مناسب نیستند؛ نشان‌گذار خود را محدود می‌کند به زیر مجموعه‌ای از این طبقه‌بندی که برای ارزیابی ترجمۀ ماشینی توصیه شده و در بخش سوم مبانی نظری شرح آن آمد.

یافته‌ها

در این بخش گزارشی از داده‌های به دست آمده از فرآیند تحلیل و طبقه‌بندی خطای انجام شده، ارائه می‌شود. داده‌های مربوط به هر کدام از ماشین‌های ترجمه برای هر کدام از دو جهت عربی به فارسی و فارسی به عربی در قالب‌های اکسل جداگانه‌ای قرار دارد که همگی از طریق اینترنت قابل دسترسی است^[60]. حجم این داده‎‌ها بیش از این است که در این مقابله قابل گنجاندن باشد. در ادامه توضیحات و مثال‌هایی دربارۀ انواع و شدت‌های مختلف خطاهای مشاهده شده در ترجمه‌ها آورده می‌شود:

* گوگل جملۀ شمارۀ 28 عربی «اللی بیدخن وما بیعمل ریاضة نهائیا بیتعب بربع ساعة» را به «هر کس سیگار می‌کشد و اصلاً ورزش نمی کند در یک ربع خسته می‌شود» ترجمه کرده است که کلمۀ «اصلًا» در آن اضافه است؛ بنابراین به عنوان خطای صحت از نوع اضافه محسوب شد. با توجه به اینکه این خطا تغییر چندانی در معنا حاصل نمی‌کند، خطایی از شدت خرده دانسته شد.

* رورسو جملۀ شمارۀ 27 فارسی «افراد معمولی هم میتوانند برند.» را به «یمکن للناس العادیین أیضًا» ترجمه کرده که معادل کلمۀ «برند» در آن وجود ندارد؛ بنابراین، خطای صحت از نوع حذف در آن رخ داده است. با توجه به اینکه این حذف موجب سردرگمی خواننده می‌شود، خطایی از شدت عمده رخ داده است.

* نیوترنس جملۀ شمارۀ 36 فارسی «من هم بهائی هستم.» را به «أنا أیضا أحمق.» ترجمه کرده است که خطای صحت از نوع سوءترجمه رخ داده است، و با توجه به اینکه ممکن است، توهین‌آمیز تلقی شود، سطح شدت خطا وخیم تشخیص داده شد.

* یاندکس جملۀ شمارۀ 7 فارسی «چند روز در هفته ورزش میکنی؟» را به «کم یوما فی الأسبوع هل ممارسة؟» ترجمه کرده که نا مفهوم است؛ بنابراین، خطای از نوع سلاست رخ داده است. این نوع خطا در طبقه‌بندی MQM با اصطلاح نامفهوم^[61] شناخته می‌شود که در DQF-MQM معادلی ندارد؛ بنابراین، در قالب اکسل تنها با خطای سطح بالای سلاست مشخص شده است و نوع آن تعیین نشده است (Lommel, et al., 2015: 16 and TAUS, Undated)).

* مادرن‌ام‌تی جمله اخیر را به «کم عدد الأیام فی الأسبوع التی تمارس فیها الریاضة؟» که بهتر بود به جمله کوتاه‌تر «کم یوما فی الأسبوع تمارس الریاضة؟» ترجمه می‌شد، ترجمه کرده است؛ بنابراین، می‌توان آن را خطای سلاست از نوع دستوری دانست. با توجه به اینکه امکان دارد این مورد اصلاً خطا محسوب نشود از شدت خنثی شناسایی شده است.

* نیوترنس جملۀ شمارۀ 1 عربی «أمضى البائع حیاته فی البحث عن الألماس» را به «اون فروشنده تمام عمرش رو به دنبال الماس گذاشته بود» ترجمه کرد. کلمات «اون» و «رو» در حالت گفتاری یا عامیانه هستند و با حالت نوشتاری یا رسمی متن مبدأ هماهنگی ندارند؛ بنابراین، خطای سلاست از نوع سیاق دستوری رخ داده است.

* نیوترنس جملۀ شمارۀ 23 فارسی «رسید به سیصد تومن.» را به «وصل إلى ثلاثمائة تومین» ترجمه کرد که در کلمۀ «تومین» خطای سلاست از نوع املائی دارد.

* یاندکس جملۀ شمارۀ 7 عربی «سقط الحاج محمود على الأرض من شدة وقع الخبر على نفسه» را به جمله‌ای فاقد نقطه ترجمه کرد؛ بنابراین، خطای سلاست از نوع علائم نگارشی رخ داد. این نوع از خطا در زیرمجموعۀ پیشنهاد شده در مبانی نظری نیامده بود، اما نشان‌گذار در عمل متوجه شد که برای ثبت کامل خطاها به آن نیاز دارد.

* رورسو جملۀ شمارۀ 8 عربی «هل هذا یعنی أنکم ستدعمون موقف سوریا؟» را به «آیا این به این معنی است که شما از موضع سوریه حمایت می‌کنید؟» ترجمه کرده که در آن از علامت سؤال لاتین استفاده شده است؛ بنابراین، خطای قرارداد محلی رخ داده است.

* رورسو جملۀ شمارۀ 18 عربی «عین فی قسم الهیستولوجی بدلا من الجراحة العامة التی کان یحلم بها» را به «او به جای جراحی عمومی که در خواب دید، به سمت دپارتمان هیدرولوژی منصوب شد» ترجمه کرده که در آن اصطلاح «الهیستولوجی» اشتباهاً به «هیدرولوژی» ترجمه شده است؛ بنابراین ،خطای اصطلاح‌شناسی رخ داده است.

در زبانۀ پنجم هر کدام از فایل‌های اکسل مربوط به هر یک از ماشین‌های ترجمه برای هر یک از دو جهت ترجمه از عربی به فارسی و برعکس، تعداد انواع خطاها و امتیاز منفی آن‌ها محاسبه و نمایش داده شده است که در دو جدول (2) و (3) به صورت خلاصه ارائه شده‌اند

جدول 2. تعداد و نمرۀ منفی برای هر نوع خطا برای ترجمه از عربی به فارسی

نام ماشین ترجمه	گوگل		بینگ		یاندکس		رورسو		مادرن‌ام‌تی		نیوترنس
خطای صحت	31	99	29	81	27	75	33	122	29	93	36	129
خطای سلاست	7	7	17	30	18	52	11	74	9	38	18	84
قرارداد محلی	0	0	0	0	1	0	4	0	0	0	0	0
اصطلاح شناسی	0	0	0	0	0	0	0	0	0	0	1	1
تعداد/جریمه کل	38	106	46	111	46	127	48	196	38	131	55	214
امتیاز	84%		83%		81%		70%		80%		67%

جدول 3. تعداد و نمرۀ منفی برای هر نوع خطا برای ترجمه از فارسی به عربی

نام ماشین ترجمه	گوگل		بینگ		یاندکس		رورسو		مادرن‌ام‌تی		نیوترنس
خطای صحت	24	60	21	73	22	90	29	101	24	84	26	95
خطای سلاست	1	1	1	5	2	6	3	7	2	10	8	33
قرارداد محلی	0	0	0	0	2	0	0	0	0	0	0	0
اصطلاح شناسی	0	0	0	0	0	0	0	0	0	0	0	0
تعداد/جریمه کل	25	61	22	78	26	96	32	108	26	94	34	128
امتیاز	87%		83%		79%		76%		79%		72%

برای محاسبه امتیاز کل هر کدام از ماشین‌های ترجمه باید تعداد کلمات کل جملات (برای عربی 656 کلمه و برای فارسی 454 کلمه) و میزان نمرۀ منفی کل مورد اشاره در جدول‌های بالا را در فرمول بیان شده در مبانی نظری جایگذاری کنیم. امتیازهای موجود در سطر آخر جدول‌های بالا از این طریق محاسبه شدند. نمودارهای (1) و (2) امتیاز کل (رنگ نارنجی) و نمرۀ منفی کل (رنگ آبی) ماشین‌های ترجمه از عربی به فارسی و برعکس را نمایش می‌دهند.

نمودار 1. نمرۀ منفی کل (آبی) و امتیاز کل (نارنجی) ماشین‌های ترجمه برخط رایگان برای ترجمه از عربی به فارسی

نمودار 2. نمرۀ منفی کل (آبی) و امتیاز کل (نارنجی) ماشین‌های ترجمه برخط رایگان برای ترجمه از فارسی به عربی

نشان‌گذار در عمل اجرای ارزیابی با مواردی مواجه شد که با زیرمجموعۀ DQF-MQM پیشنهادی برای ارزیابی ترجمۀ ماشینی ارائه شده در مبانی نظری، سازگاری نداشت. خطای بلاترجمه اصلاً مشاهده نشده است؛ بنابراین ظاهراً کاربرد چندانی برای ارزیابی ماشین‌های ترجمه امروزی ندارند. علاوه بر این، خطای سلاست علائم نگارشی در زیرمجموعۀ پیشنهادی موجود نبود، اما برای نشان‌گذاری کامل مورد نیاز بود.

نشان‌گذار در فرآیند نشان‌گذاری با مشکلات دیگری نیز مواجه شد. گاهی تعیین دقیق طبقه‌بندی امکان‌پذیر نبود؛ برای مثال، جملۀ «بسیاری از کردهای ترکیه به استانبول مهاجرت کرده‌اند» توسط مادرن‌ام‌تی این‌گونه ترجمه شده «هاجر العدید من الأکراد الأتراک إلى اسطنبول» که از طرفی می‌توان گفت که «الأکراد الأتراک» یک سوءترجمه از «کردهای ترکیه» است و از طرفی دیگر می‌توان گفت که «الأکراد الأتراک» همان «أکراد ترکیا» است که صورت دستوری غلط‌اندازی به خود گرفته است.

همچنین تصمیم‌گیری در مورد شدت برخی از خطاها نیز سخت بود. برای مثال اسم خاص «عجلون» در جملۀ عربی شمارۀ 26 در ترجمۀ یاندکس به صورت «اجلون» آمده است؛ تصمیم‌گیری در مورد اینکه آیا این کلمه توسط خواننده درک خواهد شد و بنابراین شدت خرده داشته باشد، یا اینکه املای این واژه به گونه‌ای تغییر کرده که موجب سردرگمی خواننده می‌شود و بنابراین شدت عمده داشته باشد، سخت است. این مشکل در حقیقت از مجهول بودن خواننده در این پژوهش نشأت می‌گیرد؛ اگر درک کافی از نوع مخاطب وجود داشته باشد، شاید تصمیم‌گیری در چنین مواردی راحت‌تر باشد.

مشکل دیگری که در تعیین شدت خطاها با آن مواجه شدیم، این بود که ممکن بود یک ماشین ترجمه، یک ترجمۀ نامفهوم از یک جمله ارائه دهد و بنابراین نمرۀ منفی سطح عمده بگیرد؛ در حالی که یک ماشین دیگر تنها بخشی کوچک از آن جمله را اشتباه ترجمه کند و آن هم نمرۀ منفی سطح عمده بگیرد. برای مثال جملۀ شمارۀ 29 عربی «قال إن المحافظة استعدت جیدا لهذه المناسبة» توسط رورسو به «او گفت که بخشدار به این مناسبت به خوبی آماده شده است» ترجمه شده که نامفهوم است و چون خواننده را سردرگم می‌کند باید نمرۀ منفی سطح عمده بگیرد. علاوه بر این، این جمله توسط مادرن‌ام‌تی به «او گفت که فرمانداری به خوبی برای این مناسبت آماده شده است» ترجمه شده است که خطای سوءترجمه فقط در کلمۀ «فرمانداری» رخ داده است و چون خواننده نمی‌تواند به واژۀ صحیح که «استان» است، پی ببرد؛ بنابراین، باید شدت از سطح عمده در نظر گرفته شود. در این صورت هر دو نمرۀ منفی برابری خواهند گرفت، اما واضح است که باید رورسو نمرۀ منفی بیشتری بگیرد، چون اشتباهات بیشتری مرتکب شده است که موجب نامفهوم شدن کل جمله شده است. برای جلوگیری از این مشکل، نشان‌گذار از سطح شدت وخیم برای ترجمۀ نامفهوم استفاده کرد.

همچنانکه در جدول‌های پیشینی مشاهده می‌شود، تعداد خطاهای اصطلاح‌شناسی و قرارداد محلی بسیار کم بود. کم بودن تعداد خطاهای اصطلاح‌شناسی ناشی از کم بودن تعداد اصطلاحات تخصصی در مجموعه آزمایش بود. اما کم بودن تعداد خطاهای قرارداد محلی بیشتر به طبیعت خود این نوع خطا برمی‌گردد؛ این نوع خطا منحصر است به عدم رعایت قالب محلی در مواردی معدود همچون علائم نگارشی، آدرس، تلفن، تاریخ، واحدهای اندازه گیری و ارز که تنوع یا کاربرد کمی دارند. جالب است که ماشین‌های ترجمه مواردی همچون تبدیل قالب تاریخ را به صورت هوشمند انجام می‌دهند؛ برای مثال، تمامی ماشین‌های ترجمه بجز نیوترنس در ترجمۀ جملۀ شمارۀ 5 عربی سال 1979 را به 1357 (اما در یک مورد به 1358) ترجمه کردند.

نکته دیگری که در جدول‌ها و نمودارهای بالا به چشم می‌خورد این است که عموماً کیفیت ترجمه در جهت فارسی به عربی بالاتر از جهت عربی به فارسی بود. این مورد می‌تواند به این دلیل باشد که در این پژوهش جملات مجموعۀ آزمایشی فارسی از جملات جملات مجموعۀ آزمایشی عربی ساده‌تر بودند و لزوماً به این معنا نیست که کیفیت ترجمۀ ماشینی در جهت فارسی به عربی بهتر از جهت عربی به فارسی است.

بحث و نتیجه‌گیری

در این پژوهش کیفیت ترجمۀ عربی به فارسی و برعکس شش سامانه ترجمۀ ماشینی برخط رایگان با استفاده از مدل DQF-MQM مورد ارزیابی واقع شد. همچنان که در جدول‌های (2) و (3) و نمودارهای (1) و (2) دیده می‌شود، این سامانه‌ها برای ترجمۀ عربی به فارسی به ترتیب کیفیت خروجی بالا به پایین از این قرار هستند: 1- گوگل، 2- بینگ، 3- یاندکس، 4- مادرن‌ام‌تی، 5- رورسو و 6- نیوترنس و برای ترجمه از فارسی به عربی از این قرار: 1- گوگل، 2- بینگ، 3- یاندکس و مادرن‌ام‌تی، 4- رورسو و 5- نیوترنس. همچنین می‌توان آن‌ها را در سه رده قرار داد که ماشین‌های هر رده امتیازهای نزدیک به هم دارند: 1- گوگل و بینگ، 2- یاندکس و مادرن‌ام‌تی و 3- رورسو و نیوترنس. این نتایج با آنچه در بخش پیشینۀ پژوهش آمد، مبنی بر اینکه گوگل غالباً توانسته بود ترجمه (بین عربی و انگلیسی) بهتری به نسبت سایر ماشین‌های ترجمه ارائه دهد، سازگاری دارد.

لازم به ذکر است که این رتبه‌بندی به معنای برتری مطلق یکی از این ماشین‌های ترجمه بر دیگری نیست. برای مثال، نیوترنس رتبه آخر شده است، اما در ترجمۀ جملۀ فارسی شمارۀ 5 بهتر از گوگل عمل کرده است. بنابراین، می‌توان گفت که نتایج در بهترین حالت تنها بر یک برتری احتمالی دلالت دارند.

همین برتری احتمالی هم ممکن است، با گذر زمان تغییر کرده و در آینده ماشین ترجمۀ دیگری بر گوگل و بینگ فائق آید. بنابراین، توصیه می‌شود، چنین آزمایش‌هایی به صورت دوره‌ای تکرار شود. همچنین توصیه می‌شود، آزمایش‌های دیگر با تفکیک انواع متن صورت پذیرد تا به درک بهتری از ترجمۀ ماشینی عربی به فارسی و برعکس انواع مختلف متون برسیم. همچنین آزمایش‌های دیگری با روش‌های دیگر بیان شده در بخش مبانی نظری انجام شود یا به جای وارد کردن جمله به جمله که در این پژوهش انجام شد، متون به صورت کامل به ماشین ترجمه وارد شوند.

تعارض منافع

تعارض منافع ندارم.

ORCID

Shahryar Niazi		https://orcid.org/0000-0002-5157-0009
Mahmood Bijankhan		https://orcid.org/0000-0002-4175-6854
Mazyar Pashaei		https://orcid.org/0000-0002-9633-5715

[1]. Holmes, J.

[2]. Snell-Hornby, M.

[3]. Globalization Turn

[4]. Cultural Turn

[5]. Accuracy

[6]. Fluency

[7]. Intelligibility

[8]. Acceptability

[9]. Adequacy

[10]. Fidelity

[11]. تعریف اصطلاح «مجموعه آزمایش» (Test Suite/Set): مجموعه‌ای از متون، جمله‌ها یا عبارات که به یک سامانه ترجمه ماشینی وارد می‌شود تا خروجی یا محصول آن مورد ارزیابی قرار بگیرد. (Rothwell et al., 2023: xxi)

[12]. Reference Translation-based

[13]. Quality Estimation

[14]. Diagnostic Evaluation Based on Checkpoints

[15]. Quality Assessment

[16]. Error Analysis and categorization

[17]. Information Extraction

[18]. Comprehension Test

[19]. Post-editing

[20]. Judge

[21]. تعریف اصطلاح «نشانه گذاری» (annotation): به فرایند اضافه کردن اطلاعات زبانی به یک پیکره نشان گذاری گفته می‌شود. برای مثال ممکن است نقش‌های دستوری کلمات به پیکره اضافه شود. به فردی که این کار را می‌کند نشانه گذار (annotator) گفته می‌شود. (Sin-Wai, 2004: 12)

[22]. Multidimensional Quality Metrics

[23]. Dynamic Quality Framework

[24]. High-level error type

[25]. Granular error type

[26] .Lommel, A., et al.

[27]. TAUS

[28]. Addition

[29]. Omission

[30]. Mistranslation

[31]. Untranslated

[32]. Lommel, A., et al.

[33]. Grammar

[34]. Grammatical Register

[35]. Spelling

[36]. Locale Convention

[37]. Terminology

[38]. Severity

[39]. Critical

[40]. Major

[41]. Minor

[42]. Neutral

[43]. تعریف اصطلاح «سنجه ارزیابی» (evaluation metric): معیار یا اندازه‌ای که برای سنجش و اندازه‌گیری کیفیت به کار می‌رود (Rothwell et al., 2023: xiii). تفاوت «سنجه» با مفهوم ساده «اندازه» در این است که سنجه با هدف خاصی اندازه‌گیری و محاسبه می‌شود؛ برای مثال، اینکه خانه‌ای 60 متر مربع مساحت دارد صرفاً یک اندازه است، اما اینکه به ازای هر نفر از خانواده‌ای سه نفره 20 متر مربع مساحت دارد، یک سنجه است که به هدف پی بردن به مناسب بودن یا نبودن این خانه برای این خانواده محاسبه شده است (Lommel & Melby, 2018: 7).

[44]. Comparative Evaluation of Neural Machine Translation Quality in Arabic English Translation

[45]. Diachronic Evaluation of Google Translate, Microsoft Translator and Sakhr in English-Arabic Trasnlation

[46]. Errors and non-errors in English-Arabic machine translation of gender-bound constructs in technical texts

[47]. Evaluating Machine Translations from Arabic into English and Vice Versa

[48]. A Frequency Dictionary of Arabic: Core Vocabulary for Learners (by Buckwalter & Parkinson)

[49]. A Frequency Dictionary of Persian: Core Vocabulary for Learners (by Miller et al.)

[50]. Mode

[51]. Google Translate: https://translate.google.com/

[52]. Microsoft Translator: https://www.bing.com/translator

[53]. Yandex Translate: https://translate.yandex.com/

[54]. Reverso: https://www.reverso.net/text-translation

[55]. ModernMT: https://www.modernmt.com/translate

[56]. NiuTrans: https://translate.niutrans.com/

[57]. Rothwell, A., et al.

[58]. آدرس صفحه دانلود:

https://info.taus.net/dqf-mqf-error-typology-template-download

[59]. تعریف اصطلاح «بخش» (Segment): واحدهای کمینه‌ای که می‌توان متن مبدأ را به آن شکست و بخش متناظر با هر کدام را در متن مقصد (ترجمه شده توسط ماشین یا به کمک ماشین) یافت؛ برای مثال جمله، تیتر و محتویات یک خانه از یک جدول. شبیه به مفهوم واحد ترجمه در مطالعات ترجمه است. (Rothwell et al., 2023: xix; Sin-Wai, 2004: 203)

[60]. https://github.com/mazyar1990/MTE-Spreadsheets

[61]. Unintelligible

مراجع

بشار، زینب محمد إبراهیم الدسوقی. (2021). إشکالیات الترجمة الآلیة بین العربیة والفارسیة. مجلة کلیة الآداب والعلوم الإنسانیة جامعة قناة السویس، 39 (2)، 150-205.

عبدالعباس، عمر أمین. (2021). واکاوی ترجمۀ ماشینی تارنماهای خبری فارسی به عربی. مجلة الآداب، 138(1)، 513-536.

نظری، علیرضا. (1393). گونه‌شناسی چالش‌ها و جایگاه ترجمۀ ماشینی از عربی به فارسی. پژوهش‌های ترجمه در زبان و ادبیات عربی، 4(11)، 29-56. DOR: 20.1001.1.22519017.1393.4.11.2.6

English References

Abu-Ayyash, E. A. S. (2017). Errors and non-errors in English-Arabic machine translation of gender-bound constructs in technical texts. Procedia Computer Science, 117, 73–80. https://doi.org/10.1016/j.procs.2017.10.095

Almahasees, Z. (2020). Diachronic Evaluation of Google Translate, Microsoft Translator and Sakhr in English-Arabic Trasnlation. The University of Western Australia.

Al-Shalabi, R., Kanaan, G., Al-Sarhan, H., Drabsh, A., & Al-Husban, I. (2017). Evaluating Machine Translations from Arabic into English and Vice Versa. International Research Journal of Electronics and Computer Engineering, 3(2). https://doi.org/10.24178/irjece.2017.3.2.01

Ben Milad, K. (2022). Comparative Evaluation of Neural Machine Translation Quality in Arabic English Translation. New Trends in Translation and Technology 2022, 142–151. DOI: [https://doi.org/10.59670/jns.v34i.1636]

Beseiso, M., Tripathi, S., Al-Shboul, B., & Aljadid, R. (2022). Semantics based english-arabic machine translation evaluation. Indonesian Journal of Electrical Engineering and Computer Science, 27(1), 189–197. http://doi.org/10.11591/ijeecs.v27.i1.pp189-197

Buckwalter, T., & Parkinson, D. B. (2010). A Frequency Dictionary of Arabic: Core vocabulary for learners. Routledge.

Chatzikoumi, E. (2020). How to evaluate machine translation: A review of automated and human metrics. Natural Language Engineering, 26(2), 137–161. https://doi.org/10.1017/S1351324919000469

Holmes, J. (1988). The Name and Nature of Translation Studies. In Translated! (Broeck, Raymond van den, pp. 67–80). Brill. https://doi.org/10.1163/9789004486669_008

Hutchins, W. J. (2003). The development and use of machine translation systems and computer-based translation tools. Bahri. Available online at: https://aclanthology.org/www.mt-archive.info/00/IJT-2003-Hutchins.pdf (Last Accessed March 2024)

Kit, C., & Wong, B. T. M. (2023). Evaluation in Machine Translation and Computer-Aided Translation. In Routledge Encyclopedia of Translation Technology (pp. 219–244). Routledge. https://doi.org/10.4324/9781003168348-13

Lommel, A. (2018). Metrics for Translation Quality Assessment: A Case for Standardising Error Typologies. In J. Moorkens, S. Castilho, F. Gaspari, & S. Doherty (Eds.), Translation Quality Assessment (Vol.1. Springer International Publishing. https://doi.org/10.1007/978-3-319-91241-7_6

Lommel, A., Görög, A., Melby, A., Uszkoreit, H., Burchardt, A., & Popović, M. (2015). Quality Translation 21 Deliverable 3.1: Harmonized Metric.

Lommel, A., & Melby, A. (2018). Tutorial: MQM-DQF: A Good Marriage (Translation Quality for the 21st Century). In J. Campbell, A. Yanishevsky, J. Doyon, & D. Jones (Eds.), Proceedings of the 13th Conference of the Association for Machine Translation in the Americas (Volume 2: User Track). Association for Machine Translation in the Americas. https://aclanthology.org/W18-1925

Malmkjær, K. (2013). Where are we? (From Holmes’s map until now). In The Routledge Handbook of Translation Studies. Routledge.

Miller, C., Aghajanian-Stewart, K., Bills, A., Corbett, R., Diaz, J., Golonka, E., Jones, E., Livingston, J., Mostafavi, S., Osthus, P., Ritch, J., Stewart, D., Strong, R., Triebwasser, T., Vinson, & Zajic, D. (2018). A Frequency Dictionary of Persian: Core vocabulary for learners. Routledge, Taylor & Francis Group.

Rothwell, A., Moorkens, J., Fernández-Parra, M., Drugan, J., & Austermuehl, F. (2023). Translation Tools and Technologies. Routledge.

Sin-Wai, C. (2004). A dictionary of translation technology. Chinese University Press.

Snell-Hornby, M. (2010). The turns of Translation Studies. In Handbook of translation studies (1, 366–370). John Benjamins

TAUS. (n.d.). DQF-MQM Error Typology Template Download. Retrieved January 21, 2024, from https://info.taus.net/dqf-mqf-error-typology-template-download (Last Accessed May 2024)

White, J. S. (2003). How to evaluate machine translation. In Computers and Translation: A translator’s guide (pp. 211–244). https://doi.org/10.1075/btl.35.16whi

آمار

تعداد مشاهده مقاله: 970

تعداد دریافت فایل اصل مقاله: 377

پیوندهای مفید

اخبار و اعلانات

آمار

ارزیابی تطبیقی کیفیت خروجی ماشین‌های ترجمه برخط رایگان بین عربی و فارسی بر اساس مدل DQF-MQM

Shahryar Niazi

https://orcid.org/0000-0002-5157-0009

Mahmood Bijankhan

https://orcid.org/0000-0002-4175-6854

Mazyar Pashaei

https://orcid.org/0000-0002-9633-5715