| تعداد نشریات | 61 |
| تعداد شمارهها | 2,226 |
| تعداد مقالات | 18,190 |
| تعداد مشاهده مقاله | 55,987,989 |
| تعداد دریافت فایل اصل مقاله | 29,030,588 |
مقایسۀ عملکرد الگوریتمهای پایۀ یادگیری ماشین در دستهبندی اشعار فارسی به دو گروه تلمیحدار و بدونتلمیح | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| علم زبان | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| مقاله 2، دوره 12، شماره 21، فروردین 1404، صفحه 45-76 اصل مقاله (912.53 K) | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| نوع مقاله: مقاله پژوهشی | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| شناسه دیجیتال (DOI): 10.22054/ls.2021.60784.1453 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| نویسندگان | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| پریسا محمدیان کلخوران1؛ محمد بحرانی* 2 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 1دانشآموختۀ کارشناسی ارشد زبانشناسی رایانشی، دانشگاه صنعتی شریف، تهران، ایران | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 2استادیار، گروه رایانه، دانشگاه علامه طباطبائی، تهران، ایران | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| چکیده | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| هدف از پژوهش حاضر بررسی عملکرد چند روش یادگیری ماشین در دستهبندی اشعار فارسی به دو گروه تلمیحدار و بدونتلمیح است. بهاینمنظور، از روشهای نظارتشدۀ بیز ساده، ماشین بردار پشتیبان، درخت تصمیم، جنگل تصادفی، k نزدیکترین همسایه، رگرسیون لجستیک و الگوریتم پرسپترون چندلایه استفاده شد. پس از جمعآوری دادههای برچسبخورده در قالب دو فایل متنی، هرکدام از ابیات به بردار عددی تبدیل شدند. پس از ادغام دادهها و تقسیم آنها به دو دستۀ آموزش و آزمون، الگوریتم مدنظر بر روی دادههای آموزشی پیادهسازی و بر روی دادههای آزمون، آزمایش گردید تا دقت عملکرد الگوریتم سنجیده شود. خروجی هر الگوریتم، برچسب پیشبینیشده توسط ماشین برای ابیات موردنظر بود و برای ارزیابی الگوریتمها از روش LOOCV استفاده شد. نتایج ارزیابی نشان داد که الگوریتمهای بیز ساده 09/76%، رگرسیون لجستیک 09/76%، پرسپترون چند لایه 22/75% و ماشین بردار پشتیبان 35/74% نسبت به الگوریتمهای دیگر عملکرد بهتری دارند. درمجموع و با توجه به سایر معیارها، از جمله معیار اف ـ 1 و زمان اجرا، میتوان گفت که بهترین عملکرد مربوط به الگوریتم بیز ساده بود. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| کلیدواژهها | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| تلمیح؛ شعر فارسی؛ دستهبندی متن؛ یادگیری ماشین؛ پردازش زبان طبیعی | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| اصل مقاله | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
«شعر جوهر حیات فرهنگی اقوام است». شفیعی کدکنی شاعران بزرگ فارسی همواره در گذر زمان کوشیدهاند تا به شیوههای مختلف و با استفاده از انواع هنرهای زبانی، عالیترین مفاهیم انسانی را با اشاره و استعاره، به مردم زمان خود و حتی مردم نسلهای بعد، منتقل کنند. یکی از شگردهایی که شاعر با استفاده از آن میتواند ظرفیت معنایی کلام را افزایش دهد و آن را ماندگار کند، هنر تلمیح[1] است. کزازی (۱۳۷۲: ۱۱) در زمینۀ این هنر زبانی چنین میگوید که «چشمزد یا تلمیح، آرایهای است درونی که سخنور بدان، سخت کوتاه، از داستانی، دَستانی (= مثل)، گفتهای و هرچه از این گونه، سخن در میان آورد و آن داستان، یا دستان، یا گفته را به یکبارگی در ذهن سخندوست برمیانگیزد. چشمزد آرایهای است که سخنور به یاری آن میتواند بافت معنایی سروده را نیک ژرفا و گرانمایگی ببخشد و دریایی از اندیشهها را در کوزهای تنگ از واژگان فرو ریزد. از آن جاست که سخنورانی پندارآفرین و اندیشهانگیز، چون حافظ که سرودههای خویش را با مایهها و لایههایی از نگارهها و انگارههای شاعرانه، پیدرپی و تودرتوی، ژرفی و شگرفی میدهند و از این آرایه بسیار بهره بردهاند». شمیسا (۱۳۸۱: ۲۲) نیز، در این زمینه معتقد است که «تلمیح از جمله صنایع معنوی در علم بدیع است و بدیع علمی است که پیرامون جنبههای تحسین و نیکویی کلام بحث میکند. بهعبارتدیگر، بدیع مجموعۀ شگردها و فنونی است که کلام عادی را کموبیش به کلام ادبی تبدیل میکند و یا کلام ادبی را به سطح والاتری از ادبیبودن میرساند و در بین اجزای کلام، تناسب و رابطههای خاصی برقرار میکند». هر شعر یادگار فرهنگ و تمدنی است و مخاطب باید لایههای تودرتوی شعر را طی کند تا بتواند به درکی مشترک با شاعر نائل شود، در هوای آن فرهنگ و تمدن نفس بکشد و در نهایت، به پشتوانههای عمیق فکری کلام دست پیدا کند. شعرا زبان را از سطح عادی و روزمرۀ آن، به سطحی والا و هنری ارتقا دادهاند و اینک، این میراث ارزشمند در دستان ماست و در انتظار شنوندهای مشتاق که با گوش جان آن را بشنود و در حفظش بکوشد. این شنونده، اگر با اشارات شاعر بیگانه باشد، بیتردید مصالح لازم برای ساخت بنای فکری را نخواهد داشت. شرایط زندگی امروز و آمیختگی آن با فناوری و نزدیکی روزافزون ماشین با انسان ایجاب میکند که بهجای قائلشدن به استقلال شعر و ادبیات و تلقی هوش مصنوعی بهمنزلۀ دشمن تفکر و انسانیت و سایر جنبههای زیبای انسانی، از این دستاورد عظیم بشری با هدف آشنایی بیشتر نسل جدید با فرهنگی که دستاورد بزرگان روزگار است، بهره ببریم. در وضعیت کنونی، دست یازیدن به این هدف شاید بیشتر به آرزو شبیه باشد، اما غیرممکن نیست. ازاینرو، پژوهش حاضر قصد دارد در مسیر تحقق این هدف، قدمی کوچک بردارد. بهاینمنظور، حوزۀ شعر و از این حوزه هم، صنعت ادبی تلمیح انتخاب شده است، چراکه چنانکه محبتی (۱۳۸۰: ۱۱۳) نیز به آن باور دارد، «مهمترین آثار ادبی جهان، بیشترین بار معنایی خود را بر دوش تلمیح نهادهاند، چون از یکسو مانند تضمین[2] مستقیماً از گفتهها و گفتارهای دیگران سود نمیجوید و درعینحال، تاریخ فرهنگی و بار معنایی گفتارهای گذشته را به درون خود میکشد». هدف اصلی پژوهش حاضر، استفاده از الگوریتمهای یادگیری ماشین[3]، از جمله بیز ساده[4]، K ـ نزدیکترین همسایه[5]، درخت تصمیم[6]، جنگل تصادفی[7]، رگرسیون لجستیک[8]، ماشین بردار پشتیبان[9] و پرسپترون چند لایه[10]، در تفکیک اشعار تلمیحدار از بدونتلمیح و مقایسۀ آنهاست. لازم به ذکر است که در این پژوهش، هر بیت بهعنوان یک سند متنی[11] در نظر گرفته شده است.
به باور شمسالدین محمد قیس رازی (۱۳۷۲: ۲۷۹)، نویسندۀ بزرگ قرن ششم هجری، تلمیح «آن است که الفاظ اندک، بر معانی بسیار دلالت کند و لمح، جستن برق باشد و لمحه یک نظر بود و چون شاعر چنان سازد که الفاظ اندک بر معانی بسیار دلالت کند، آن را تلمیح گویند». صاحب انوارالبلاغه (سدۀ یازدهم ه.ق) نیز دربارۀ تلمیح میگوید که «آن است که از فحوای کلام اشاره شود به شعری یا قصهای یا مثل مشهوری بدون آن که آن شعر یا قصه یا مثل مذکور شوند، خواه آن کلام نظم بوده باشد یا نثر» (مازندرانی، 1375). داد، مؤلف فرهنگ اصطلاحات ادبی (1385)، به معنای لغوی تلمیح (به گوشۀ چشم اشاره کردن، نگاه و نظر کردن) اشاره میکند و پس از تعریف تلمیح در اصطلاح بدیع، اقسام تلمیح از نگاه منتقدان غربی را اینگونه برمیشمارد: اشاره به اشخاص و حوادث، اشاره به زندگی شخصی یا نام خود گوینده (و این همان است که در بلاغت فارسی استشهاد نامیده میشود)، تلمیح استعاری و تلمیح تقلیدی. با توجه به تعاریف متعددی که از تلمیح در دورههای مختلف دیده میشود، میتوان گفت که در تلمیح این عناصر مشترک است: ایجاز (اشارۀ کوتاه در حد گوشۀ چشم) و غیرصریحبودن، بهگونهای که اگر شاعر کل داستان یا شعر مدنظرش را بهطور کامل شرح دهد، دیگر تلمیح محسوب نمیشود. البته اختلافات اندکی هم در تعریف تلمیح، میان ادبا وجود دارد؛ برای مثال چنانکه در دایرهالمعارف اسلامی آمده است، برخی با مقدمداشتن میم بر لام، این واژه را تملیح، از ریشۀ ملح به معنای نمکِ بهاندازه در طعامکردن و نیز، نمکینکردن کلام با استفاده از پارهای اشارات، حکایات و وقایع مشهور دانستهاند، اما گروهی از علمای علم بدیع، صورت اخیر را خطا و تلمیح را صواب دانستهاند. شمیسا (1378) نیز، در فرهنگ تلمیحات خود، معنای تلمیح را گسترش میدهد و اشاره به فرهنگ عامه و عقاید و آداب و رسوم و علوم قدیم را هم بخشی از تلمیح قلمداد میکند. وی اذعان دارد که از معنای تلمیح در کتب سنتی پا فراتر میگذارد و گاهی به مواردی اشاره میکند که حاوی اشاره به داستانی نیست، بلکه اشاره به مطلبی دارد که آگاهینداشتن از آن، درک بیت را غیرممکن میسازد. در میان پژوهشهای ادبی، آثار نسبتاً زیادی در حوزۀ تلمیح به چشم میخورد، بهویژه در زمینۀ بررسی موردی کاربرد تلمیح در آثار شاعران، چه اشعار کهن و چه اشعار مربوط به دوران معاصر و حتی شعر نو. از اوایل دهۀ 90 قرن بیستم شاهد ظهور رویکرد یادگیری ماشین بهمنظور دستهبندی متون[12] هستیم، اما این رویکرد تاکنون در حوزۀ ادبیات زبان فارسی، ورود قابلتوجهی نداشته است. بیشتر پژوهشهای پیشین در این حوزه به شناسایی سبک و ویژگیهای زبانی مؤلف در آثار ادبی پرداختهاند. از جمله این پژوهشها، مقالۀ مجیری و مینایی (1387) است که به کاربرد متنکاوی در تشخیص وزن عروضی اشعار فارسی میپردازد و یا مقالۀ آذین و بحرانی (139۳) و جوانمردی و اکبری (1397) است که در آنها هدف از پژوهش، شناسایی سبک شاعر و دستهبندی و تفکیک اشعار شاعران است. تیزهوش[13] (2008) هم جداسازی شعر از متن عادی در محیط وب را موضوع پژوهش خود قرار داده است. در حالت کلی، برای تشخیص تلمیح در اشعار میتوان دو رویکرد اصلی متصور شد: رویکرد یادگیری ماشین و رویکرد مبتنی بر واژگان[14]. رویکرد یادگیری ماشین از الگوریتمهای معروف یادگیری که مبتنی بر ویژگیهای زبانی هستند، استفاده میکند، در صورتی که رویکرد مبتنی بر واژگان، بر اساس واژهنامهای بنا میشود که مجموعهای از لغات و واژههای ازپیشتعیینشده است. در پژوهش حاضر به رویکرد اول توجه شده است. همانند دادهکاوی[15] که جستجویی برای کشف الگو در دادههاست، متنکاوی[16] نیز، جستجو در متون برای کشف الگوی آنهاست. دستهبندی متن یکی از زیرشاخههای اصلی متنکاوی است؛ علمی که بر اساس دادههای قبلی که دارای برچسب[17] هستند، مدلی برای پیشبینی برچسب دادههای جدید میسازد. هدف از این روش، یادگیری تابعی[18] است که الگوهای (بردارهای ویژگی) ورودی را به برچسبهای متناظرشان نگاشت کند. در واقع، این فرایند در مرحلۀ آموزش[19] انجام میگیرد. بدیهی است که برچسبهای واقعی الگوهای آموزشی، از پیش مشخص شدهاند. در مرحلۀ آزمون[20]، الگوهایی که برچسب آنها مشخص نیست، به سامانه داده میشوند و سامانۀ طراحیشده، به کمک تابع خود، خروجی یا برچسب آنها را پیشبینی میکند. بهبیاندیگر؛ دستهبندی به فرایند قراردادن نمونههای جدید در دستههای مختلف بر اساس دادههای قدیمی اشاره دارد و بهاینمنظور، به یک مدل یا الگوریتم دستهبند نیاز است. الگوریتمهای طبقهبندی مشهور عبارتاند از: شبکههای عصبی[21]، انواع درخت تصمیم (CART، C4.5، J48، ID3 و ...)، K ـ نزدیکترین همسایه، ماشین بردار پشتیبان، رگرسیون لجستیک، دستهبند بیز ساده و غیره که انتخاب هرکدام از آنها میتواند به موارد زیر وابسته باشد:
در این بخش، به روش اجرای پژوهش در 7 مرحله پرداخته شده است که عبارتاند از: جمعآوری و مرتبسازی دادهها[22]، پیشپردازش دادهها[23]، استخراج و انتخاب ویژگیها[24]، تبدیل متن به بردار[25]، تقسیم دادهها به دو دستۀ آموزش و آزمون، آموزش مدلهای یادگیری ماشین و ارزیابی عملکرد مدلها. مراحل پیادهسازی[26] در شکل 1 نشان داده شده است. لازم به ذکر است که در تمام این مراحل، از زبان برنامهنویسی پایتون[27] استفاده شده است.
شکل 1. مراحل پیادهسازی
در گام اول، برای جمعآوری دادههای دستۀ تلمیحدار، از کتاب فرهنگ اساطیر و داستانوارهها در ادبیات فارسی (1388)، اثر یاحقی استفاده شد و ابیات آن بهصورت دستی تایپ گردید. اشعار بدونتلمیح هم از سایت گنجور[28] گردآوری شد. در کل، بیشتر دادهها از اشعار حافظ انتخاب شدهاند. نتایج حاصل از گردآوری دادهها، شامل 300 بیت تلمیحدار و 160 بیت بدونتلمیح، در دو فایل متنی مجزا با فرمت txt ذخیره شدند، به گونهای که هر بیت نشاندهندۀ یک سند متنی جداگانه است. نمونههایی از دادهها در جدول 1 آورده شدهاند. جدول ۱. نمونههایی از دادههای آموزشی
مرحلۀ پیشپردازش دادهها در اغلب موارد، از جمله مهمترین و زمانبرترین گامهای پروژههای دادهکاوی است که انجام درست آن به بالارفتن دقت مدل میانجامد. پیشپردازش متن عمدتاً در آغاز فرایند متنکاوی و با توجه به یکی از اهداف زیر انجام میشود:
در پژوهش حاضر، ابتدا متن یکدست (بهنجارسازی) شد و علائم نگارشی[39] حذف شدند. سپس، کلمات موجود در ابیات از هم تقطیع[40] شدند و ایستواژهها نیز، بر اساس فایلی که شامل این کلمات بود، حذف گردیدند. این ایستواژهها با توجه به دادههای موجود انتخاب شده بودند. اولین گام در دستهبندی متن این است که متون به صورتی مناسب که توسط الگوریتم یادگیری ماشین قابلاستفاده باشد، تبدیل شوند. هر کلمه در متن یک ویژگی[41] محسوب میشود، اما از آنجا که با افزایش مجموعۀ دادهها، تعداد بالای ویژگیها مشکلآفرین خواهد شد، سعی بر آن است تا ابعاد دادهها تا حدممکن کاهش یابد. هدف از کاهش ابعاد[42] چیست؟
یکی از راههای کاهش ابعاد این است که بهجای بهکارگیری همه ویژگیها، از زیرمجموعهای از ویژگیهای مهم استفاده کنیم. اگرچه ممکن است به نظر برسد که این روش باعث ازدسترفتن اطلاعات میشود، اما باید توجه داشت که در این روش، تنها ویژگیهای غیرمرتبط و زائد را حذف میکنیم. بخشی از این هدف در پژوهش حاضر، با حذف ایستواژهها محقق شد، اما از آنجا که تعداد دادههای برچسبخورده اندک بودند، پس از حذف ایستواژهها، از تمامی کلمات باقیمانده که 2107 مورد بودند، بهعنوان ویژگی استفاده شد. همچنین، با توجه به صورتهای خاص بعضی واژهها در شعر که با شکل دستوری رایج متفاوت است، مشاهده شد که با ریشهیابی کلمات، دقت مدل تاحدی کاهش پیدا میکند. از این رو، در پژوهش حاضر از این کار صرفنظر شد. از آنجا که اغلب روشهای یادگیری ماشین از جمله دستهبندی متون، بر روی دادههای عددی[44] قابلاجرا هستند، در گام دوم، دادههای متنی باید به بردارهایی از اعداد تبدیل میشدند. به این فرایند، بردارسازی[45] یا بازنمایی برداری[46] متون گفته میشود. رویکردهای مختلفی برای بردارسازی متون در پردازش زبان طبیعی[47] وجود دارد:
در این پژوهش، برای بردارسازی ابیات، یک بار از روش TF-IDF و بار دیگر از روش کدگذاری دودویی استفاده شد. بهجز دو الگوریتم رگرسیون لجستیک و پرسپترون چندلایه که در دو روش فوق، حدود ده درصد در معیار دقت[61] اختلاف داشتند، سایر الگوریتمها تفاوت قابلملاحظهای از خود نشان ندادند. درضمن، با توجه به تنوع کلمات از جهت ترتیب قرارگیری در اشعار و از سوی دیگر، تعداد کم دادهها، بردارسازیِ چندگانه در این پژوهش کارایی لازم را نداشت و از آن استفاده نشد. در گام بعدی، باید دادهها به دو دستۀ آموزش و آزمون تقسیم میشدند. با توجه به محدودیت تعداد دادههای برچسبخورده، برای انتخاب بهترین الگوریتم که خطای کمتری داشته باشد، روشهای بازنمونهگیری[62] مدنظر قرار گرفتند. یک راهکار موجود آن بود که زیرمجموعهای از دادهها را بهطور تصادفی انتخاب کنیم (مثلاً 80 درصد از دادهها) و آموزش را روی آن انجام دهیم و از زیرمجموعۀ کنارگذاشتهشده (مثلاً 20 درصد بقیه) برای آزمون الگوریتم پیادهسازیشده، استفاده کنیم. به تکرار این مراحل به نحوی که مدل چندین بار با ترکیبهای مختلفی از دادههای آموزشی و آزمون، آموزش داده شود، روش اعتبارسنجی متقابل[63] گفته میشود. هدف این روش، ارزیابی پایدارتر و دقیقتر از توانایی تعمیم مدل به دادههای نادیده است و از بیشبرازش[64] به دادههای آموزش جلوگیری میکند. اگر در هر مرحله از تکرار آموزش، تنها یکی از دادهها برای آزمون کنار گذاشته شود و آموزش روی سایر دادهها انجام شود، به آن، اعتبارسنجی متقابلِ تکنمونهای[65] میگویند. در پژوهش حاضر، بهمنظور ارزیابی عملکرد مدلهای یادگیری ماشین، از این روش اعتبارسنجی استفاده شده است. دلیل انتخاب این روش، محدودبودن تعداد نمونههای آموزشی در مجموعه دادۀ استفادهشده بود. در شرایطی که حجم دادهها کم است، تقسیم آن به بخشهای جداگانه برای آموزش و آزمون میتواند منجر به کاهش قابلتوجه دقت در ارزیابی شود، چرا که بخش بزرگی از دادهها صرف آزمون شده و مدل با اطلاعات ناکافی آموزش میبیند. LOOCV با کنار گذاشتن تنها یک نمونه در هر تکرار و استفاده از باقیماندۀ دادهها برای آموزش، این مشکل را تا حد زیادی برطرف میکند و امکان استفادۀ حداکثری از دادههای موجود را فراهم میسازد. همچنین، این روش ارزیابی دقیقتری نسبت به روشهای سادهتر نظیر تقسیم ثابت دادهها ارائه میدهد، هرچند در مقایسه با آنها هزینۀ محاسباتی بالاتری دارد. در مرحلۀ آموزش مدلها، فرایند یادگیری مدل هربار برای یکی از الگوریتمهای موردنظر، پیادهسازی شد. برای پیادهسازی و آموزش مدل، به جهت بهینهسازی کدنویسی، از کتابخانۀ scikit-learn در زبان پایتون بهره گرفته شد. در این مرحله، از الگوریتمهای نظارتشدۀ[66] زیر استفاده شد:
بدینترتیب، دو ابرصفحۀ موازی در دو طرف مرز تصمیمگیری ایجاد میشوند؛ به گونهای که ابرصفحۀ مرز، بیشترین فاصله را بین دو ابرصفحۀ موازی ایجاد کند (محمودی سعیدآباد و سمیعزاده، 1397) برای دادههایی که بهصورت خطی قابلتفکیک نیستند، الگوریتم SVM با بهرهگیری از توابع هستهای[70] دادهها را به فضای ویژگی با ابعاد بالاتر نگاشت میکند؛ در این فضا، امکان جداکردن کلاسها با یک مرز خطی فراهم میشود. این قابلیت موجب شده است که SVM در مواجهه با دادههای پیچیده نیز، عملکرد موفقی داشته باشد. برای انعطافپذیری بیشتر در دستهبندی، از متغیرهای کمکی استفاده میشود تا اجازه داده شود برخی نمونهها درون ناحیۀ حاشیهای قرار گیرند، حتی اگر با جریمه روبهرو شوند. در این راستا، پارامتر C نقش کلیدی دارد؛ این پارامتر میزان حساسیت مدل را نسبت به خطاهای طبقهبندی تنظیم میکند و بهعنوان یک پارامتر تنظیمکننده[71] بین افزایش پهنای حاشیه و کاهش خطا مصالحه برقرار میسازد. از آن جا که نگاشت صریح دادهها به فضای بُعد بالاتر میتواند از نظر محاسباتی هزینهبر باشد، توابع هستهای بهگونهای طراحی شدهاند که بدون نیاز به انجام نگاشت واقعی، محاسبۀ ضرب داخلی بردارها در فضای جدید را ممکن میسازند. این ویژگی، افزون بر کاهش بار محاسباتی، امکان استفاده از فضاهای با ابعاد بسیار بالا یا حتی نامتناهی را نیز فراهم میکند و بهلحاظ زمان و حافظه بسیار کارآمد است (بیرانوند برجله، ۱۳۹۰). تابع هسته میتواند یکی از انواع گوسی ، چندجملهای یا سیگموئید باشد.
پیچیدگی چنین مدلهایی، تابعی از تعداد و اندازۀ پارامترهای آنهاست. افزایش بیش از حد این پیچیدگی ممکن است منجر به بیشبرازش شود. برای جلوگیری از این مسأله، معمولاً یک عبارت جریمه[82] به تابع هزینه[83] افزوده میشود تا از بزرگشدن بیشازحد پارامترها جلوگیری کند. در رگرسیون لجستیک، تابع هزینه بر پایۀ منفی لگاریتم درستنمایی[84] تعریف میشود تا با کمینهکردن آن، به بیشینهسازی تابع درستنمایی دست یابیم. این روش بهدلیل سادگی، تفسیرپذیری و دقت مناسب، در حوزههای مختلفی از جمله علوم اجتماعی، زیستی و پزشکی کاربرد فراوان دارد.
در مرحلۀ پایانی، برای ارزیابی عملکرد الگوریتمها و مقایسۀ آنها با هم، بهجز معیار دقت که نسبت پیشبینیهای درست به کل پیشبینیها را نشان میدهد، از معیار اف ـ 1[89] نیز استفاده شد. این معیار، در واقع یک نوع میانگین بین دو پارامتر ارزیابی صحت[90] و فراخوانی[91] است و معیار ترکیبی مفیدی است برای دستههای نامتوازن. در این پژوهش هم، چون تعداد دادههای آموزشی در دو دستۀ تلمیحدار و بدونتلمیح مساوی نیستند، این معیار عملکرد، ارزیابی بهتری را به ما نشان میدهد. همچنین در این پژوهش، از ماتریس درهمریختگی[92] برای دستیافتن به تصویری جامعتر در ارزیابی عملکرد مدل استفاده گردید. شکل کلی این ماتریس در شکل 2 آورده شده است. شکل ۲: ماتریس درهمریختگی
با توجه به نتایج مندرج در جدول 2 و مقایسۀ نتایج حاصل از ارزیابی عملکرد هفت الگوریتم موردمطالعه، ملاحظه شد که از نظر معیار دقت، دو الگوریتم بیز ساده و رگرسیون لجستیک نتیجۀ بهتری از خود نشان میدهند. باوجوداین، این معیار، بهتنهایی معیار دقیقی برای تصمیمگیری نیست؛ چراکه عواملی مانند نامتوازنبودن اندازۀ دادههای آموزشی در دو دسته، روی آن تأثیر میگذارد. بهعنوان مثال، توجه به ماتریس درهمریختگی نشان میدهد که الگوریتم جنگل تصادفی در تشخیص ابیات تلمیحدار بهتر عمل میکند، ولی در تشخیص ابیات بدونتلمیح آنقدرها موفق نیست و در مجموع عملکرد خوبی ندارد. در حالی که الگوریتم بیز ساده نسبت به بقیه، نتایج متعادلتری از خود نشان میدهد و اهمیت این موضوع در پژوهش حاضر، به این دلیل است که در پیکرۀ آموزشی ما، تعداد دادههای تلمیحدار از بدونتلمیح بیشتر است. از نظر زمان آموزش مدل با استفاده از اعتبارسنجی متقابل، مشاهده شد که الگوریتم بیز ساده از سرعت بسیار بالاتری نسبت به سایر الگوریتمها برخوردار است و الگوریتم جنگل تصادفی از همۀ روشهای دیگر به زمان بیشتری برای آموزش مدل نیاز دارد.
جدول 2: مقایسۀ عملکرد الگوریتمها
جدول 3: نمونههایی از پیشبینی الگوریتمها
پژوهش حاضر با هدف بررسی عملکرد چند الگوریتم یادگیری ماشین در دستهبندی اشعار فارسی به دو گروهِ تلمیحدار و بدونتلمیح انجام شد. در این راستا، از الگوریتمهای مختلف یادگیری نظارتشده، از جمله بیز ساده، ماشین بردار پشتیبان، درخت تصمیم، جنگل تصادفی، k نزدیکترین همسایه، رگرسیون لجستیک و پرسپترون چندلایه استفاده شد و با بهرهگیری از روش اعتبارسنجی متقابل LOOCV، عملکرد هر الگوریتم سنجیده شد. در حالت کلی، مشکل اساسی در دستهبندی خودکار متون، حجم بالای ویژگیهایی است که از متن استخراج میشود که در بسیاری از الگوریتمها موجب کندشدن عملکرد دستهبند و ناکارآمدی آن خواهد شد. از طرف دیگر، وجود کلماتی متفاوت که معنای مشابه دارند و یا کلمات یکسانی که معانی متفاوت دارند ، ثابتنبودن طول اسناد متنی و وابستگی موجود میان اجزای یک متن، مشکلات را دوچندان میکند. علاوهبراین، ویژگیهایی وجود دارند که گاه نهتنها باعث دستهبندی بهتر اسناد نمیشوند، بلکه دقت دستهبندی را هم کم میکنند. در زبان فارسی، توسعۀ نظام دستهبندی خودکار متون فارسی بهدلیل ماهیت زبان فارسی (صرف و نحو پیچیده و منعطف، وجود پسوندها و پیشوندهای متنوع، پوشیدهبودن ساختار نحوی بهدلیل حذف بعضی اجزای جمله در برخی موارد، گاه چندمعنایی واژهها و ابهام معنایی) و دردسترسنبودن مجموعهای دقیق شامل ریشۀ کلمات[93] و از سوی دیگر، نبود مجموعهای استاندارد برای آزمون، کاری نسبتاً دشوار به نظر میرسد. غیر از موارد فوق، در مسألۀ مربوط به پژوهش حاضر، مشکلات دیگری نیز به چشم میخورند، از جمله تنوع بسیار در واژهها، چراکه هر شاعر بنابر ذوق و سبک مخصوص خود، واژههایی جدید و گاه منحصربهخود، ابداع میکند و یا این که گاهی ترتیب معمول کلمات یک جمله را به هم میریزد تا طرحی نو دراندازد. درنهایت، میتوان گفت هر آنچه که اوج زیبایی هنری شعر را به نمایش میگذارد، برای یک الگوریتم دستهبندی ماشینی مایۀ دردسر است! در حوزۀ تلمیح، یکی از مشکلات، اختلافنظر در تعریف گسترۀ تلمیح و تعیین مواردی است که در این حوزه قرار میگیرند. این مشکل میان دستهبندی انسانی و ماشینی مشترک است. از طرف دیگر، در برخی از اشعار، تلمیح با صراحت بیشتر و با اتکا به واژههایی خاص صورت گرفته است که تشخیص آن را آسانتر کرده است و به نظر میرسد که کشف شباهت میان این اشعار برای ماشین، راحتتر از اشعاری است که تلمیح موجود در آنها شکلی ضمنیتر دارد و تشخیص آنها نیازمند تخصصهای انسانی است. وجود انواع مختلف تلمیح (تلمیحات اسطورهای، حماسی و ملّی، قرآنی و ...) هم باعث میشود که دستهبندی دشوارتر شود، چراکه دو بیت که یکی تلمیح قرآنی دارد و دیگری تلمیح اسطورهای و ملّی، از نظر تنوع واژگانی فضاهایی کاملاً متفاوت دارند. موضوع مهم دیگر که از ذات زبان سرچشمه میگیرد، پویایی مصادیق تلمیح است که باعث میشود هر مدل دستهبندی در تشخیص تلمیح در اشعار جدیدتر با چالش مواجه شود. به نظر میرسد بهرهگیری از مجموعهدادههای گستردهتر و متنوعتر که انواع تلمیح را پوشش دهند، در کنار بهرهگیری از روشهای پیشرفتهتر، مانند یادگیری انتقالی و مدلهای زبانی ازپیشآموزشدیده، میتواند دقت این نوع دستهبندی را در آینده بهبود ببخشد.
[1]. allusion [2]. تضمین از آرایههای ادبی و به معنی آوردن آیه، حدیث، مثل، سخنی مشهور و یا مصراع یا بیتی از شاعری دیگر در بین سخن خود است. [3]. machine learning algorithms [4]. naive bayes [5]. k-nearest neighbors (KNN) [6]. decision tree [7]. random forest [8]. logistic regression [9]. support vector machine (SVM) [10]. multilayer perceptron [11]. document [12]. text classification [13]. Tizhoosh, H. R. [14]. lexicon-based approach [15]. data mining [16]. text mining [17]. label [18]. function [19]. train [21]. neural networks [22]. data collection [23]. preprocessing [24]. feature extraction [25]. text vectorization [26]. implementation [27]. python [28]. ganjoor.net [29]. normalization [30]. character [31]. affixes [32]. compound words [33]. stemming [34]. part-of-speech tagging [35]. semantic expansion [36]. synonym [37]. keyword [38]. stop words [40]. named entity [41]. feature [42]. dimension reduction [43]. visualization [44]. numerical [45]. vectorization [46]. vector representation [47]. natural language processing
[51]. frequency/count vectorization: بردارسازی متن بر اساس شمارش فراوانی وقوع هر کلمه در یک سند.
[53]. hashing vectorization: بردارسازی با استفاده از توابع هش، بدون نیاز به ساخت واژگان کامل.
[55]. distributed representation: روشی که در آن معنا و ویژگیهای زبانی هر واحد (مانند کلمه) در میان چندین بعد از یک بردار پخش میشود، بهگونهای که شباهتهای معنایی در فضای برداری حفظ میگردد. [56]. transfer learning: رویکردی در بردارسازی و یادگیری که در آن مدلهای ازپیشآموزشدیده برای استخراج ویژگیهای زبانی در وظایف جدید، بازاستفاده میشوند.
[58]. deep learning [59]. embedding layer [60]. pretrained language model embedding: بردارسازی با استفاده از مدل زبانی ازپیشآموزشدیده که شامل ویژگیهای معنایی و نحوی آموختهشده از حجم وسیعی از دادههای متنی است. [61]. accuracy [62]. resampling [63]. cross validation
[65]. leave-one-out cross-validation (LOOCV) [66]. supervised [67]. spam detection [68]. hyperplane [69]. support vectors [70]. kernel functions [71]. regularization parameter [72]. node [73]. branch [74]. impurity [75]. information entropy [76]. bagging [77]. information gain [78]. Euclidean distance [79]. dependent variable [80]. sigmoid function [82]. regularization term [83]. loss function [84]. log-likelihood [85]. feedforward [86]. directed graph [87]. nonlinear activation function [88]. backpropagation: الگوریتمی برای آموزش شبکههای عصبی است که با محاسبۀگرادیان خطا نسبت به وزنها، آنها را بهصورت تدریجی بهروزرسانی میکند تا خطای خروجی کمینه شود. [89]. f1-score [90]. precision [91]. recall [92]. confusion matrix [93]. واژهها در فارسی ممکن است ریشۀ مشخص و ثابتی نداشته باشند یا ریشهیابیشان پیچیده باشد. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| مراجع | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
منابع
آذین، زهرا، بحرانی، محمد. (1393). شناسایی خودکار شاعران شعر نو با استفاده از ویژگیهای سبکی. مجموعه مقالههای همایش خاتم (دانشگاه علامه طباطبایی)، بهکوشش نعمتالله ایرانزاده (۱ـ۱۶). تهران: دانشگاه علامه طباطبائی.
امینی خویی، زهره. (1394). طبقهبندی ترافیک شبکه با استفاده از الگوریتمهای یادگیری ماشین. پایاننامه کارشناسی ارشد، دانشگاه کردستان.
بیرانوند برجله، آزاده. (1390). فیلتر کردن هرزنامهها با استفاده از تکنیکهای یادگیری ماشین. پایان نامه کارشناسی ارشد، دانشگاه شهید چمران اهواز.
جوانمردی، کامیار، اکبری، منوچهر. (1397). روشهای یادگیری ماشین در بررسی ویژگیهای زبان شعری در اشعار شاعران دفاع مقدس (مطالعۀ موردی: اشعار دو شاعر دفاع مقدس؛ قیصر امینپور و محمدرضا عبدالملکیان). فصلنامۀ علمی ـ ترویجی مطالعات دفاع مقدس، ۴(۳)، 1۲۱ـ1۴۴. https://civilica.com/doc/1377460
داد، سیما. (1385). فرهنگ اصطلاحات ادبی (چاپ سوم). تهران: انتشارات مروارید.
رازی، شمسالدین محمدبنقیس. (137۲). المعجم فی معاییر اشعار العجم (جلد اول)، به کوشش دکتر سیروس شمیسا. تهران: انتشارات فردوس.
شفیعی کدکنی، محمدرضا. (1387). شعر معاصر عرب. تهران: انتشارات سخن.
شمیسا، سیروس. (13۸۱). فرهنگ تلمیحات (اشارات اساطیری، تاریخی، مذهبی در ادبیات فارسی). تهران: انتشارات فردوس.
کزازی، میرجلالالدین. (13۷۲). رخسار صبح (چاپ ششم). تهران: انتشارات مرکز.
مازندرانی، محمدهادیبن محمدصالح. (1375). انوارالبلاغه. به کوشش محمدعلی غلامینژاد، تهران: انتشارات میراث مکتوب.
مجیری، محمدمهدی، مینایی بیدگلی، بهروز. (1387). تشخیص وزن عروضی اشعار فارسی، کاربرد جدیدی از متنکاوی. دومین کنفرانس دادهکاوی ایران. تهران: ایران. https://civilica.com/doc/70402
محبتی، مهدی. (138۰). بدیع نو، هنر ساخت و آرایش سخن. تهران: انتشارات سخن.
محمودی سعیدآباد، الناز، سمیعزاده، رضا. (1397). کاربرد الگوریتمهای یادگیری ماشین در متنکاوی با رویکرد آنالیز احساس. مدیریت فناوری اطلاعات،۱۰(۲)، 3۰۹ـ3۳۰. https://www.magiran.com/p1823367
یاحقی، محمدجعفر. (1388). فرهنگ اساطیر و داستانوارهها در ادبیات فارسی (چاپ دوم). تهران: انتشارات فرهنگ معاصر.
References Azin, Z., & Bahrani, M. (2014). Automatic identification of modern Persian poets using stylistic features. In N. Iranzadeh (Ed.), Proceedings of Allameh Tabataba’i University, (pp. 1–16). Tehran: Allameh Tabataba’i University. [In Persian] Amini Khoyi, Z. (2015). Network traffic classification using machine learning algorithms [Master’s thesis, University of Kurdistan]. [In Persian] Biranvand Barjleh, A. (2011). Spam filtering using machine learning techniques [Master’s thesis, Shahid Chamran University of Ahvaz]. [In Persian] Javanmardi, K., & Akbari, M. (2018). Machine learning methods in examining poetic language features in the poems of Sacred Defense poets (Case study: Ghaysar Aminpour and Mohammadreza Abdolmalekian). Scientific-Promotional Quarterly of Sacred Defense Studies, 4(3), 121–144. [In Persian] https://civilica.com/doc/1377460 Dad, S. (2006). Dictionary of Literary Terms (3rd ed.). Tehran: Morvarid. [In Persian] Kazazi, M. J. (1993). The Face of Dawn (6th ed.). Tehran: Markaz. [In Persian] Mahmoudi Saeedabad, E., & Sami’Zadeh, R. (2018). Application of machine learning algorithms in text mining with a sentiment analysis approach. Journal of Information Technology Management, 10(2), 309–330. [In Persian] https://www.magiran.com/p1823367. Mazandarani, M. H. M. S. (1996). Anwar al-Balagha (M. A. Gholaminajad, Ed.). Tehran: Mirath-e Maktub. [In Persian] Mohabbati, M. (2001). Modern Badi‘: The Art of Composition and Rhetorical Embellishment. Tehran: Sokhan. [In Persian] Mojiri, M. M., & Minaei Bidgoli, B. (2008). Prosodic meter recognition in Persian poetry: A new application of text mining. Second Iranian Data Mining Conference. Tehran: Iran. [In Persian] https://civilica.com/doc/70402 Razi, Sh. M. Q. (1993). Al-Mu'jam fi Ma'ayir Ash'ar al-Ajam (Vol. 1) (S. Shamisa Ed.). Tehran: Ferdows. [In Persian] Shafi‘i Kadkani, M. R. (2008). Modern Arabic Poetry. Tehran: Sokhan. [In Persian] Shamisa, S. (2002). Dictionary of Allusions (Mythological, Historical, and Religious References in Persian Literature). Tehran: Ferdows. [In Persian] Tizhoosh, H. R. (2008). Poetic features for poem recognition: A comparative study. Journal of Pattern Recognition Research, 3(1), 24-39. https://doi.org/10.13176/11.62. Yahaghi, M. J. (2009). Dictionary of Myths and Narratives in Persian Literature (2nd ed.). Tehran: Farhang-e Mo’aser. [In Persian] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
آمار تعداد مشاهده مقاله: 1,029 تعداد دریافت فایل اصل مقاله: 213 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||