مقدمه
شرکتهای بیمه در سراسر جهان بهطور مداوم منابع هنگفتی را در قالب جبران خسارت ادعاهای تقلبی از دست میدهند که در صورت صرف این منابع در فعالیتهای تخصصی و سرمایهگذاری میتوانستند خدمات مناسبتری به مشتریان خود ارائه نمایند. عوامل فروش میتوانند دادهکاوی را با اقدامات مربوط به کشف تقلب، ترکیب و دقت عملکرد خود را افزایش دهند که به این طریق نیاز به نیروی انسانی نیز کاهش م
مقدمه
شرکتهای بیمه در سراسر جهان بهطور مداوم منابع هنگفتی را در قالب جبران خسارت ادعاهای تقلبی از دست میدهند که در صورت صرف این منابع در فعالیتهای تخصصی و سرمایهگذاری میتوانستند خدمات مناسبتری به مشتریان خود ارائه نمایند. عوامل فروش میتوانند دادهکاوی را با اقدامات مربوط به کشف تقلب، ترکیب و دقت عملکرد خود را افزایش دهند که به این طریق نیاز به نیروی انسانی نیز کاهش مییابد. نتیجه این اقدامات درنهایت میتواند به کمینه نمودن خسارات منجر شود.
افرادی که مرتکب تقلب میشوند، میکوشند تا منفعت بیشتری از بیمهنامه (فراتر از خسارت واردشده)، دریافت کنند. معمولاً در دو موقعیت ممکن است بیمهشده اقدام به تقلب نماید. نخست در شرایطی که یک شخص بهصورت عمدی تلاش میکند تا خسارتی را ایجاد و یا در گزارش میزان وقوع آن اغراق نماید. موقعیت دوم، زمانی است که بیمهشده با علم به وجود پوشش بیمه، احتیاط کمتر و یا حتی بیاحتیاطی میکند.
برایناساس، میتوان اهم هزینههای وارده ناشی ازاینگونه تقلبات را به شرح زیر طبقهبندی نمود:
- بهطور میانگین خانوادهها حق بیمه بالاتری برای جبران هزینههای ناشی از تقلب میپردازند.
- قیمت کالاها به دلیل پرداخت حق بیمه بیشتر(به سبب هزینههای مربوط به تقلبهای بیمهای)، افزایش مییابد.
- هزینههای بیمه سلامت به دلیل وقوع تقلب در ادعاهای خسارت بهویژه در مناطقی که پوشش نامحدود هستند، افزایش پیدا میکند.
- عموم بیمهشدهها با دقت بیشتری موردبررسی قرار میگیرند و زمان رسیدگی و تسویه مطالبات طولانی میشود.
- به ازای هر واحد پولی که برای تقلب بیمهای هزینه میشود؛ سودآوری شرکت بیمه بهطور مستقیم متأثر میشود.
- با استخدام واحدهای بازرسی، هزینههای نیروی انسانی شرکتهای بیمه افزایش مییابد.
- شرکتهای بیمهای که بهطور مؤثر از تقلب جلوگیری به عمل نمیآورند، ممکن است ظرفیتهای رقابتپذیری خود را از دست دهند؛ خصوصاً زمانی که نرخها به دلیل تقلب افزایش یابد.
دادهکاوی تکنیکهای مختلفی را برای استخراج اطلاعات از دادهها فر اهم میکند. لذا، شرکتهای بیمه برای کشف روندها و مدلها در میان انبوهی از دادهها از تکنیکهای دادهکاوی استفاده مینمایند(رابرت[1] 2010). استفاده از علم دادهکاوی در حوزه تقلب چه کمکی در کنترل این هزینهها میتواند داشته باشد؟ در صورت وجود و جمعآوری دادههای تقلبات چگونه میتوان از آن در کاهش این تخلفات در آتی استفاده نمود؟
در این مقاله پس از مقدمه در بخش ادبیات تحقیق به ساختار کلی تقلب در بازارهای مالی و تحقیقات پیشین در این زمینه پرداخته شده است. در بخش سوم مبانی نظری به کار گرفتهشده در این تحقیق براساس تکنیکهای مورداستفاده ارائه شده است. در بخش چهارم پس از معرفی متغیرهای مدل با استفاده از دادههای اخذشده از یکی از شرکتهای بزرگ بیمه به کمک نرمافزار SPSS Clementine خروجیهای سه روش آنالیز شدهاند و نهایتاً در بخش پنجم به ارائه نتیجهگیری و پیشنهادها براساس روشهای مورداستفاده در مدل پرداخته شده است.
ادبیات تحقیق
در این مقاله تصویری از روشهای دستهبندی برای کاربرد کشف تقلب بیمهای با استفاده از تکنیکهای دادهکاوی ارائه میشود. این ساختار در شکل 1 انعکاس یافته است(نگای[2] و دیگران 2011).
شکل 1. چارچوب کلی کاربرد دادهکاوی در کشف تقلبات مالی
تحقیقات متعددی در رشتۀ بیمه اتومبیل در کشورهای مختلف جهان انجام شده حذف و با توجه به تنوع حجم و نوع دادهها، روشهای مختلفی برای کشف تقلبات بیمه معرفی شده است. این روشها میتوانند در دو طیف با ناظر یا بی ناظر طبقهبندی شوند. در روشهای با ناظر، نمونههایی از موارد تقلبی و غیر تقلبی موجود است. بر این اساس مدلی طراحی میشود که قابلیت تشخیص و پیشبینی تقلبی بودن یا نبودن نمونههای جدید را دارا باشد. این روش برای بررسی تقلباتی کاربرد مییابد که از قبل وجود داشتهاند. روشهای بی ناظر به دنبال کشف نمونههایی هستند که کمترین شباهت با نمونه نرمال را نشان دهند.
ویسبرگ و دریگ[3] یک مدل رگرسیون خطی چندگانه را برای انتخاب شاخص های مختلف تقلب طراحی نمودند. بلادجی و دیون[4] نیز مطالعاتی را با استفاده از دادههای بیمه اتومبیل برای کانادا به انجام رساندند. آرتیس و دیگران[5] از مدلهای لوجیت چندگانه و مدلهای لوجیت چندگانه تودرتو برای کشف تقلب بیمه استفاده کردند. فوآ و همکاران[6] با ترکیب الگوریتمهای شبکه های عصبی پس انتشاری مدل تقلبات بیمه را طراحی و معرفی نمودند. براکت و همکارانش[7] علاوه بر شناسایی خسارتهای تقلبی و دستهبندی آنها از روش تحلیل مؤلفه های اصلی برای انتخاب مهمترین شاخصهای مؤثر بر تقلبات بهره برداری کردند. رخا[8] دستهبندی بیز ساده و درخت تصمیم مبتنی بر الگوریتمهای پیشبینی و آنالیز الگوهای تقلب را مورد استفاده قرار داد. وی اجرای مدلهای متریک که از ماتریس اغتشاش حاصل می شد را مبنای مطالعه خود قرار داد.
مبانی نظری
بیمه اتومبیل در میان رشته های مختلف بیمهای، سهم بالایی در پرتفوی حق بیمه دریافتی و حجم خسارت دارد. از لحاظ رخداد تقلب این رشته بیشتر از سایر رشته ها در معرض وقوع است به طوریکه که عدم توجه به این تقلبات هزینههای شرکت بیمه را افزایش و درآمدهای آنها را کاهش میدهد و در نهایت سبب افت عملکرد شرکت بیمه میشود. بررسی فرایند های تقلب با دریافت گزارش ادعای خسارت آغاز میشود و پس از بررسیهای لازم در صورت نداشن شواهدی مبنی بر ارتکاب تقلب طبق روال عادی برای پرداخت خسارت ارجاع داده میشوند. لذا برای بررسی، پروندهها به دو دسته ی جعلی و غیر جعلی تقسیم میشوند. دستهبندی دادههای مستخرج از پایگاه های اطلاعاتی یکی از موارد مهم در فرایند آنالیز دادهها است که میتواند برای استخراج مدلها و کلاسبندی دادهها مورد استفاده قرار گیرد. این روش، شیوه موثری برای ایجاد درک مناسب از دادههای انبوه محسوب میشود(ویلسون[9] 2005). در طی مراحل انجام فرایند دادهکاوی سه بخش مهم وجود دارد:
- حذف دادهها: دادههای بی ارزش و غیر قابل استفاده حذف میشوند.
- فشرده کردن دادهها: این مرحله با کد گذاری دادهها انجام میشود.
- کشف الگوها: الگوهای موجود در پایگاه دادهها از جمله دستهبندی و.... کشف میشوند.
روشهای دستهبندی میتواند براساس مؤلفه ها و معیار های زیر طبقهبندی و ارزیابی شود:
- دقت: توانایی یک دستهبندی مشخص برای پیشبینی درست یک داده جدید یا مشاهده نشده ی قبلی، رانشان میدهد.
- سرعت: سرعت هزینههای محاسباتی در تثبیت و استفاده از دستهبندی کنندهها یا پیشبینی کنندهها است.
- توانایی: توانایی دستهبندی کننده برای ایجاد پیشبینی های صحیح با دادههای اغتشاش یا ازدسترفته مشخص را منعکس مینماید.
- مقیاسپذیری: توانایی ایجاد کلاسهای کارآمد با دادههای انبوه را نشان میدهد.
- تفسیرپذیری: سطح مفهومرسانی توسط کلاسها میباشد، که یک موضوع ذهنی و کمتر قابلدسترسی است(کامینس و تنیسون[10] 1992).
رگرسیون لجستیک
رگرسیون لجستیک یکی از ابزارهای مهم دادهکاوی است و اغلب در مواقعی کاربرد مییابد که متغیر پاسخ دوبخشی (باینری) باشد(اودد و رکاچ[11] 2010). در این روش ضرورت دارد متغیر پاسخ عدد صحیح یا نسبی باشد. در این مقاله متغیر وابسته اسمی بوده و مقدار یک، برای تقلبی بودن یک ادعا و مقدار صفر، برای غیر تقلبی بودن آن منظور شده است. شکل کلی مدل رگرسیون لجستیک در رابطه ذیل ارائه شده است.
که در آن احتمال تقلبی بودن یک ادعاست، Y=1 به شرط وجود تعدادی از متغیرهای مستقل استد. ضرایبی هستند که باید برآورد شوند. لگاریتم طبیعی این احتمال یا لوجیت Yبه قرار زیر است:
Logit Y = b0 + b1 X1 +…..bnXn
درخت تصمیم
درخت تصمیم یک ابزار پیشبینی با استفاده از مشاهدات است که نمایش نموداری از نتایج ممکن را ارائه میدهد. درخت تصمیم میتواند با الگوریتمهای مختلف فراگیری ماشین مانند ID3، CARTو C4.5طراحی شود. پیشبینی ها بهوسیله برگها و شاخهها به صفات موردبررسی متصل میشوند. درواقع یک مجموعه از گرههای تصمیم با شاخهها به هم متصل میشوند و از ریشه گره گسترش پیدا میکنند تا برگ و گرههای نهایی ادامه مییابد. الگوریتم ردهبندی و درخت رگرسیونی(CART) برای شرایط باینری کاربرد دارد. برای هر گره تنها دو شاخه وجود دارد. درخت تصمیم حاصل از این الگوریتم، برای هر تصمیم یک کاوش کامل از تمام متغیرهای موجود و انشعاب مقادیر فراهم و براساس معیار زیر با خرد کردنهای بهینه، انتخاب میشود. اگر معیار خوبی این خرد کردن برای متغیر s در گره t باشد:
نقطه بهینه زمانی بهدست میآیند که معیار فوق برای تمام حالتهای ممکن خرد کردن در گره مشخص، حداکثر شود )لاروس[12] 2005).
بیز ساده
این روش دستهبندی برای دادههای با حجم بالا دارای دقت و سرعت بالایی است. در ردهبندی بیز ساده فرض بر این است که احتمال رخداد یک صفت روی احتمال سایر صفتها، بیتأثیر است. در تئوری بیز استخراج احتمال پسین با استفاده از احتمال پیشین امکانپذیر است. اگر θ پارامتریک توزیع نامعلوم باشد و P(θ) احتمال پیشین آن باشد، آنگاه:
در مواقعی که مجموعهای از پیشامدهای θ (جعلی و غیر جعلی) وجود داشته باشد، از فرضیه حداکثر احتمال استفاده خواهیم کرد.
که در آن متغیرهای مستقل است (شکوری 1390).
آنالیز دادهها
دادههای این مقاله از یکی از شرکتهای بزرگ بیمه اخذ شده که بعد از پالایش و حذف رکوردهای ناقص مشتمل بر800 رکورد گردید. لازم به توضیح است با توجه به حساسیتهای موجود در ارائه اطلاعات و دادههای ناقص اخذ رکوردهای بیشتر بهمنظور استفاده در مدلها مقدور نبوده است. ازآنجاییکه برای مدلسازی ترکیب نمودن دادههای جعلی و غیر جعلی ضروری است، نیمی از موارد یعنی 400 رکورد از لیست سیاه (که در آن احتمال وقوع تقلب تقریباً یک فرض شده است) در نظر گرفته شد. این گروه از پایگاه داده و انفورماتیک شرکت مربوط پس از مذاکره و کسب مجوز استخراج شده است و شامل پروندههایی بوده است که پس از بررسیهای لازم رأی به تقلبی بودن خسارت اعلامی داده شده است. 400 رکورد دیگر مربوط به بیمهنامههای عادی است. براساس معیار دقت، این مطالعه درصدد است بهترین مدل را شناسایی نماید.
کل دادهها به دو بخش 30 درصد و 70 درصد تقسیم گردید؛ بر این اساس 552 مشاهده مربوط به دادههای آموزشی[13] و 248 مورد دیگر مربوط به مجموعه دادههای آزمایشی برای اعتبارسنجی است. شایان ذکر است، دادههای آموزشی برای ساخت مدل و دادههای آزمایشی[14] برای اعتبار سنجی یا بررسی دقت مدل مورد استفاده قرار میگیرند. دادههای آزمایشی بهمنزله ناظر به الگوریتم وارد و میزان صحت نتایج را ارزیابی میکند. کلیه مراحل در نرمافزار Spss Clementine انجام شده است. بر این اساس، هفت متغیر توضیحی به همراه متغیر پاسخ در جدول 1 نشان داده شده است.
نام متغیر
|
نقش متغیر
|
نوع متغیر
|
نام متغیر
|
نقش متغیر
|
نوع متغیر
|
سابقه بیمهای
“X1”
|
توضیحی
|
گسسته
|
مقدار خسارت
“X5”
|
توضیحی
|
پیوسته
|
تعداد ادعای خسارت
“X2”
|
توضیحی
|
گسسته
|
جنس
“X6”
|
توضیحی
|
دودویی
|
تأخیر در اعلان خسارت
“X3”
|
توضیحی
|
پیوسته
|
سن
“X7”
|
توضیحی
|
پیوسته
|
کروکی
“X4”
|
توضیحی
|
دودویی
|
تقلب
“Y”
|
توضیحی
|
اسمی
|
جدول 1. متغیرهای مورداستفاده در مدلها
در هر سه روش مورداستفاده در این مقاله، تقلبی بودن یا نبودن یک متغیر وابسته یا پاسخ در نظر گرفته میشود. اولین متغیر مستقل سابقه بیمهای است. در این زمینه ازنظر و تجربه کارشناسان خبره استفاده شده است و به این دلیل برگزیده شده است که انتظار میرود احتمال ارتکاب تقلب توسط بیمهگذارانی که سابقه بیمهای بالاتری در شرکت بیمه دارند کمتر باشد.
دومین متغیر توضیحی، تعداد ادعاهای خسارت است که بالا بودن این تعداد احتمال تقلبی بودن خسارت را افزایش میدهد. متغیر توضیحی بعدی تأخیر در اعلان خسارت است و فرض بر این است که هر چه این دوره طولانیتر شود، احتمال تقلب افزایش خواهد یافت. متغیر دیگری که مورد ملاحظه قرارگرفته است، کروکی در صحنه حادثه است. انتظار میرود با حضور پلیس در صحنه تصادف، احتمال تقلب تقلیل یابد. مقدار یک برای وجود کروکی و صفر برای عدم وجود آن در نظر گرفته شده است. پنجمین متغیر مستقل، مقدار خسارت است. ازآنجاییکه شرکتهای بیمه برای خسارتهای با مبالغ بالا حساسیت بیشتری نشان میدهند؛ به نظر میرسد با افزایش این مبلغ احتمال تقلب کاهش مییابد. سن راننده در زمان تصادف و جنسیت راننده دو متغیر مستقل دیگری هستند که در این مطالعه در نظر گرفته شدهاند. با توجه به متغیرهای مستقل اشاره شده، باید خاطرنشان نمود که هدف اصلی این مطالعه کلاسبندی و پیشبینی متغیر پاسخ براساس متغیرهای توضیحی است.
دستهبندی با روش بیز ساده
بعد از برازش مدل با استفاده از این روش، خروجی در جدول 2 تحت عنوان جدول احتمالات شرطی نشان داده شده است.
متغیر پاسخ
|
سابقه بیمهای
|
تعداد ادعای خسارت
|
تأخیر در اعلان خسارت
|
کروکی
|
مقدار خسارت
|
جنس
|
سن
|
غ
|
ج
|
|
غ
|
ج
|
|
غ
|
ج
|
|
غ
|
ج
|
|
غ
|
ج
|
|
غ
|
ج
|
|
غ
|
ج
|
|
غ
|
ج
|
0.5
|
0.5
|
1
|
0.140
|
0.650
|
0
|
0.550
|
0
|
1
|
0.985
|
0.98
|
0
|
0.652
|
0.192
|
1
|
1
|
0.988
|
1
|
0.842
|
0.840
|
1
|
0.210
|
0.232
|
|
|
2
|
0.288
|
0.338
|
1
|
0.388
|
0.328
|
2
|
0.008
|
0.008
|
1
|
0.348
|
0.808
|
2
|
0
|
0.1
|
2
|
0.158
|
0.160
|
2
|
0.170
|
0.220 |
|
|
3
|
0.165
|
0.012
|
2
|
0.052
|
0.498
|
3
|
0.005
|
0.002
|
|
|
|
3
|
0
|
0.02
|
|
|
|
3
|
0.240
|
0.190
|
|
|
4
|
0.295
|
0
|
3
|
0.01
|
0.168
|
4
|
0.002
|
0.008
|
|
|
|
|
|
|
|
|
|
4
|
0.200
|
0.208
|
|
|
5
|
0.112
|
0
|
4
|
0
|
0.008
|
5
|
0
|
0.002
|
|
|
|
|
|
|
|
|
|
5
|
0.180
|
0.150
|
Value 1 for ،,value 2 for ،, value 3 for ، , ، .
Value 1 for ،, value 2 for ،,value 3 for ، ,value 4 for ،,value 5 for .
Value 1 for ،,value 2 for ،value 3 for.
value 1 for ،,value 2 for ،,value3 for ، ,value 4 for ،,value for .
ج: جعلی // غ: غیرجعلی
|
جدول 2. جدول احتمالات شرطی روش بیز ساده
با استفاده از احتمالات جدول فوق، ردهبندی دادههای آزمایشی صورت پذیرفته و نتایج در جدول 3 نشان داده شده است.
دقت
|
پاسخ(پیشبینی شده)
|
|
غیر جعلی
|
جعلی
|
|
4/98%
|
2
|
123
|
جعلی
|
متغیر پاسخ (مشاهده شده)
|
7/87%
|
107
|
16
|
غیر جعلی
|
92.74% |
کل
|
جدول 3. جدول دقت مدل بیز ساده
همچنان که ملاحظه میشود دقت مدل در شناسایی پروندههای جعلی 4/98 درصد و برای غیر جعلی 7/87 درصد است، ضمن اینکه دقت مدل برای کل ادعاها اعم از جعلی و غیر جعلی 74/92 درصد میباشد. شایان ذکر است، در روش دستهبندی، هریک از متغیرها اهمیت متفاوتی در پیشبینی متغیر پاسخ دارند. نمودار زیر اهمیت این متغیرها در روش بیز ساده را نشان میدهد.
شکل2. نمودار اهمیت متغیرهای مدل بیز ساده
دستهبندی با روش درخت تصمیم
با استفاده از دادههای مربوطه، درخت تصمیم در شکل 3 نشان داده شده است.
شکل 3. درخت تصمیم
براساس نمودار فوق میتوان یک مشاهده نمونه را کلاسبندی نمود(پیشبینی متغیر پاسخ آن مشاهده). برای مثال، اگر سابقه بیمهای کمتر از 5/3 سال و مقدار خسارت بیش از 447500 ریال باشد میتوان گفت متغیر پاسخ صفر یا غیر جعلی میباشد. به همین صورت قوانین دیگری را میتوان بهطور مستقیم از نمودار درخت تصمیم استخراج نمود. سرانجام با بهکارگیری دادههای آزمایشی، دقت مدل طبق جدول زیر استخراج میشود.
دقت
|
پاسخ(پیشبینی شده)
|
|
غیر جعلی
|
جعلی
|
|
95.2%
|
6
|
119
|
جعلی
|
متغیر پاسخ (مشاهده شده)
|
88.61%
|
109
|
14
|
غیر جعلی
|
92.74% |
کل
|
جدول 4. جدول دقت مدل درخت تصمیم
دقت مدل برای موارد جعلی و غیر جعلی به ترتیب 2/95 و 61/88 درصد است. ضمن اینکه مدل درخت تصمیم برای کل ادعاها، دقتی معادل 74/92 درصد دارد. اهمیت متغیرها در این روش در قالب نمودار زیر قابلارائه است.
شکل4. نمودار اهمیت متغیرهای مدل درخت تصمیم
دستهبندی با روش رگرسیون لجستیک
در این مرحله رگرسیون لجستیک پیشرو با استفاده از دادههای آموزشی به کار گرفته شده است (متغیرهایی که تأثیر بیشتری داشتهاند، به ترتیب وارد مدل شدهاند). پارامترها با استفاده از روش حداکثر درستنمایی تخمین زده شدهاند. این برآوردها در جدول 5 ارائه شدهاند.
معنیداری
|
انحراف استاندارد
|
پارامتر
|
متغیر
|
|
0.000
0.000
|
0/245
0/296
|
2/881
-274/3
|
ثابت
|
گام اول
|
0.000
0.000
0/057
|
0/210
0/421
0/483
|
-784/1
3/717
0/921
|
ثابت
|
گام دوم
|
0.000
0.000
0.000
0/0721
|
0/249
0/478
0/469
0/587
|
-951/1
3/876
2/370
-210/0
|
ثابت
|
گام سوم
|
جدول 5. برآورد پارامترهای مدل رگرسیون لجستیک
در هر گام متغیرهای با بالاترین تأثیر، اضافه و مابقی حذف شدهاند. در ادامه مقیاسهای معنیداری مدل در جدول 6 ارائه میشود.
Nagelkerke R-square
|
Cox & Snell R-square
|
Likelihood logarithm
|
|
648/0
|
486/0
|
236/398
|
گام اول
|
871/0
|
653/0
|
194/180
|
گام دوم
|
897/0
|
672/0
|
128/149
|
گام سوم
|
جدول6. معیار برازش مدل رگرسیون لجستیک
نخستین معیار، احتساب دو برابر لگاریتم تابع درستنمایی است. این معیار، دال بر معنیداری ضرایب متغیرهای مستقل میباشد. کاهش این معیار در جدول، نشاندهنده بهبود مدل در طی گامهای پیش رفته میباشد. مقادیر مربع R کاکس وسل و مربع R ناجل کرک نیز محاسبه شده است که درصد تغییرات متغیر وابسته مدل را نشان میدهد.
مدل فوق برای ردهبندی ادعاها مورد استفاده قرار میگیرد و نتایج آن در قالب جدول 7 نشان داده شده است.
دقت
|
پاسخ (پیشبینی شده)
|
|
غیر جعلی
|
جعلی
|
|
96.8%
|
4
|
121
|
جعلی
|
متغیر پاسخ (مشاهده شده)
|
90.2%
|
111
|
12
|
غیر جعلی
|
93.55% |
کل
|
جدول7. دقت مدل رگرسیون لجستیک
ملاحظه میشود که مدل رگرسیون لجستیک، دارای دقت 55/93% برای کل ادعاها است که بهتر از پیشبینی تصادفی 50% است. لذا با استفاده از سه متغیر مستقل در مدل لجستیک به نحو مناسبتری میتوان به توضیح مدل پرداخت. مقادیر متغیرهای مستقل میتوانند برای تخمین احتمال متغیر پاسخ، در مدل فوقالذکر جایگذاری شوند. برای نمونه، اگر مقادیر متغیرهای x1 و x2 و x4 به ترتیب برابر 4و 3 و1 باشد:
397.0253
بنابراین؛ احتمال جعلی بودن برای ادعای یک شخص برابر 0.99 است. برای مقایسه همان حالت قبلی تنها با این تفاوت که تعداد ادعای خسارت فرد صفر باشد. در این حالت خواهیم داشت:
درنتیجه:
= 0.00349
بنابراین؛ احتمال اینکه ادعای شخص جعلی باشد به 0/00349 کاهش یافته است. چنانچه میانبر50:50(احتمال جعلی و غیرجعلی هردو ) برای حالت دوم در نظرگرفته شود؛ ضرورتی برای پیگیریهای بیشتر توسط واحد بازرسی وجود ندارد؛ زیرا طبق جدول احتمالات؛ احتمال جعلی بودن صفر است.
اهمیت متغیرها برای مدل رگرسیون لجستیک در نمودار زیر نشان داده شده است.
شکل 5. نمودار اهمیت متغیرهای مدل رگرسیون لجستیک
نتایج و پیشنهادها
دادهکاوی و روشهای مختلف آن بهمنزله علمی در حال رشد میتواند کاربرد وسیعی در صنعت بیمه داشته باشد؛ بهنحویکه استخراج نتایج کاربردی و مدلسازی از انبوه دادهها خود زمینهای رو به رشد در مدیریت هر چه بیشتر ریسکهای یک شرکت بیمه است. اعمال سه تکنیک دادهکاوی بر روی دادههای واقعی و ارزیابی نتایج آنها مؤید آن است که رگرسیون لجستیک(نسبت به سایر روشها) از دقت بیشتری برخوردار است. از طرف دیگر، از میان متغیرهای مستقل سابقه بیمهای، تعداد ادعاهای خسارت و داشتن کروکی(نسبت به سایر متغیرها) از اهمیت بالاتری برخوردار هستند. یافتههای این مطالعه تأیید نمود که بیشتر تقلبهای بیمه اتومبیل در افراد میانسال رخ میدهد و با افزایش میزان خسارت، احتمال جعلی بودن کاهش مییابد.
در روشهای درخت تصمیم، رگرسیون لجستیک و بیز ساده به ترتیب چهار، سه و هفت متغیر به کار گرفته شدهاند. همانطور ملاحظه گردید در هر سه مدل متغیرهای سابقه بیمهای، تعداد ادعاهای خسارت و وجود یا عدم وجود کروکی برای صحنه حادثه از اهمیت بالایی برخوردار میباشند. شایانذکر است که روش رگرسیون لجستیک به محاسبات کمتری نسبت به سایر روشها نیاز دارد. این در حالی است که در مواقعی که سرعت تصمیمگیری اهمیت دارد، روش درخت تصمیم دید شماتیک مناسبتری را بهدست میدهد. روش بیز نیز زمانی که احتمال رخداد یک شاخص وابسته به احتمال رخداد سایر متغیرها وابسته نیست، میتواند از دقت خوبی برخوردار باشد. از بررسیهای صورت گرفته برای کشف تقلب این شاخه از صنعت بیمه میتوان برای مدلسازی و کشف تقلبات سایر رشتهها نظیر بیمه درمان نیز استفاده نمود. سایر روشهای شناسایی تقلب در حوزه دادهکاوی ازجمله سیستم خبره فازی و ماشین بردار پشتیبان میتواند در این زمینه استفاده شود.
مدلهای تقلب، برای مؤثر بودن در کاهش تقلبهای بیمهای(بهویژه در یک بازه زمانی بلندمدت) نیاز به، بروز رسانی مداوم، جهت سازگاری رفتارهای تقلب با الگوهای جدید دارند. در صورت وجود اطلاعات، متغیرهای مستقل دیگری را نیز میتوان به مدل افزود. ازجمله این متغیرها میتوان به زمان تصادف، درونشهری یا برونشهری بودن منطقه تصادف، تعداد مسافران در هنگام حادثه و تعداد سالهایی که از زمان اخذ گواهینامه رانندگی گذشته است، اشاره نمود. استفاده ازنظر خبرگان نیز میتواند به انتخاب شاخصهای مناسب تقلب کمک نماید.
ییابد. نتیجه این اقدامات درنهایت میتواند به کمینه نمودن خسارات منجر شود.
افرادی که مرتکب تقلب میشوند، میکوشند تا منفعت بیشتری از بیمهنامه (فراتر از خسارت واردشده)، دریافت کنند. معمولاً در دو موقعیت ممکن است بیمهشده اقدام به تقلب نماید. نخست در شرایطی که یک شخص بهصورت عمدی تلاش میکند تا خسارتی را ایجاد و یا در گزارش میزان وقوع آن اغراق نماید. موقعیت دوم، زمانی است که بیمهشده با علم به وجود پوشش بیمه، احتیاط کمتر و یا حتی بیاحتیاطی میکند.
برایناساس، میتوان اهم هزینههای وارده ناشی ازاینگونه تقلبات را به شرح زیر طبقهبندی نمود:
- بهطور میانگین خانوادهها حق بیمه بالاتری برای جبران هزینههای ناشی از تقلب میپردازند.
- قیمت کالاها به دلیل پرداخت حق بیمه بیشتر(به سبب هزینههای مربوط به تقلبهای بیمهای)، افزایش مییابد.
- هزینههای بیمه سلامت به دلیل وقوع تقلب در ادعاهای خسارت بهویژه در مناطقی که پوشش نامحدود هستند، افزایش پیدا میکند.
- عموم بیمهشدهها با دقت بیشتری موردبررسی قرار میگیرند و زمان رسیدگی و تسویه مطالبات طولانی میشود.
- به ازای هر واحد پولی که برای تقلب بیمهای هزینه میشود؛ سودآوری شرکت بیمه بهطور مستقیم متأثر میشود.
- با استخدام واحدهای بازرسی، هزینههای نیروی انسانی شرکتهای بیمه افزایش مییابد.
- شرکتهای بیمهای که بهطور مؤثر از تقلب جلوگیری به عمل نمیآورند، ممکن است ظرفیتهای رقابتپذیری خود را از دست دهند؛ خصوصاً زمانی که نرخها به دلیل تقلب افزایش یابد.
دادهکاوی تکنیکهای مختلفی را برای استخراج اطلاعات از دادهها فر اهم میکند. لذا، شرکتهای بیمه برای کشف روندها و مدلها در میان انبوهی از دادهها از تکنیکهای دادهکاوی استفاده مینمایند(رابرت[1] 2010). استفاده از علم دادهکاوی در حوزه تقلب چه کمکی در کنترل این هزینهها میتواند داشته باشد؟ در صورت وجود و جمعآوری دادههای تقلبات چگونه میتوان از آن در کاهش این تخلفات در آتی استفاده نمود؟
در این مقاله پس از مقدمه در بخش ادبیات تحقیق به ساختار کلی تقلب در بازارهای مالی و تحقیقات پیشین در این زمینه پرداخته شده است. در بخش سوم مبانی نظری به کار گرفتهشده در این تحقیق براساس تکنیکهای مورداستفاده ارائه شده است. در بخش چهارم پس از معرفی متغیرهای مدل با استفاده از دادههای اخذشده از یکی از شرکتهای بزرگ بیمه به کمک نرمافزار SPSS Clementine خروجیهای سه روش آنالیز شدهاند و نهایتاً در بخش پنجم به ارائه نتیجهگیری و پیشنهادها براساس روشهای مورداستفاده در مدل پرداخته شده است.
ادبیات تحقیق
در این مقاله تصویری از روشهای دستهبندی برای کاربرد کشف تقلب بیمهای با استفاده از تکنیکهای دادهکاوی ارائه میشود. این ساختار در شکل 1 انعکاس یافته است(نگای[2] و دیگران 2011).
شکل 1. چارچوب کلی کاربرد دادهکاوی در کشف تقلبات مالی
تحقیقات متعددی در رشتۀ بیمه اتومبیل در کشورهای مختلف جهان انجام شده حذف و با توجه به تنوع حجم و نوع دادهها، روشهای مختلفی برای کشف تقلبات بیمه معرفی شده است. این روشها میتوانند در دو طیف با ناظر یا بی ناظر طبقهبندی شوند. در روشهای با ناظر، نمونههایی از موارد تقلبی و غیر تقلبی موجود است. بر این اساس مدلی طراحی میشود که قابلیت تشخیص و پیشبینی تقلبی بودن یا نبودن نمونههای جدید را دارا باشد. این روش برای بررسی تقلباتی کاربرد مییابد که از قبل وجود داشتهاند. روشهای بی ناظر به دنبال کشف نمونههایی هستند که کمترین شباهت با نمونه نرمال را نشان دهند.
ویسبرگ و دریگ[3] یک مدل رگرسیون خطی چندگانه را برای انتخاب شاخص های مختلف تقلب طراحی نمودند. بلادجی و دیون[4] نیز مطالعاتی را با استفاده از دادههای بیمه اتومبیل برای کانادا به انجام رساندند. آرتیس و دیگران[5] از مدلهای لوجیت چندگانه و مدلهای لوجیت چندگانه تودرتو برای کشف تقلب بیمه استفاده کردند. فوآ و همکاران[6] با ترکیب الگوریتمهای شبکه های عصبی پس انتشاری مدل تقلبات بیمه را طراحی و معرفی نمودند. براکت و همکارانش[7] علاوه بر شناسایی خسارتهای تقلبی و دستهبندی آنها از روش تحلیل مؤلفه های اصلی برای انتخاب مهمترین شاخصهای مؤثر بر تقلبات بهره برداری کردند. رخا[8] دستهبندی بیز ساده و درخت تصمیم مبتنی بر الگوریتمهای پیشبینی و آنالیز الگوهای تقلب را مورد استفاده قرار داد. وی اجرای مدلهای متریک که از ماتریس اغتشاش حاصل می شد را مبنای مطالعه خود قرار داد.
مبانی نظری
بیمه اتومبیل در میان رشته های مختلف بیمهای، سهم بالایی در پرتفوی حق بیمه دریافتی و حجم خسارت دارد. از لحاظ رخداد تقلب این رشته بیشتر از سایر رشته ها در معرض وقوع است به طوریکه که عدم توجه به این تقلبات هزینههای شرکت بیمه را افزایش و درآمدهای آنها را کاهش میدهد و در نهایت سبب افت عملکرد شرکت بیمه میشود. بررسی فرایند های تقلب با دریافت گزارش ادعای خسارت آغاز میشود و پس از بررسیهای لازم در صورت نداشن شواهدی مبنی بر ارتکاب تقلب طبق روال عادی برای پرداخت خسارت ارجاع داده میشوند. لذا برای بررسی، پروندهها به دو دسته ی جعلی و غیر جعلی تقسیم میشوند. دستهبندی دادههای مستخرج از پایگاه های اطلاعاتی یکی از موارد مهم در فرایند آنالیز دادهها است که میتواند برای استخراج مدلها و کلاسبندی دادهها مورد استفاده قرار گیرد. این روش، شیوه موثری برای ایجاد درک مناسب از دادههای انبوه محسوب میشود(ویلسون[9] 2005). در طی مراحل انجام فرایند دادهکاوی سه بخش مهم وجود دارد:
- حذف دادهها: دادههای بی ارزش و غیر قابل استفاده حذف میشوند.
- فشرده کردن دادهها: این مرحله با کد گذاری دادهها انجام میشود.
- کشف الگوها: الگوهای موجود در پایگاه دادهها از جمله دستهبندی و.... کشف میشوند.
روشهای دستهبندی میتواند براساس مؤلفه ها و معیار های زیر طبقهبندی و ارزیابی شود:
- دقت: توانایی یک دستهبندی مشخص برای پیشبینی درست یک داده جدید یا مشاهده نشده ی قبلی، رانشان میدهد.
- سرعت: سرعت هزینههای محاسباتی در تثبیت و استفاده از دستهبندی کنندهها یا پیشبینی کنندهها است.
- توانایی: توانایی دستهبندی کننده برای ایجاد پیشبینی های صحیح با دادههای اغتشاش یا ازدسترفته مشخص را منعکس مینماید.
- مقیاسپذیری: توانایی ایجاد کلاسهای کارآمد با دادههای انبوه را نشان میدهد.
- تفسیرپذیری: سطح مفهومرسانی توسط کلاسها میباشد، که یک موضوع ذهنی و کمتر قابلدسترسی است(کامینس و تنیسون[10] 1992).
رگرسیون لجستیک
رگرسیون لجستیک یکی از ابزارهای مهم دادهکاوی است و اغلب در مواقعی کاربرد مییابد که متغیر پاسخ دوبخشی (باینری) باشد(اودد و رکاچ[11] 2010). در این روش ضرورت دارد متغیر پاسخ عدد صحیح یا نسبی باشد. در این مقاله متغیر وابسته اسمی بوده و مقدار یک، برای تقلبی بودن یک ادعا و مقدار صفر، برای غیر تقلبی بودن آن منظور شده است. شکل کلی مدل رگرسیون لجستیک در رابطه ذیل ارائه شده است.
که در آن احتمال تقلبی بودن یک ادعاست، Y=1 به شرط وجود تعدادی از متغیرهای مستقل استد. ضرایبی هستند که باید برآورد شوند. لگاریتم طبیعی این احتمال یا لوجیت Yبه قرار زیر است:
Logit Y = b0 + b1 X1 +…..bnXn
درخت تصمیم
درخت تصمیم یک ابزار پیشبینی با استفاده از مشاهدات است که نمایش نموداری از نتایج ممکن را ارائه میدهد. درخت تصمیم میتواند با الگوریتمهای مختلف فراگیری ماشین مانند ID3، CARTو C4.5طراحی شود. پیشبینی ها بهوسیله برگها و شاخهها به صفات موردبررسی متصل میشوند. درواقع یک مجموعه از گرههای تصمیم با شاخهها به هم متصل میشوند و از ریشه گره گسترش پیدا میکنند تا برگ و گرههای نهایی ادامه مییابد. الگوریتم ردهبندی و درخت رگرسیونی(CART) برای شرایط باینری کاربرد دارد. برای هر گره تنها دو شاخه وجود دارد. درخت تصمیم حاصل از این الگوریتم، برای هر تصمیم یک کاوش کامل از تمام متغیرهای موجود و انشعاب مقادیر فراهم و براساس معیار زیر با خرد کردنهای بهینه، انتخاب میشود. اگر معیار خوبی این خرد کردن برای متغیر s در گره t باشد:
نقطه بهینه زمانی بهدست میآیند که معیار فوق برای تمام حالتهای ممکن خرد کردن در گره مشخص، حداکثر شود )لاروس[12] 2005).
بیز ساده
این روش دستهبندی برای دادههای با حجم بالا دارای دقت و سرعت بالایی است. در ردهبندی بیز ساده فرض بر این است که احتمال رخداد یک صفت روی احتمال سایر صفتها، بیتأثیر است. در تئوری بیز استخراج احتمال پسین با استفاده از احتمال پیشین امکانپذیر است. اگر θ پارامتریک توزیع نامعلوم باشد و P(θ) احتمال پیشین آن باشد، آنگاه:
در مواقعی که مجموعهای از پیشامدهای θ (جعلی و غیر جعلی) وجود داشته باشد، از فرضیه حداکثر احتمال استفاده خواهیم کرد.
که در آن متغیرهای مستقل است (شکوری 1390).
آنالیز دادهها
دادههای این مقاله از یکی از شرکتهای بزرگ بیمه اخذ شده که بعد از پالایش و حذف رکوردهای ناقص مشتمل بر800 رکورد گردید. لازم به توضیح است با توجه به حساسیتهای موجود در ارائه اطلاعات و دادههای ناقص اخذ رکوردهای بیشتر بهمنظور استفاده در مدلها مقدور نبوده است. ازآنجاییکه برای مدلسازی ترکیب نمودن دادههای جعلی و غیر جعلی ضروری است، نیمی از موارد یعنی 400 رکورد از لیست سیاه (که در آن احتمال وقوع تقلب تقریباً یک فرض شده است) در نظر گرفته شد. این گروه از پایگاه داده و انفورماتیک شرکت مربوط پس از مذاکره و کسب مجوز استخراج شده است و شامل پروندههایی بوده است که پس از بررسیهای لازم رأی به تقلبی بودن خسارت اعلامی داده شده است. 400 رکورد دیگر مربوط به بیمهنامههای عادی است. براساس معیار دقت، این مطالعه درصدد است بهترین مدل را شناسایی نماید.
کل دادهها به دو بخش 30 درصد و 70 درصد تقسیم گردید؛ بر این اساس 552 مشاهده مربوط به دادههای آموزشی[13] و 248 مورد دیگر مربوط به مجموعه دادههای آزمایشی برای اعتبارسنجی است. شایان ذکر است، دادههای آموزشی برای ساخت مدل و دادههای آزمایشی[14] برای اعتبار سنجی یا بررسی دقت مدل مورد استفاده قرار میگیرند. دادههای آزمایشی بهمنزله ناظر به الگوریتم وارد و میزان صحت نتایج را ارزیابی میکند. کلیه مراحل در نرمافزار Spss Clementine انجام شده است. بر این اساس، هفت متغیر توضیحی به همراه متغیر پاسخ در جدول 1 نشان داده شده است.
نام متغیر
|
نقش متغیر
|
نوع متغیر
|
نام متغیر
|
نقش متغیر
|
نوع متغیر
|
سابقه بیمهای
“X1”
|
توضیحی
|
گسسته
|
مقدار خسارت
“X5”
|
توضیحی
|
پیوسته
|
تعداد ادعای خسارت
“X2”
|
توضیحی
|
گسسته
|
جنس
“X6”
|
توضیحی
|
دودویی
|
تأخیر در اعلان خسارت
“X3”
|
توضیحی
|
پیوسته
|
سن
“X7”
|
توضیحی
|
پیوسته
|
کروکی
“X4”
|
توضیحی
|
دودویی
|
تقلب
“Y”
|
توضیحی
|
اسمی
|
جدول 1. متغیرهای مورداستفاده در مدلها
در هر سه روش مورداستفاده در این مقاله، تقلبی بودن یا نبودن یک متغیر وابسته یا پاسخ در نظر گرفته میشود. اولین متغیر مستقل سابقه بیمهای است. در این زمینه ازنظر و تجربه کارشناسان خبره استفاده شده است و به این دلیل برگزیده شده است که انتظار میرود احتمال ارتکاب تقلب توسط بیمهگذارانی که سابقه بیمهای بالاتری در شرکت بیمه دارند کمتر باشد.
دومین متغیر توضیحی، تعداد ادعاهای خسارت است که بالا بودن این تعداد احتمال تقلبی بودن خسارت را افزایش میدهد. متغیر توضیحی بعدی تأخیر در اعلان خسارت است و فرض بر این است که هر چه این دوره طولانیتر شود، احتمال تقلب افزایش خواهد یافت. متغیر دیگری که مورد ملاحظه قرارگرفته است، کروکی در صحنه حادثه است. انتظار میرود با حضور پلیس در صحنه تصادف، احتمال تقلب تقلیل یابد. مقدار یک برای وجود کروکی و صفر برای عدم وجود آن در نظر گرفته شده است. پنجمین متغیر مستقل، مقدار خسارت است. ازآنجاییکه شرکتهای بیمه برای خسارتهای با مبالغ بالا حساسیت بیشتری نشان میدهند؛ به نظر میرسد با افزایش این مبلغ احتمال تقلب کاهش مییابد. سن راننده در زمان تصادف و جنسیت راننده دو متغیر مستقل دیگری هستند که در این مطالعه در نظر گرفته شدهاند. با توجه به متغیرهای مستقل اشاره شده، باید خاطرنشان نمود که هدف اصلی این مطالعه کلاسبندی و پیشبینی متغیر پاسخ براساس متغیرهای توضیحی است.
دستهبندی با روش بیز ساده
بعد از برازش مدل با استفاده از این روش، خروجی در جدول 2 تحت عنوان جدول احتمالات شرطی نشان داده شده است.
با استفاده از دادههای مربوطه، درخت تصمیم در شکل 3 نشان داده شده است.
براساس نمودار فوق میتوان یک مشاهده نمونه را کلاسبندی نمود(پیشبینی متغیر پاسخ آن مشاهده). برای مثال، اگر سابقه بیمهای کمتر از 5/3 سال و مقدار خسارت بیش از 447500 ریال باشد میتوان گفت متغیر پاسخ صفر یا غیر جعلی میباشد. به همین صورت قوانین دیگری را میتوان بهطور مستقیم از نمودار درخت تصمیم استخراج نمود. سرانجام با بهکارگیری دادههای آزمایشی، دقت مدل طبق جدول زیر استخراج میشود.
دقت مدل برای موارد جعلی و غیر جعلی به ترتیب 2/95 و 61/88 درصد است. ضمن اینکه مدل درخت تصمیم برای کل ادعاها، دقتی معادل 74/92 درصد دارد. اهمیت متغیرها در این روش در قالب نمودار زیر قابلارائه است.
در این مرحله رگرسیون لجستیک پیشرو با استفاده از دادههای آموزشی به کار گرفته شده است (متغیرهایی که تأثیر بیشتری داشتهاند، به ترتیب وارد مدل شدهاند). پارامترها با استفاده از روش حداکثر درستنمایی تخمین زده شدهاند. این برآوردها در جدول 5 ارائه شدهاند.
در هر گام متغیرهای با بالاترین تأثیر، اضافه و مابقی حذف شدهاند. در ادامه مقیاسهای معنیداری مدل در جدول 6 ارائه میشود.
نخستین معیار، احتساب دو برابر لگاریتم تابع درستنمایی است. این معیار، دال بر معنیداری ضرایب متغیرهای مستقل میباشد. کاهش این معیار در جدول، نشاندهنده بهبود مدل در طی گامهای پیش رفته میباشد. مقادیر مربع R کاکس وسل و مربع R ناجل کرک نیز محاسبه شده است که درصد تغییرات متغیر وابسته مدل را نشان میدهد.
مدل فوق برای ردهبندی ادعاها مورد استفاده قرار میگیرد و نتایج آن در قالب جدول 7 نشان داده شده است.
ملاحظه میشود که مدل رگرسیون لجستیک، دارای دقت 55/93% برای کل ادعاها است که بهتر از پیشبینی تصادفی 50% است. لذا با استفاده از سه متغیر مستقل در مدل لجستیک به نحو مناسبتری میتوان به توضیح مدل پرداخت. مقادیر متغیرهای مستقل میتوانند برای تخمین احتمال متغیر پاسخ، در مدل فوقالذکر جایگذاری شوند. برای نمونه، اگر مقادیر متغیرهای x1 و x2 و x4 به ترتیب برابر 4و 3 و1 باشد:
بنابراین؛ احتمال جعلی بودن برای ادعای یک شخص برابر 0.99 است. برای مقایسه همان حالت قبلی تنها با این تفاوت که تعداد ادعای خسارت فرد صفر باشد. در این حالت خواهیم داشت:
بنابراین؛ احتمال اینکه ادعای شخص جعلی باشد به 0/00349 کاهش یافته است. چنانچه میانبر50:50(احتمال جعلی و غیرجعلی هردو ) برای حالت دوم در نظرگرفته شود؛ ضرورتی برای پیگیریهای بیشتر توسط واحد بازرسی وجود ندارد؛ زیرا طبق جدول احتمالات؛ احتمال جعلی بودن صفر است.
اهمیت متغیرها برای مدل رگرسیون لجستیک در نمودار زیر نشان داده شده است.
دادهکاوی و روشهای مختلف آن بهمنزله علمی در حال رشد میتواند کاربرد وسیعی در صنعت بیمه داشته باشد؛ بهنحویکه استخراج نتایج کاربردی و مدلسازی از انبوه دادهها خود زمینهای رو به رشد در مدیریت هر چه بیشتر ریسکهای یک شرکت بیمه است. اعمال سه تکنیک دادهکاوی بر روی دادههای واقعی و ارزیابی نتایج آنها مؤید آن است که رگرسیون لجستیک(نسبت به سایر روشها) از دقت بیشتری برخوردار است. از طرف دیگر، از میان متغیرهای مستقل سابقه بیمهای، تعداد ادعاهای خسارت و داشتن کروکی(نسبت به سایر متغیرها) از اهمیت بالاتری برخوردار هستند. یافتههای این مطالعه تأیید نمود که بیشتر تقلبهای بیمه اتومبیل در افراد میانسال رخ میدهد و با افزایش میزان خسارت، احتمال جعلی بودن کاهش مییابد.
در روشهای درخت تصمیم، رگرسیون لجستیک و بیز ساده به ترتیب چهار، سه و هفت متغیر به کار گرفته شدهاند. همانطور ملاحظه گردید در هر سه مدل متغیرهای سابقه بیمهای، تعداد ادعاهای خسارت و وجود یا عدم وجود کروکی برای صحنه حادثه از اهمیت بالایی برخوردار میباشند. شایانذکر است که روش رگرسیون لجستیک به محاسبات کمتری نسبت به سایر روشها نیاز دارد. این در حالی است که در مواقعی که سرعت تصمیمگیری اهمیت دارد، روش درخت تصمیم دید شماتیک مناسبتری را بهدست میدهد. روش بیز نیز زمانی که احتمال رخداد یک شاخص وابسته به احتمال رخداد سایر متغیرها وابسته نیست، میتواند از دقت خوبی برخوردار باشد. از بررسیهای صورت گرفته برای کشف تقلب این شاخه از صنعت بیمه میتوان برای مدلسازی و کشف تقلبات سایر رشتهها نظیر بیمه درمان نیز استفاده نمود. سایر روشهای شناسایی تقلب در حوزه دادهکاوی ازجمله سیستم خبره فازی و ماشین بردار پشتیبان میتواند در این زمینه استفاده شود.
مدلهای تقلب، برای مؤثر بودن در کاهش تقلبهای بیمهای(بهویژه در یک بازه زمانی بلندمدت) نیاز به، بروز رسانی مداوم، جهت سازگاری رفتارهای تقلب با الگوهای جدید دارند. در صورت وجود اطلاعات، متغیرهای مستقل دیگری را نیز میتوان به مدل افزود. ازجمله این متغیرها میتوان به زمان تصادف، درونشهری یا برونشهری بودن منطقه تصادف، تعداد مسافران در هنگام حادثه و تعداد سالهایی که از زمان اخذ گواهینامه رانندگی گذشته است، اشاره نمود. استفاده ازنظر خبرگان نیز میتواند به انتخاب شاخصهای مناسب تقلب کمک نماید.