رابطه ۲-۹  
و رابطه ۲-۱۰ Likehood_Ratio=

اگر قانون بطور اتفاقی پیش بینی شود تعداد تکرار کلاس i میان رکورد­هاست و مقدار مورد انتظار کلاس i است.
Cn2 از روشlikedhooh_ratio و RIPPER از FOIL برای خاتمه الگوریتم استفاده می­ کند[۴].
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت nefo.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))

روش غیر مستقیم: استخراج قوانین از روش های دسته بندی مانند درخت تصمیم
در مقایسه با درخت تصمیم بزرگ قوانین برای انسان راحت­تر قابل فهم است برای ساختن قوانین از درخت تصمیم ما هر مسیر از ریشه تا برگ را پیمایش می­کنیم. معیار جدا کننده نودها برای رسیدن تا برگ AND است و برگ نتیجه نگه می­دارد که قبلش برگThen می ­آید. در اینجا شرط انحصار متقابل برقرار است و هیچ دو قانونی یک رکورد را ارضا نمی­کند[۴].

شکل ۲-۵: شبکه کد الگوریتم توالی پوشش [۴]

۲-۲-۵ مدل ­کاهل

در یک نگاه کلی می­توان دسته­بندی را به دو گروه مشتاق و کاهل تقسیم کرد در نوع مشتاق، مدلی از داده ­ها در مرحله آموزش ساخته می­شوند. درخت تصمیم نمونه ­ای از این مدل است. در مدل­ کاهل نمونه­های آموزشی دریافت و ذخیره شده و تنها هنگام دسته­بندی از آن استفاده می­ شود. در واقع مدلی از داد­ه­ها ساخته نمی­ شود و یادگیری تا زمان دسته بندی به تعویق می­افتد. به این نوع دسته بندی، یادگیری مبتنی بر نمونه می­گوییم.
تفاوت بین این دو مدل در این است که نوع مشتاق زمان زیادی صرف ساخت مدل کرده و در زمان دسته بندی سریع عمل می­ کند و نوع کاهل زمان بیشتری صرف دسته بندی می­ کند[۴].
در ادامه به بررسی الگوریتم­های مدل ­کاهل می­پردازیم.

۲-۲-۵-۱ روش نزدیک­ترین همسایگی

این الگوریتم از سه گام زیر تشکیل شده است:
محاسبه فاصله نمونه ورودی با تمام نمونه­های آموزشی
مرتب کردن نمونه­های آموزشی بر اساس فاصله و انتخاب k همسایه نزدیکتر
استفاده از دسته­ای که اکثریت را در همسایه­های نزدیک، به عنوان تخمینی برای دسته نمونه ورودی دارد.
در گام اول روش نزدیکترین همسایگی، باید فاصله نمونه ورودی با تمام نمونه آموزشی محاسبه شود. برای انجام این کار باید فاصله بین دو نمونه تعریف شد که با فرض اینکه نمونه x دارایi ویژگی است بصورت زیر تعریف می­ شود.

رابطه۲-۱۱  

K همسایه نزدیکتر انتخاب شده و دسته­ای که دارای اکثریت است داده جدید آموزشی به آن تعلق می­گیرد.‎[۴]

۲-۲-۵-۲ الگوریتم­هایی برای اطمینان از عدم وجود داده مغشوش

در الگوریتم که قبلا گفتیم اگر مقدار k بسیار بزرگ باشد داده مغشوش تاثیر زیادی بر نتیجه ندارد. اما پیدا کردن k مناسب خود چالش بزرگی است در زیر به معرفی الگوریتم­هایی می­پردازیم که مبتنی بر این فرض هستند که نمونه­هایی را که کارایی خوبی برای دسته­بندی دارند در مجموعه آموزشی نگه می­دارند[۴].

    • الگوریتم IB3 :

این الگوریتم در واقع یک پیش پردازش روی داده ­های آموزشی است که در واقع اگر T مجموعه آموزشی باشد در واقع زیر مجموعه ای از آن s را نگه می­داریم
در شکل ۲- ۶ شبکه کد الگوریتم IB3 آمده است.

شکل ۲-۶: شبکه کد الگوریتم [۴] IB3
افزودن و حذف عناصر S با توجه به نرخ موفقیت نمونه و نرخ موفقیت پیش فرض آن صورت می­گیرد.
نرخ موفقیت نمونه بصورت زیر تعریف می­ شود

موضوعات: بدون موضوع  لینک ثابت