۲-۲-۱ انگیزه‌های تجاری

هنگامیکه می‌خواهیم داده‌ها را از بعد تجاری مورد پردازش قرار دهیم نیاز به داده‌هایی داریم که ماهیت تجاری داشته باشند. به طور کلی سه منبع برای جمع آوری داده‌های تجاری وجود دارند که عبارتند از: داده‌های وب و داده‌های تجارت الکترونیک، خرید و فروش‌های موجود در فروشگاه‌های خواربار فروشی/سوپر مارکت‌های زنجیره‌ای و تراکنش‌های بانکی/تراکنش‌های کارت‌های اعتباری.

(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))

به طور کلی منظور از داده‌های وب یا تجارت الکترونیک، داده‌های معمولی مثلاً داده‌های حاصل از جستجوهای معمولی نیست بلکه منظور از این داده‌ها تراکنش‌هایی است که همه روزه در اینترنت انجام شده و ثبت می‌شوند و از آنجایی که این داده‌ها زیاد هستند ثبت آنها وقت زیادی می‌گیرد. تعدادی از این داده‌ها عبارتند از: خرید و فروش بلیط‌های هواپیما، قطار، پرداخت قبوض و …
خرید و فروش‌های موجود در فروشگاه‌های خواربار فروشی/سوپر مارکت‌های زنجیره‌ای نوع مهم دیگری از داده‌های تجاری هستند. منظور از این داده‌ها خرید و فروش‌هایی هستند که همه روزه در فروشگاه‌ها انجام می‌شود و شامل کالاهایی است که در سبد خرید مشتری‌های مختلف صورت می‌گیرد.
تراکنش‌های بانکی/تراکنش‌های کارت‌های اعتباری از دیگر داده‌های تجاری می‌باشند که حجم عظیمی از داده‌ها را به صورت روزانه شامل می‌شوند. منظور از این داده‌ها، داده‌های مربوط به عملیات بانکی است که همه روزه توسط مشتریان مختلفی که به یک بانک مراجعه می‌کنند، انجام شده و ثبت می‌شوند. به عنوان مثال اطلاعات مربوط به اینکه یک مشتری پول به حساب خود واریز کرده، پول از حساب خود برداشت کرده و … در سیستم ثبت می‌شود و از آنها به عنوان داده‌های مربوط به تراکنش‌های بانکی یاد می‌شود. همچنین تراکنش‌های مربوط به کارت‌های اعتباری در این مجموعه داده قرار می‌گیرند، به عنوان مثال هر فردی که کارت‌های خود را وارد سیستم نموده و قصد انجام عملیاتی را دارد اطلاعات مربوط به آن مشتری، کالا(هایی) را که قصد خرید آن(ها) را دارد، زمانی که در حال خرید است، در سیستم ثبت می‌شود و از آنها به عنوان داده‌های مربوط به تراکنش‌های کارت‌های اعتباری استفاده می‌شود.
در واقع هدف اصلی از پردازش داده‌های تجاری دستیابی به سود بیشتر است. به عنوان مثال اگر داده‌هایمان از نوع داده‌های وب یا داده‌های تجارت الکترونیک باشند، می‌توان از نتایج پردازش این داده‌ها در طراحی ساختار صفحات وب و ایجاد تکنولوژی‌هایی که سود آوری بیشتری دارند استفاده کرد. اگر داده‌های مربوط به سبد خرید مشتریان را مورد پردازش قرار دهیم می‌توانیم کالاهایی را که فروششان بیشتر است را شناسایی کنیم و آن کالاها را به میزان بیشتری برای سوپر مارکت تهیه نماییم و یا اینکه می‌توانیم بفهمیم کدام کالاها معمولاً به همراه یکدیگر خریداری می‌شوند و در نتیجه آن کالاها را در چیدمان فروشگاه در کنار هم قرار دهیم تا خرید آنها برای مشتری راحت‌تر شده و مشتری برای خرید اجناس خود کمتر در فروشگاه حرکت کند و به این ترتیب رضایت مشتری بیشتر جلب شود. اگر تراکنش‌های بانکی را پردازش می‌توانیم اعتبار مشتری‌های مختلف را بسنجیم و روی مشتریانی که ارزش سرمایه گذاری دارند سرمایه گذاری کنیم. به عنوان مثال به مشتریانی که اعتبار بالاتری دارند وام بدهیم و به این مشتریان برای سرمایه گذاری اعتماد کنیم.
در حوزه داده کاوی، شاخه علمی که بر روی بهبود سرویس دهی به مشتری تمرکز می‌کند با نام مدیریت ارتباط با مشتری[۷] شناخته می‌شود. هدف اصلی در این علم آن است که بتوانیم مشتری‌ها را اعتبار سنجی کنیم و بر اساس آن یک فرایندی را ایجاد کنیم که در این فرایند به آن دسته از مشتریان که اعتبار بیشتری دارند، سرویس‌های بیشتر و به مشتریانی که اعتبار کمتری دارند سرویس کمتری را ارائه بدهیم. هدف در داده کاوی این است که این فرایند اعتبار سنجی به صورت مکانیزه و هوشمند انجام شود [۸].

۲-۲-۲ انگیزه‌های علمی

هنگامیکه می‌خواهیم داده‌ها را از بعد علمی مورد پردازش قرار دهیم نیاز به داده‌هایی داریم که ماهیت علمی داشته باشند. به طور کلی چهار منبع عمده برای جمع آوری داده‌های علمی در حجم‌های بالا وجود دارند که عبارتند از: تصاویر ارسالی از طریق ماهواره‌ها، تصاویر ارسالی از تلسکوپ‌ها، داده‌های دنباله ژنی و داده‌های حاصل از شبیه سازی علمی.
داده‌ها و تصاویر ارسالی از ماهواره‌ها شامل تصاویری می‌باشند که از طریق حسگرهای نصب شده بر روی ماهواره‌ها، همه روزه در حجم بسیار بالا به زمین مخابره می‌شوند. این داده‌ها و تصاویر از طریق سیگنال‌های ماهواره‌ای که در مکانی در مدار زمین قرار دارد، منتقل می‌شوند.
تلسکوپ‌ها نیز همه روزه تصاویری را از زمین می‌گیرند. این تصاویر به صورت روزانه از طریق تلسکوپ‌ها ارسال می‌شوند و شامل اطلاعات بسیار زیادی هستند.
داده‌های دنباله ژنی، حاصل توصیف دنباله ژنی افراد مختلف می‌باشند و یکی از منابع داده‌ای بسیار مشهور با ماهیت علمی هستند. تکنیک‌های میکرو آرایه، داده‌های دنباله ژنی مربوط به یک بافت خاص را استخراج می‌کنند. این تکنیک‌ها با پردازش نوآورانه‌ای که روی بافت خاص از یک شخص (مثلاً کبد، معده، خون و …) انجام می‌دهند می‌توانند یک دنباله ژنی منحصر به آن بافت را پیدا کنند که آن دنباله ژنی حاوی اطلاعات بسیاری است و تعداد زیادی ویژگی ایجاد می‌کند. عموماً این اعداد و ویژگی‌ها در تشخیص بیماری افراد، کمک قابل ملاحظه‌ای می‌کنند.
داده‌های حاصل از شبیه سازی علمی منبع مهم دیگری از داده‌های علمی هستند. منظور از شبیه سازی علمی مدل سازی یک سیستم در ابعاد کوچکتر است. شبیه سازی وقتی مورد استفاده قرار می‌گیرد که ما بتوانیم مکانیزم حاکم بر آن سیستم و محیط را به صورت یک مجموعه از قوانین بدانیم. ما می‌توانیم سیستم‌ها و محیط‌های زیادی را شبیه سازی کنیم و اگر یک محیط شبیه سازی شده داشته باشیم، می‌توانیم آزمایش‌های مختلفی را بر روی آن انجام دهیم و داده‌های زیادی را تولید کنیم که این داده‌ها می‌توانند اطلاعات زیادی را به ما منتقل دهند. به عنوان مثال می‌توانیم بدن یک انسان را شبیه سازی نموده و داروهای مختلف را روی آن امتحان کنیم و نتایج حاصل از آزمایشات را بدست آوریم. بخصوص اگر این آزمایشات هزینه‌های سنگینی داشته باشند، شبیه سازی و نتایج حاصل از آن بسیار با ارزش خواهند بود. شبیه سازی در محیط‌های مختلف متفاوت است. چند نمونه از شبیه سازی عبارتند از: شبیه سازی یک آزمایش هسته‌ای، شبیه سازی زلزله و … به طور کلی این شبیه سازی‌های علمی داده‌های بسیار حجیمی را فراهم می‌کنند.
وقتی داده‌ها از نوع علمی باشند، معمولاً نتیجه مستقیم کاوش داده‌های علمی لزوماً به سود بیشتر منجر نمی‌شود، اما بیشتر اوقات منجر به ایجاد دانش جدید، دستاوردهای جدید و نیز باعث خدمت رسانی بیشتر به افراد و یا کشف حقایق خواهد شد. بنابراین می‌توان نتیجه گرفت که انگیزه اصلی در پردازش داده‌های علمی کمک به بسط و گسترش مرزهای دانش بشری در یک حوزه خاص می‌باشد[۸].

۲-۳ چالش‌های داده کاوی

شاید بتوان مهم‌ترین نقاط ضعف روش‌های داده کاوی را در سه مورد خلاصه نمود: وجود داده، صحت داده و کافی بودن ویژگی‌ها. منظور از وجود داده این است که اصولاً داده‌ای برای کاوش وجود داشته باشد و اینگونه نباشد که داده در محیط مورد کاوش استخراج و یا ثبت نشده باشد. متأسفانه این مشکل در بسیاری از محیط‌های واقعی وجود دارد. صحت داده مبین آن است که داده جمع آوری شده صحیح بوده و نادرستی در آن وجود نداشته باشد. به عنوان مثال نباید جنسیت شخصی با نام “محسن” زن وارد شده باشد و یا اشتباهات دیگری که دلیل وجودی آنها خطا در ورود داده است، رخ دهد. کافی بودن ویژگی‌ها بدین معناست که ویژگی‌های اخذ شده برای هر رکورد یا شئ برای یادگیری مدل و یا کشف نظم حاکم بر داده موثر، مناسب و کافی باشند. به عنوان مثال اگر هدف ما یادگیری یک مدل دسته بندی کننده برای تشخیص بیماری دیابت است، ثبت ویژگی قند خون بسیار مهم است در حالی که ثبت ویژگی میزان تحصیلات اهمیتی ندارد. توجه داشته باشید اگر هر کدام از مشکلات سه‌گانه فوق در داده وجود داشته باشد، هیچ یک از الگوریتم‌های داده کاوی، هر قدر هم که توانا باشند، نخواهند توانست نظم حاکم بر داده را تحت هیچ شرایطی بیابند.
در داده کاوی می‌توان چالش‌ها را به دو گروه اولیه و ثانویه تقسیم نمود. در ادامه به بررسی هر کدام از این دو گروه می‌پردازیم.

۲-۳-۱ چالش‌های اولیه

چالش‌های اولیه که انگیزه مهم بکار گیری فرایند داده کاوی به جای روش‌های سنتی تحلیل داده‌ها هستند عبارتند از: حجیم بودن داده‌ها، ابعاد بالای داده‌ها، طبیعت توزیع شده و ناهمگن داده‌ها. در ادامه به بررسی هرکدام از این چالش‌ها می‌پردازیم [۸].
حجم بالای داده‌هاالگوریتم‌های داده کاوی با تعداد زیادی رکورد کار می‌کنند و حجم زیادی از داده‌ها را پردازش می‌کنند. به طور کلی هرچه تعداد رکوردهای موجود بیشتر باشد باعث می‌شود روش‌های سنتی نتوانند این رکوردها را پردازش نمایند. اگر تعداد رکوردها کم باشد فرایند تحلیل آنها بسیار ساده است و معمولاً احتیاج به روش‌های داده کاوی نیست. هرچه تعداد رکوردها بیشتر باشد باعث می‌شود علم داده کاوی بتواند کارکرد درخشان‌تری داشته باشد.
ابعاد بالای داده‌هامنظور از بعد همان فیلد یا ویژگی (خصیصه) می‌باشد. به طور کلی هرچه تعداد ویژگی‌ها بیشتر باشد، باعث خواهد شد که تحلیل داده‌ها مشکل‌تر شود. هرچه تعداد ویژگی‌های موجود در داده‌ها بیشتر باشد، نمی‌توان با بهره گرفتن از روش‌های سنتی بین آنها نظمی پیدا کرد. این در حالی است که در اینگونه مواقع الگوریتم‌های داده کاوی می‌توانند اثر بخشی و توان بالقوه‌ای که دارا هستند را نشان بدهند.
طبیعت توزیع شده داده‌هابه طور کلی طبیعت توزیع شده داده‌ها و وجود داده‌ها در منابع پراکنده باعث می‌شود نتوانیم از روش‌های سنتی برای پردازش داده‌ها استفاده کنیم. در این مواقع به روش‌های داده کاوی نیاز داریم. این روش‌ها باید قادر باشند داده‌هایی را که در مکان‌های مختلف ذخیره شده‌اند، به گونه‌ای مدیریت کنند که دانش نهفته را از نهان این داده‌های پراکنده و توزیع شده استخراج کنند.
طبیعت ناهمگن داده‌هادر انباره داده‌ای که به عنوان مخزن فرایند داده کاوی عمل می‌کند، انواع مختلفی از ویژگی‌ها وجود دارد. هر ویژگی محدوده مقادیر مشخص و ویژه‌ای اختیار می‌کند. کمینه و بیشینه مقادیر مربوط به بعضی ویژگی‌ها با هم فرق دارند. بعضی ویژگی‌ها حوزه مقداری بسیار وسیع و بعضی دیگر حوزه محدودی دارند. در این مواقع می‌توان از مباحث نرمال سازی برای بخورد با این مشکل استفاده کرد. اما مسائل دیگری در ارتباط با ویژگی‌ها نیز وجود دارد. به عنوان مثال بعضی ویژگی‌ها عددی (صحیح یا حقیقی) هستند، بعضی دودویی، بعضی دیگر اسمی (مانند رنگ چشم) هستند. بعضی از ویژگی‌ها نیز به گونه‌ای هستند که در مورد آنها تنها می‌توان گفت آیا با هم مساوی هستند یا خیر(مانند رنگ چشم)، گونه‌ای دیگر از ویژگی‌ها به این شکل‌اند که در مورد آنها علاوه بر مساوی و نامساوی بودن می‌توان کوچکتر یا بزرگتر بودن آنها را نیز تعیین کرد (مانند سطح تحصیلات)، در مورد برخی دیگر از ویژگی‌ها علاوه بر مساوی و نامساوی بودن، کوچکتری و بزرگتری، می‌توان از عملگرهای جمع و تفریق نیز استفاده نمود ( مانند تاریخ‌های تقویم) و در نهایت در مورد گروهی دیگر از ویژگی‌ها علاوه بر مساوی و نامساوی، کوچکتری و بزرگتری، جمع و تفریق می‌توان عملگرهای ضرب و تقسیم را نیز بکار برد (مانند قد و وزن). در نتیجه به دلیل تنوع بالای ماهیت ویژگی‌ها نمی‌توان از روش‌های سنتی برای پردازش داده‌ها استفاده نمود.

۲-۳-۲ چالش‌های ثانویه

چالش‌های ثانویه به آن دسته از چالش‌هایی گفته می‌شود که در قیاس با چالش‌ها اولیه از اهمیت کمتری برخوردارند. البته می‌بایست توجه نمود، این امر بدان معنا نخواهد بود که اهمیت این چالش‌ها پایین است و یا حل مشکلات مربوط به آنها کار ساده و کم تأثیری است. در ادامه به بررسی این چالش‌ها می‌پردازیم [۸].
کیفیت داده[۸]مربوط به زمانی است که کیفیت داده‌ها پایین است. به عنوان نمونه هنگامی که داده‌های ما شامل نویز[۹]، داده پرت[۱۰]، داده گمشده[۱۱] و داده تکرار شده[۱۲] باشد، شاهد پایین آمدن کیفیت داده‌ها خواهیم بود.
عدم مالکیت دادهبه دلایل گوناگون مانند توزیع‌شدگی ممکن است نتوانیم کل داده‌ها را یکجا در مالکیت داشته باشیم و فرایند کاوش را روی آنها انجام دهیم.
حفظ حریم شخصی داده‌ها[۱۳]مربوط به زمانی است که باید با رعایت حریم شخصی، داده‌ها را کاوش نماییم. فرایند کاوش داده می‌بایست به گونه‌ای انجام شود که بتوان بدون دسترسی به همه داده‌ها و با دیدن تنها بخش محدودی از آن فرایند داده کاوی را پیش برد. تفاوت حفظ حریم شخصی داده‌ها با توزیع‌شدگی و عدم مالکیت داده در این است که در توزیع‌شدگی و عدم مالکیت داده ممکن است برای یادگیری مدل از همه داده‌ها استفاده شود ولی در اینجا ممکن است به بخشی از داده‌ها اصلاً دسترسی وجود نداشته باشد، یعنی باید بتوانیم مدل خود را با همان داده‌های در دسترس بسازیم.
داده‌های جریانی[۱۴]به داده‌های گفته می‌شود که سرعت تولید آنها بالاست به گونه‌ای که فرصت تحلیل آنها و ساخت مدل وجود ندارد چرا که حین انجام عملیات کاوش مرتباً داده‌های جدیدی تولید می‌شوند. بنابراین سیستم باید بصورت برخط باشد تا بتواند خودش را تصحیح کند و قادر باشد مدل بروزی را در اختیار قرار دهد.

۲-۴ مروری بر کشف دانش و داده کاوی

کشف دانش و داده کاوی[۱۵] یک حوزه جدید میان رشته‌ای و در حال رشد است که حوزه‌های مختلفی همچون پایگاه داده، آمار، یادگیری ماشین و سایر زمینه‌های مرتبط را با هم تلفیق کرده تا اطلاعات و دانش ارزشمند نهفته در حجم بزرگی از داده‌ها را استخراج نماید. با رشد سریع کامپیوتر و استفاده از آن در دو دهه اخیر تقریباً همه سازمان‌ها حجم عظیمی داده در پایگاه داده خود ذخیره کرده‌اند. این سازمان‌ها به فهم این داده‌ها و یا کشف دانش مفید از آنها نیاز دارند [۹].
همان‌طور که الکترون‌ها و امواج موضوع اصلی مهندسی برق شدند، داده‌ها، اطلاعات و دانش نیز موضوع اصلی حوزه جدیدی از تحقیق و کاربرد به نام کشف دانش و داده کاوی یا به اختصار KDD هستند [۱۰].
به طور کلی، داده‌ها رشته‌ای از بیت‌ها (به صورت صفر و یک) یا اعداد و نشانه‌ها و یا اشیاء هستند که وقتی در فرمتی مشخص به یک برنامه ارسال می‌شوند، معنا می‌یابند ولی هنوز تفسیر نشده‌اند. اطلاعات، داده‌ای است که موارد افزونه یا زایدش حذف شده است و به حداقل ممکنی که برای تصمیم گیری لازم است، تقلیل یافته‌اند و حال داده‌ها تفسیر شده‌اند. دانش، اطلاعات تلفیق شده‌ای است که شامل حقایق و روابط میان آنهاست. دانش در واقع به عنوان تصاویر ذهنی ما درک، کشف یا فراگیری شده است. به عبارت دیگر می‌توان دانش را همان داده‌هایی فرض کرد که در بالاترین سطح تعمیم قرار گرفته‌اند [۱۰].
متخصصانی که از حوزه‌های مختلف به رشد این موضوع جدید کمک می‌کنند، فهم متفاوتی از عبارات کشف دانش و داده کاوی دارند. تعریف مورد نظر در این تحقیق به شرح زیر است:
کشف دانش از پایگاه داده‌ها در واقع فرایند تشخیص الگوها و مدل‌ها موجود در داده‌هاست. الگوها و مدل‌هایی که معتبر، بدیع، بالقوه مفید و کاملاً قابل فهم هستند. داده کاوی مرحله‌ای از فرایند کشف دانش است که با کمک الگوریتم‌های خاص داده کاوی و با کارایی قابل قبول محاسباتی، الگوها یا مدل‌ها را در داده‌ها پیدا می‌کند [۱۰].
مراحل این فرایند در شکل زیر آمده است:
شکل ۲-۱ فرایند داده کاوی و کشف دانش
به عبارت دیگر، هدف کشف دانش و داده کاوی یافتن الگوها و یا مدل‌های جالب موجود در پایگاه داده‌هاست که در میان حجم عظیمی از داده‌ها مخفی هستند.
با توجه به تعریف ارائه شده از کشف دانش، درجه جذابیت[۱۶] یافته‌ها با معیارهای متعددی بیان می‌شود که به شرح زیر می‌باشند:
تصدیق یا گواهی[۱۷]، نشانگر معنی‌دار بودن یک یافته بر حسب یک معیار آماری است. افزونگی، مقدار شباهت یک الگوی کشف شده نسبت به یافته‌های دیگر است و درجه تبعیت آن را از دیگری اندازه می‌گیرد. فایده، ارتباط یافته را با اهداف کاربران بیان می‌کند. بدیع بودن[۱۸]، بیانگر میزان تازگی نسبت به دانش قبلی کاربر یا سیستم است. سادگی، به پیچیدگی نحوی[۱۹] و نمایش یک الگوی کشف شده و نحوه تعمیم آن اشاره دارد [۱۰].

۲-۵ مراحل داده کاوی

فرایند داده کاوی شامل سه مرحله است: آماده سازی داده، یادگیری مدل، ارزیابی و تفسیر مدل. شکل ۲-۱ در فوق این مراحل سه‌گانه را به همراه زیر مراحل آن نشان می‌دهد. در ادامه به توصیف هر کدام از این مراحل می‌پردازیم [۸].
آماده سازی دادهاولین و مهم‌ترین مرحله در فرایند داده کاوی آماده سازی داده می‌باشد. هدف در این مرحله تأمین ورودی مناسب برای مرحله حیاتی یادگیری مدل است. در این مرحله داده پردازش نشده از کل منابع داده‌ای موجود (که ممکن است توزیع شده نیز باشند) استخراج شده، سپس در مرحله‌ای مستقل مورد پردازش اولیه قرار می‌گیرد. خروجی در مرحله آماده سازی مدل عبارت است از داده پیش پردازش شده که امکان یادگیری مدل از روی آن وجود دارد.
همان‌گونه که گفته شد اولین گام در مرحله آماده سازی داده استخراج داده از منابع داده‌ای موجود است. در این گام می‌بایست داده‌ها که در منابع مختلفی پراکنده شده‌اند، به صورت متمرکز در یک محل جمع آوری شده و یک انباره داده مرکزی ایجاد شود. دلیل اصلی این گردآوری آن است که در اغلب موارد داده به صورت متمرکز در یک مکان وجود ندارد. به علاوه داده‌ها در بخش‌های مختلف ممکن است در فرمت‌های گوناگونی نیز ذخیره شده باشند. مثلاً ممکن است بخشی از داده‌ها در یک پایگاه داده Oracle و بخش دیگر داده‌ها در یک پایگاه داده SQL Server ذخیره شده باشند. حتی ممکن است بخشی از داده‌ها در چند فایل اکسل یا حتی فایل متنی ذخیره شده باشند. گاهی اوقات داده‌هایی وجود دارند که روی کاغذ نوشته شده‌اند و حتی تایپ نشده‌اند. حال اگر قرار باشد فرایند داده کاوی صورت پذیرد، باید داده‌های موجود در منابع مختلف متحد شده و در یک فرمت مشخص در یک انباره داده مرکزی ذخیره شوند. در غیر اینصورت فرایند داده کاوی هر چقدر هم که هوشمندانه و بی نقص انجام شود، نخواهد توانست دانش با ارزش و درخور توجه تولید نماید.
دومین گام در مرحله آماده سازی داده پیش پردازش داده‌های استخراج شده است. مهم‌ترین رسالت این گام زدودن مشکلات مختلفی که احتمالاً در داده وجود دارند، خواهد بود. این مشکلات در واقع مانع از آن می‌شود که مرحله یادگیری مدل بتواند نظم واقعی را در داده بیابد. در هر حال پس از پایان مرحله آماده سازی داده، مجموعه داده‌ای آماده خواهد شد که فاقد مشکلات جدی و کلیدی است و امکان کشف دانش نهفته در آن با بهره گرفتن از مرحله یادگیری مدل وجود دارد. این مرحله در ادامه توصیف می‌شود.
یادگیری مدلدر این مرحله با بهره گرفتن از الگوریتم‌های متنوع و با توجه به ماهیت داده، سعی ما بر این است که نظم‌های مختلف موجود در داده را شناسایی نموده و در فرمتی مشخص به عنوان دانش نهفته در داده ارائه کنیم. برای یادگیری مدل می‌بایست روش‌های آن را به درستی شناخت تا بتوان در جای مناسب، روش درست را انتخاب نمود و بکار بست.
روش‌های یادگیری مدل در داده کاویمشهورترین روش‌های یادگیری مدل در داده کاوی را در این بخش مورد بررسی قرار می‌دهیم. می‌توان روش‌های مختلف کاوش داده را در دو گروه روش‌های پیش بینی و روش‌های توصیفی طبقه نمود. در ادامه به شرح هر کدام از این دو گروه می‌پردازیم.
روش‌های پیش بینیاین روش‌ها از مقادیر بعضی از ویژگی‌ها برای پیش بینی کردن مقدار یک ویژگی مشخص استفاده می‌کنند. در متون علمی مختلف روش‌های پیش بینی با نام روش‌های با ناظر[۲۰] نیز شناخته می‌شوند. روش‌های دسته بندی[۲۱] ، رگرسیون[۲۲] و تشخیص انحراف[۲۳] سه روش یادگیری مدل در داده کاوی با ماهیت پیش بینی هستند. در ادامه بررسی هر کدام از این روش‌ها می‌پردازیم.
دسته بندی: در الگوریتم‌های دسته بندی مجموعه داده اولیه به دو مجموعه داده با عنوان مجموعه داده‌های آموزشی[۲۴] و مجموعه داده آزمایشی[۲۵] تقسیم می‌شود، با بهره گرفتن از مجموعه داده‌های آموزشی مدل ساخته می‌شود و از مجموعه داده آزمایشی برای اعتبار سنجی و محاسبه دقت مدل ساخته شده استفاده می‌شود. هر رکورد شامل یک مجموعه از ویژگی‌هاست. یکی از این ویژگی‌ها، ویژگی دسته نامیده می‌شود. در الگوریتم‌های دسته بندی چون ویژگی دسته مربوط به هر رکورد مشخص است بنابراین جزء الگوریتم‌های با ناظر محسوب می‌شوند. الگوریتم‌های با ناظر شامل دو مرحله با عنوان مرحله آموزش (یادگیری) و مرحله ارزیابی هستند. در مرحله آموزش، مجموعه داده‌های آموزشی به یکی از الگوریتم‌های دسته بندی داده می‌شود تا بر اساس مقادیر سایر ویژگی‌ها برای مقادیر ویژگی دسته، مدل ساخته شود. شکل مدل ساخته شده به نوع الگوریتم یادگیرنده بستگی دارد. به عنوان مثال، اگر الگوریتم یادگیرنده الگوریتم درخت تصمیم[۲۶] باشد مدل ساخته شده یک درخت تصمیم خواهد بود، اگر الگوریتم یادگیرنده یک دسته بند مبتنی بر قانون[۲۷] باشد مدل ساخته شده یک مجموعه قانون خواهد بود. در هر صورت با توجه به الگوریتم یادگیرنده مورد استفاده در مرحله آموزش، مدل ساخته می‌شود. پس از ساخت مدل، در مرحله ارزیابی دقت مدل ساخته شده به کمک مجموعه داده آزمایشی که مدل ساخته شده در مرحله آموزش این مجموعه داده را ندیده[۲۸] است، ارزیابی خواهد شد. از مجموعه داده‌های آزمایشی در مرحله آموزش و ساخت مدل استفاده نمی‌شود.

موضوعات: بدون موضوع  لینک ثابت