کارکردهای داده­كاوي

كاركردهاي داده­كاوي، انواع الگوهايي را كه در عمليات داده­كاوي بايد يافت شوند، مشخص مي­كنند. به طور كلي مي­توان عمليات داده­كاوي را در دو گروه دسته­بندي كرد: توصيفي و پيشگويانه.ادامه مطلب...

 


عمليات كاوش توصيفي، ويژگي­هاي عمومي داده­هاي موجود در پايگاه داده را توصيف مي­كند و عمليات كاوش پيشگويانه، با انجام استنتاج بر روي داده­هاي موجود به پيشگويي مي­پردازد.

در ادامه به بيان كاركردهاي مختلف داده­كاوي و انواع مختلف الگوهايي كه مي­توانند استخراج كنند، مي­پردازيم.

توصيف مفهوم یا رده: توصيف ويژگي­ها و بيان وجوه تمايز

داده­ها را مي­توان با رده­ها يا مفاهيمي مرتبط دانست. توصيف رده­ها و مفاهيم خاص در قالب واژه­هاي مختصر و مفيد و در عين حال دقيق مي­تواند مفيد باشد. چنين توصيفاتي را از دو طريق مي­توان به دست آورد؛ يكي توصيف ويژگي­هاي داده­ها كه با خلاصه كردن داده­هاي مربوط به رده­هاي مورد بررسي در قالب واژگان عمومي قابل انجام است و ديگري بيان وجوه تمايز، كه با مقايسه­ي رده­ي مورد بررسي با يك يا چند رده­ي ديگر صورت مي­گيرد. همچنين مي­توان از هر دو روش نيز با هم بهره گرفت.

 رده بندي و پيشگويي[1]

رده­بندي عبارتست از فرآيند يافتن يك مدل (يا تابع) جهت توصيف و تميز رده­ها يا مفاهيم، با اين هدف كه به كمك اين مدل بتوان به پيشگويي رده­ي مربوط به اشيائي پرداخت كه برچسب رده­بندي آن­ها نامشخص است. مدل بدست آمده بر اساس تحليل مجموعه­اي از داده­هاي آموزش­دهنده (يعني اشياء داده­اي كه برچسب رده­بندي آن­ها مشخص است) می­باشد. جهت نمايش مدل استخراج شده، شكل­هاي گوناگوني را مي­توان مورد توجه قرار داد كه از آن جمله قوانين رده­بندي (IF-THEN)، درخت­هاي تصميم، فرمول­هاي رياضي يا شبكه­هاي عصبي را مي­توان ذكر كرد. درخت تصميم يك ساختار درختي شبيه نمودار گردش كار[2]است كه برگ­هاي آن نشان دهنده­ي رده­ها يا توزيع­هاي رده­اي مي­باشند و با شروع از ریشه­ی درخت و عبور از گره­های میانی، با رسیدن به برگ­ها تخمینی از رده­ی مورد جستجو به دست می­آید. درخت­هاي تصميم را مي­توان به راحتي به قوانين رده­بندي تبديل كرد. يك شبكه­ي عصبي، هنگامي كه براي رده­بندي استفاده مي­شود، نوعاً مجموعه­اي است

از واحدهاي پردازشي شبيه به سلول­هاي عصبي و داراي اتصالات وزن­دار بين واحدها. روش­هاي بسيار ديگري نيز براي ساختن مدل­هاي رده­بندي وجود دارد، مانند رده­بندي بيزي ساده[3]، ماشين­هاي برداري پشتيباني و رده­بندي از نوع kتا نزديك­ترين همسايه.

در حاليكه در عمليات رده­بندي، برچسب­هاي (گسسته و غيرترتيبي) مربوط به رده­ها پيش­بيني مي­شود، در روش­هاي پيشگويانه، توابع داراي مقادير پيوسته مدل مي­شوند؛ يعني در اينجا به جاي برچسب رده­ها، اين مقادير عددي داده­هاست كه پيش­بيني مي­شود.

تحليل رگرسيون[4]نوعي روش آماري است كه اغلب براي پيشگويي عددي مورد استفاده قرار مي­گيرد، هرچند ساير روش­ها نيز همچنان موجودند. در روش­هاي پيشگويانه همچنين شناسايي روندهاي توزيعي بر اساس داده­هاي موجود نيز انجام مي­شود.

ممكن است قبل از رده­بندي و پيشگويي نياز به تحليل ارتباط[5]وجود داشته باشد، كه به منظور شناسايي صفاتي كه در فرآيند رده­بندي يا پيشگويي نقشي ندارند، انجام مي­شود. آنگاه مي­توان چنين صفاتي را كنار گذاشت.



[1]prediction

[2]flowchart

[3]naïve Bayesian classification

[4]regression analysis

[5]relevance analysis