متامتد - داده كاوي

قسمت اول

در دو دهه قبل توانايي های فنی بشر برای توليد و جمع آوری داده‌ها به سرعت افزايش يافته است. عواملی نظير استفاده گسترده از بارکد برای توليدات تجاری، به خدمت گرفتن کامپيوتر در کسب و کار، علوم، خدمات دولتی و پيشرفت در وسائل جمع آوری داده، از اسکن کردن متون و تصاوير تا سيستم‌های سنجش از دور ماهواره‌ای، در اين تغييرات نقش مهمی دارند. بطور کلی استفاده همگانی از وب و اينترنت به عنوان يک سيستم اطلاع رسانی جهانی ما را مواجه با حجم زیادی از داده و اطلاعات می‌کند. اين رشد انفجاری در داده‌های ذخيره شده، نياز مبرم وجود تکنولوژی‌های جديد و ابزارهای خودکاری را ايجاد کرده که به صورت هوشمند به انسان ياری رسانند تا اين حجم زياد داده را به اطلاعات و دانش تبديل کند: داده کاوی به عنوان يک راه حل برای اين مسائل مطرح مي باشد. در يک تعريف غير رسمی داده کاوی فرآيندی است، خودکار برای استخراج الگوهايی که دانش را بازنمايی مي کنند، که اين دانش به صورت ضمنی در پايگاه داده‌های عظيم، انباره داده و ديگر مخازن بزرگ اطلاعات، ذخيره شده است. داده کاوی بطور همزمان از چندين رشته علمی بهره مي برد نظير: تکنولوژی پايگاه داده، هوش مصنوعی، يادگيری ماشين، شبکه‌های عصبی، آمار، شناسايی الگو، سيستم‌های مبتنی بر دانش، حصول دانش، بازيابی اطلاعات، محاسبات سرعت بالا و بازنمايی بصری داده. داده کاوی در اواخر دهه 1980 پديدار گشته، در دهه 1990 گام‌های بلندی در اين شاخه از علم برداشته شده و انتظار می‌رود در اين قرن به رشد و پيشرفت خود ادامه دهد.

واژه‌های «داده کاوی» و «کشف دانش در پایگاه داده» اغلب به صورت مترادف یکدیگر مورد استفاده قرار می‌گیرند. کشف دانش در پایگاه داده فرایند شناسایی درست، ساده، مفید، و در نهايت الگوها و مدل‌های قابل فهم در داده‌ها می‌باشد. داده کاوی، مرحله‌ای از فرایند کشف دانش می‌باشد و شامل الگوریتم‌های مخصوص داده کاوی است، بطوریکه، تحت محدودیت-های مؤثر محاسباتی قابل قبول، الگوها و یا مدل‌ها را در داده کشف می‌کند، به بیان ساده تر، داده کاوی به فرایند استخراج دانش ناشناخته، درست، و بالقوه مفید از داده اطلاق می‌شود. تعریف دیگر این است که، داده کاوی گونه‌ای از تکنیک‌ها برای شناسایی اطلاعات و یا دانش تصمیم گیری از قطعات داده می‌باشد، به نحوی که با استخراج آنها، در حوزه‌های تصمیم گیری، پیش بینی، پیشگویی، و تخمین مورد استفاده قرار گیرند. داده‌ها اغلب حجیم، اما بدون ارزش می‌باشند، داده به تنهایی قابل استفاده نیست، بلکه دانش نهفته در داده‌ها قابل استفاده می‌باشد. به این دلیل اغلب به داده کاوی، تحلیل داده‌ای ثانویه گفته می‌شود. با اعمال تكنيك هاي داده كاويبر حجم زياد داده هاي خام موجود در سازمان، تعدادي قانون و الگوي با معني كشف مي شود. با توجه به محدود بودن منابع سازماني، كليه قوانين استخراج شده قابل پياده سازي نمي باشند. حال اين مساله مطرح است كه مديران امروزي، ضمن درنظر گرفتن معيارهاي چندگان چگونه مي توانند به انتخاب و رتبه بندي قوانين كشف شده بپردازند؟ استفاده از داده كاوي در كسب و كارهاي امروزي به طور روزافزوني گسترش پيدا كرده است يكي از اصلي ترين دلايل شهرت داده كاوي، حجم در حال گسترش داده است كه نياز به پردازش دارد. افزايش آگاهي در مورد عدم كفايت مغز بشر براي پردازش داده و همچنين توانايي روزافزون يادگيري ماشين نيز از جمله علل توسعه و شهرت داده كاوي مي باشند. يك دسته كلي از تكنيك هاي داده كاوي، تحليل وابستگی مي باشد كه با بررسي حجم زياد داده خام، الگوهايي با احتمال تكرار بالا را شناسايي مي كند. يكي از كاربردي ترين حالات تحليل وابستگي‌ها، تحليل سبد بازار مي باشد كه تعيين مي كند چه قلم كالاهايي با هم خريده مي شوند پيشرفت فناوري اطلاعات، خرده فروشي‌ها را قادر ساخته است تا حجم زيادي از داده هاي مربوط به خريد هر يك از مشتريان( كه از آن به عنوان سبد بازار ياد مي شود) را جمع آوري و ذخيره نمايند. با تجزيه و تحليل سبد بازار براي خرده فروشان بينشي فراهم مي گردد و بنابراين مي توانند خريد مشتريان را پيش بيني كنند. اين كار به آنها كمك مي كند تا سازماندهي كالاهاي خود را ارتقاء داده و چيدمان بهتري براي محصولات (چه در فروشگاه فيزيكي و چه در فروشگاه الكترونيكي) خود داشته باشند، درنتيجه فروش و رضايت مشتري را افزايش دهند. به طور كلي، اعمال اين تكنيك‌ها بر حجم زياد داده خام، منجر به كشف تعدادي قانون كه داراي حداقلي از معيارهاي پشتيبان و اطمينان مي باشند، مي شود. اين در حالي است كه در اولويت بندي و انتخاب قوانين وابستگي، معيارهاي ديگري كه مربوط به ارزش كسب و كار مي باشند (مثل سود حاصل از فروش همزمان دو قلم كالا در يك سبد) نيز بايد مدنظر قرار گيرند. سوال اصلي اين تحقيق اينست كه كسب و كارها چگونه مي توانند قوانين بدست آمده را بر اساس معيارهاي چندگانه ارزيابي كرده و آن‌ها را اولويت بندي كنند؟ داده كاوي امروزه در حوزه ي فناوري اطلاعات توجه زيادي را به خود جلب كرده است. اين محبوبيت زياد به سبب مواجه بودن با حجم بسيار بالاي داده و نياز قطعي به تبديل اين داده‌ها به اطلاعات و دانش هاي مفيد است. اطلاعات و دانش هاي به دست آمده از اين طريق، آنگاه جهت كاربردهاي گوناگون - از تحليل بازار، تشخيص كلاهبرداري و حفظ مشتري تا كنترل توليد و كاوش علمي - مي تواند مورد استفاده قرار گيرد. تصميمات مهم سازمان‌ها اغلب نه بر اساس داده هاي ذخيره شده در مخازن داده ـ كه خود حاوي اطلاعات فراواني هستند ـ بلكه براساس درك شهودي تصميم گيرندگان صورت مي گيرد، و علت آن هم عدم در اختيار داشتن ابزارهايي جهت استخراج دانش-هاي ارزشمند پنهان شده در ميان مقادير فراوان داده هاست. به علاوه، فناوري هاي مرتبط با سيستم هاي خبره كه نوعاً در آن‌ها بايد كاربران يا خبرگانِ دامنه به صورت دستي دانش را وارد پايگاه دانش كنند، با توجه به وجود چنين رويه ي دستي از خطاي بالايي برخوردار بوده و در عين حال زمان بَر و پرهزينه مي باشد. شكاف گسترده بين داده و اطلاعات، توسعه ي سيستماتيك ابزارهاي داده كاوي را مي طلبد تا بدين وسيله گورستان هاي داده به قطعه هاي طلايي دانش تبديل شوند. بنابراین در يك تعريف ساده مي توان داده كاوي را استخراج دانش از مقادير زياد داده دانست، که امروزه مورد توجه زیادی قرار گرفته و موضوع پژوهش‌های گسترده‌ای در میان محققان گشته است. در این گزارش ما در ابتدا به بیان تعدادی از حوزه‌های کاری مهم مرتبط با داده کاوی که تحت عنوان کارکردهای داده کاوی مطرح می‌شود، خواهیم پرداخت. سپس از میان این کارکردها توضیحات بیشتری را در مورد دو کارکرد رده بندی و خوشه بندی بیان می‌کنیم. امید است در گزارش بعدی، با نگاهی عمیق تر تمرکز اصلی خود را به سمت یکی از این دو کارکرد معطوف کنیم. لازم به توضيح است كه مي توان از نرم افزار SPSS يا كلمنتاين يا SPSS MODELER براي تحليل هاي داده هاي كاوي به عنوان نرم افزارهاي گرافيكي استفاده كرد.