اکتشاف دانش Knowledge Discovery

در این پست هدف آشنایی با اکتشاف دانش (Knowledge Discovery)و کاربردهای آن است.

امروز در روزگاری زندگی می کنیم که که عصر انفجار اطلاعات است. همه روزه با حجم وسیعی از داده‎ها و اطلاعات پیرامون خود مواجه هستیم. اما حلقه‎ی مفقوده‎ی عصر ما دانش است. رشد روز افزون داده در شاخه⁭های مختلف صنعت و علوم باعث شده است تا از کامپیوتر و علوم مربوط به آن جهت پردازش این حجم بالا از داده⁭ها استفاده شود. هدف از پردازش داده⁭ها، استخراج دانش از آنها به⁭ گونه⁭ای است که بتوان در کاربردهای دیگر از آنها استفاده نمود. در شکل زیر که هرم دانش نامیده می شود سلسله مراتب دانش نشان داده شده است. همانطور که از شکل پیداست برای رسیدن به دانش موجود در داده ها راه سختی در پیش داریم.

طبق تعریف اکتشاف دانش (KD) عبارتست از پروسه ای جهت استخراج اطلاعات مهم و اساسی، ضمنی، قبلا ناشناخته و سودمند از داده های خام در پایگاه داده های بزرگ. هدف اصلی اکتشاف دانش یافتن دانش نهفته در داده ها با کمترین (یا عدم) دخالت انسانی است. مراحل یک پروسه اکتشاف دانش بصورت زیر است:

گردآوری داده: به طور کلی دو روش برای جمع آوری داده⁭ها وجود دارد. در حالت اول خود طراح مدل تولید داده را نیز کنترل می⁭کند. این روش، آزمون طراحی شده نامیده می⁭شود. دومین وضعیت هنگامی است که شخص خبره نمی⁭تواند تأثیری در فرآیند تولید داده داشته باشد. این وضعیت با نام رویکرد مشاهده⁭ای شناخته می⁭شود.
پاک سازی داده ها (Data Cleaning): در این مرحله داده⁭های غیرمعتبر از مجموعه داده⁭های آموزشی خارج می⁭شود. داده⁭های دارای خطا یا پرت و اطلاعات ناکامل، نمونه⁭هایی از داده⁭های زائد هستند که باید پاک⁭سازی در مورد آنها انجام شود. دو راه برای برخورد با داده⁭های زائد وجود دارد که یکی تشخیص و خذف داده⁭های زائد به عنوان بخشی از مرحله⁭ی پیش پردازش است و دیگری ارائه⁭ی مدلی که مقاوم نسبت به این داده⁭ باشد.
تبدیل داده ها (Data Transformation): در این گام داده⁭ها به قالبی قابل استفاده برای داده⁭کاوی در می⁭آیند. اختلاف در بازه مقادیر ویژگی⁭ها باعث تأثیر منفی در کارایی مدل نهایی می⁭شود. لذا در این مرحله سعی می⁭شود تمامی ویژگی⁭ها در یک بازه⁭ی یکسان نرمالیزه شوند تا از تأثیر تفاوت بازه⁭ها جلوگیری به عمل آید.
برآورد مدل یا داده کاوی: بخش اصلی فرآیند داده⁭کاوی این بخش است که در آن با استفاده از روش⁭ها و تکنیک⁭های خاص، استخراج الگوهای دانش صورت می⁭گیرد. به طور کلی روش⁭ها و الگوریتم⁭های مختلفی جهت یادگیری و تولید یک مدل بر اساس داده⁭های ورودی وجود دارد. به نوعی الگوریتم⁭های مزبور را می⁭توان یک روال جستجو نیز در نظر گرفت. این روال سعی می⁭کند مدلی پیدا کند که به بهترین نحو داده⁭های ورودی را پوشش دهد. بایستی توجه نمود که الگوریتم⁭های داده⁭کاوی که در این مرحله اجرا می⁭گردند، با توجه به ماهیت مسأله⁭ای که فرآیند داده⁭کاوی سعی در تحلیل داده⁭های آن را دارد، طراحی می⁭گردند. به عبارت دیگر الگوریتم مزبور با توجه به انواع کاربردهای داده⁭کاوی پیاده سازی می⁭گردد.
ارزیابی الگوها (Pattern Evaluation): تشخیص الگوهای صحیح مورد نظر از سایر الگوها در این مرحله انجام می⁭شود. صحت الگوها بر اساس یک⁭سری از معیارهای سنجیده انجام می⁭شود.
نمایش دانش (Knowledge Representation): در این بخش به منظور ارائه⁭ی دانش استخراج شده به کاربر، از یک⁭سری ابزارهای بصری⁭سازی استفاده می⁭شود. برای استفاده از دانش و مدل استخراج شده، بایستی آن دانش قابل تفسیر باشد. این امر به خاطر آن است که انسان تمایل ندارد که اساس و پایه⁭ی تصمیم⁭های خود را بر مبنای مدل⁭های پیچیده⁭⁭ی جعبه سیاه قرار دهد. موضوع مهمی که اینجا وجود دارد آن است که اهداف دقت مدل و قابلیت درک آن معمولاً با هم در تضاد هستند. اغلب مدل⁭های ساده، قابلیت تفسیر بهتری دارند اما دقت آنها پایین⁭تر است. از طرف دیگر مدل⁭های دقیق معمولاً ساختار پیچیده⁭ای دارند.

شکل زیر مراحل پروسه ی اکتشاف دانش از داده ها را نشان می دهد.

انواع روشهای اکتشاف دانش از داده ها:

خوشه بندی (Clustering): در خوشه⁭بندی، هدف یافتن مجموعه متناهی از دسته⁭ها یا خوشه⁭ها برای توصیف داده⁭هاست.
طبقه بندی (Classification):هدف در دسته⁭بندی داده⁭ها این است که یک مدل پیشگویی کننده بدست آوریم که این مدل اولا توانایی دسته⁭بندی داده⁭های ورودی را داشته باشد و ثانیاً بتوان از آن جهت پیشگویی برای تعیین دسته⁭ی یک داده که تازه به سیستم اضافه شده، استفاده نمود.
تخمین (Regression):هدف در رگرسیون ارائه⁭ی یک مدل پیشگویی کننده با توانایی نگاشت یک نمونه⁭ی داده⁭ای به یک متغیر تخمینی است.
خلاصه سازی (Summarization):شامل روش⁭هایی جهت یافتن توصیفی فشرده برای یک مجموعه داده می⁭شود.

منبع: وبلاگ مصطفی سبزه کار

+ نوشته شده در دوشنبه ۲۷ خرداد ۱۳۹۲ ساعت 8:24 توسط حسن اسدی |

انفورماتیک پزشکی Medical Informatics

اکتشاف دانش Knowledge Discovery

نوشته‌های پیشین

آرشیو موضوعی