خوشهیابی [1] 1-خوشهیابی یا طبقهبندی [2] عبارت است از یافتن تناظر چند به یک بین فضای ویژگیها و نماینده خوشه. به عبارت دیگر در قالب خوشهیابی یا طبقهبندی برای یکسری موجودیت [3] در فضای ویژگی، یک برچسب تعیین میشود که به آن نماینده خوشه اطلاق میگردد. نماینده خوشه میتواند از هر جنسی که برای آن فاصله تعریف شده باشد [4] ، درنظر گرفته شود (از جنس دادهها، مرز(دایروی، بیضوی، محدب پیوسته)، شاخص هندسی(خط یا منحنی) [5]، تابع چگالی و غیره). خوشهیابی را میتوان از دیدگاه جزئی استخراج قاعده [6] یا از دیدگاه کلی، بهینهسازی ملاک تلقی نمود. همچنین خوشهیابی را میتوان یافتن رابطه تناظر بین دو مجموعه منظور کرد. همچنین خوشهیابی را میتوان تفکیک [7] فضای ویژگیها تصور کرد که میتواند بصورت شبکهای [8] ، درختی [9] یا پراکنده [10] انجام شود. 2-معمولا لفظ خوشهیابی با طبقهبندی این تفاوت را دارد که وقتی تعداد خوشهها یا طبقهها از پیش معین است، از لفظ طبقهبندی و وقتی تعداد آن مشخص نیست از لفظ خوشهیابی استفاده میگردد. به بیان دیگر طبقهبندی یک یادگیری باسرپرست و خوشهیابی یک یادگیری بدون سرپرست میباشد. 3-خوشهیابی میتواند بصورت فازی یا ترد [11] انجام شود. بدین معنا که تعلق یک موجودیت به یک خوشه یا طبقه میتواند صفر یا یک و یا اینکه عددی بین صفر و یک باشد. به عنوان نمونه الگوریتم FCM خوشهیابی فازی [12]، که توسط آقای بزدک [13] توسعه داده شده را ملاحظه کنید. شبکه کوهونن [14] (نگاشت خود سازمانده) را میتوان یک تقریب آماری از FCM دانست. 4-خوشهها به قسمی انتخاب میشوند که عضوهای موجود در یک خوشه، بیشترین شباهت (نزدیکی) بهم و بیشترین تفاوت (فاصله) را از اعضای سایر خوشهها داشته باشند. که معمولا معیار تصمیمگیری داخلی (شباهت) بصورت صریح و معیار تصمیمگیری خارجی (تفاوت) بصورت ضمنی تامین میشود. بنابراین خوشهبندی متناظر با یک رابطه شباهت یا دوگان آن عدم شباهت (فاصله) است. وقتی این رابطه، یک رابطه همارزی [15] باشد، موجودیتها به یکسری طبقات همارز افراز میشوند. مفهوم رابطه همارزی در نظریه مجموعههای فازی توسعه داده شده است. از میان پیشنهادات مطرح شده میتوان به رابطهی شباهت [16] (پیشنهاد آقای زاده [17] )، رابطهی همانندی [18] (پیشنهاد آقای راسپنی [19] ) [20] و رابطه تمیزناپذیری [21] یا دوگان آن متریک دروغین (پیشنهاد آقای والورد [22] ) اشاره کرد. طبق تعریف والورد، رابطهی تمیزناپذیری E به شکل ذیل تعریف میشود. که T یک عملگر "و" است. خاصیت انعکاسی | E(x,x)=1 | خاصیت تقارنی | E(x,y)=E(y,x) | خاصیت انتقالی | T( E(x,y), E(y,z)) ≤ E(x,z) |
همچنین طبق تعریف والورد، متریک دروغین [23] m ، دوگان رابطهی تمیزناپذیری، به شکل ذیل تعریف میشود. که S یک عملگر "یا" است. خاصیت انعکاسی | m(x,x)=0 | خاصیت تقارنی | m(x,y)=m(y,x) | نامساوی مثلث | S( m(x,y), m(y,z)) ≤ m(x,z) |
5-متاالگوریتم خوشهیابی بصورت تکراری یا با بهینهسازی ملاک قابل پیادهسازی است. در یک مساله خوشهیابی یکسری موجودیت در فضای ویژگیها ( ei , i=1…N )، چند نماینده خوشه یا طبقه ( Vj , j=1…k ) و میزان تعلق موجودیت i ام به خوشه j ام ( Xji ) وجود دارد. اگر میزان تعلق موجودیتها به خوشهها صفر و یا یک باشد، خوشهبندی غیرفازی است و اگر میزان تعلق، عددی بین صفر و یک باشد، خوشهیابی غیرفازی خواهد بود. اگر جواب غیرفازی مورد نیاز باشد، باید خوشهیابی به روش غیرفازی انجام شود و جواب غیرفازی شده یک خوشهیابی فازی، پاسخ بهینه نخواهد بود. 6- متاالگوریتم خوشهیابی با بهینهسازی یک ملاک 
q ، توان میزان تعلق هر موجودیت به هر یک از خوشههاست که عددی بزرگتر مساوی یک است و هرچه بزرگتر باشد، به خوشهیابی غیرفازی نزدیکتر میشویم. 7-متاالگوریتم خوشهیابی به روش تکراری (روش ISODATA ): متاالگوریتم زیر باید به اندازه کافی تکرار شود تا مساله همگرا شود. این روش به حالت آغازین و نقاط پرت [24] حساس است. همچنین اگر یکی از خوشهها بزرگ و دیگری کوچک باشد، خوب کار نمیکند. حساسیت به حالت آغازین را میتوان با چندین بار تکرار الگوریتم، کاهش داد الف) بصورت تصادفی میزان تعلق موجودیتها به خوشهها تعیین شود( Xji ) و از روی آن نماینده خوشهها از روی میانگینگیری تعیین گردد( Vj ). ب) از روی نماینده خوشه تعیین شده و بر مبنای فاصله، میزان تعلق موجودیتها به خوشهها تعیین شود(هرچه فاصله موجودیت به نماینده خوشه نزدیکتر باشد، میزان تعلق آن به خوشه بیشتر خواهد بود). ج) نماینده خوشهها از روی میانگینگیری، از روی میزان تعلق موجودیتها به خوشهها تعیین گردد. د) تکرار از گام ب 8-متاالگوریتم خوشهیابی به روش تکراری (روش پیروی از رهبر): الف) به اولین موجودیت، برچسب شماره یک میدهیم و آنرا نماینده خوشه اول فرض مینماییم. ب) فاصله نماینده خوشههای موجود را با موجودیت بعدی مقایسه میکنیم. اگر از یک آستانه مفروض فراتر بود، آن موجودیت را نماینده خوشه جدید میکنیم. و اگر از آستانه کوچکتر بود، آنرا متعلق به خوشه برنده میکنیم و نماینده خوشه برنده را قدری به آن نزدیک میکنیم. تا یادگیری انجام شود. ج) تکرار گام ب برای تمامی موجودیتها تا نهایتا مساله همگرا شود. این الگوریتم به ترتیب دادن اطلاعات حساس است و ممکن است یک نماینده خوشه بقدری حرکت کند که برخی از موجودیتهای قبلی از خوشه خارج شود. 9-متاالگوریتم خوشهیابی به روش تکراری (روش نزدیکترین همسایه): الف) به تمامی موجودیتها و بصورت تصادفی، برچسب میدهیم. ب) بصورت تصادفی یک موجودیت انتخاب میکنیم و برچسب همسایه [25] (نزدیکترین موجودیت) را به آن میدهیم. ج) تکرار گام ب برای تکتک موجودیتها تا نهایتا مساله همگرا شود. 10- متاالگوریتم خوشهیابی به روش [26] تکراری kmeans متاالگوریتم زیر باید به اندازه کافی تکرار شود تا مساله همگرا شود. این روش به حالت آغازین و نقاط پرت حساس است و همان الگوریتم روش ISODATA میباشد. الف) بصورت تصادفی نماینده خوشهها تعیین میگردد( Vj ) و موجودیتهایی که به نماینده خوشه نزدیکترند، در آن خوشه قرار میگیرند و میزان تعلق هر موجودیت به نمایندههای خوشه تعیین میگردد. فاصله [27] موجودیت i آم از نماینده خوشه j ام | 
| میزان تعلق موجودیت i ام به خوشهی j ام | 
|
ب) از روی نماینده خوشه تعیین شده و بر مبنای فاصله، میزان تعلق موجودیتها به خوشهها تعیین شود(هرچه فاصله موجودیت به نماینده خوشه نزدیکتر باشد، میزان تعلق آن به خوشه بیشتر خواهد بود). ج) نماینده خوشهها از روی میانگینگیری، از روی میزان تعلق موجودیتها به خوشهها تعیین گردد. د) رجوع به گام ب
[1] clustering [2] classification [3] entity [4] مثلا فاصله یک نقطه از یک شکل، فاصله از نزدیکترین نقطه آن شکل تعریف میشود. [5] در این حالت، خوشهیابی شبیه تقریب تابعی (function approximation) خواهد شد. [6] Classifier: if x is A then class is [7] partitioning [8] grid [9] tree [10] scatter [11] crisp [12] Fuzzy C-mean [13] bezdek [14] Self Organizing Map: SOM [15] رابطه دارای خواص انعکاسی، تقارنی و انتقالی باشد. [16] similarity measure [17] Min, Max [18] likeness relation [19] rusppini [20] Bounded product, bounded sum [21] indistinguishability [22] L. V alverde [23] pseudometric [24] outlier [25] یا میانگین برچسب k نزدیکترین همسایه [26] نام دیگر آن روش C-mean است. [27] اگر فضا متریک باشد، کفایت میکند، لازم نیست نرم داشته باشد (فاصله بر اساس نرم باشد). |