جنگل تصادفی (RF) یک طبقهبندی گروهی است که از چندین مدل از چندین DT برای به دست آوردن عملکرد پیشبینی بهتر استفاده میکند. بسیاری از درختان طبقه بندی را ایجاد می کند و یک تکنیک نمونه بوت استرپ برای آموزش هر درخت از مجموعه داده های آموزشی استفاده می شود. این روش فقط به دنبال یک زیرمجموعه تصادفی از متغیرها است تا در هر گره تقسیم شود. برای طبقه بندی، بردار ورودی به هر درخت در RF داده می شود و هر درخت به یک کلاس رای می دهد. در نهایت، RF کلاسی را انتخاب می کند که بیشترین تعداد رای را داشته باشد. این توانایی مدیریت مجموعه داده های ورودی بزرگتر را در مقایسه با روش های دیگر دارد [AUN 09].(1)
رگرسیون جنگل تصادفی [41] به دلیل دقت بالا و توانایی در مدیریت ویژگی های بزرگ با نمونه های کوچک، به ابزاری رایج در سناریوهای پیش بینی چندگانه [42-50] تبدیل شده است. Random Forest [41] دو مفهوم Bagging و Random Selection of Features [51-53] را با ایجاد مجموعه ای از درختان رگرسیون T که در آن مجموعه آموزشی برای هر درخت با استفاده از نمونه برداری بوت استرپ از مجموعه نمونه اصلی و ویژگی های در نظر گرفته شده انتخاب می شود، ترکیب می کند. برای پارتیشن بندی در هر گره یک زیرمجموعه تصادفی از مجموعه اصلی ویژگی ها است. درخت رگرسیون شکلی از مدل رگرسیون غیرخطی است که در آن نمونهها در هر گره درخت باینری بر اساس مقدار یک ویژگی ورودی انتخاب شده تقسیم میشوند [54]. نمونهگیری بوت استرپ برای هر نسل درخت رگرسیون و انتخاب تصادفی ویژگیهای در نظر گرفته شده برای تقسیمبندی در هر گره، همبستگی بین درختهای رگرسیون تولید شده را کاهش میدهد و بنابراین انتظار میرود میانگینگیری پاسخهای پیشبینی آنها واریانس خطا را کاهش دهد. ما در فصل بعدی درباره جنگل های تصادفی با جزئیات بیشتری صحبت خواهیم کرد.
جنگلهای تصادفی تمایل به پیشبینی دقت بالایی دارند (چالش C2) و میتوانند تعداد زیادی ویژگی (C1) را به دلیل انتخاب ویژگی تعبیهشده در فرآیند تولید مدل مدیریت کنند. توجه داشته باشید که وقتی تعداد ویژگی ها زیاد است، ترجیحاً از تعداد درخت های رگرسیون بیشتری استفاده شود. جنگل های تصادفی به اندازه کافی در برابر نویز مقاوم هستند (C3)، اما قابلیت تفسیر بیولوژیکی جنگل های تصادفی محدود است (C4).)(2)
مدل جنگل تصادفی به طور گسترده ای برای طبقه بندی استفاده می شود. مدل جنگل تصادفی یک مجموعه از درختان تصمیم گیری از نوع کیسه ای است که چندین درخت را به صورت موازی آموزش می دهد و از تصمیم اکثریت درختان به عنوان تصمیم نهایی مدل جنگل تصادفی استفاده می کند. تفسیر مدل درخت تصمیم فردی آسان است، اما مدل غیر منحصر به فرد است و واریانس بالایی را نشان می دهد. از سوی دیگر، جنگل تصادفی با ترکیب صدها مدل درخت تصمیم، واریانس و سوگیری را کاهش میدهد، که به دلیل آستانه سوگیری-واریانس دستیابی به آن دشوار است. جنگل تصادفی (شکل 10.6) چندین طبقهبندی درخت تصمیم (به موازات) را بر روی نمونههای فرعی مختلف مجموعه داده (همچنین به عنوان راهاندازی نامیده میشود) و نمونههای فرعی مختلفی از ویژگیهای موجود آموزش میدهد. جنگل تصادفی یک طبقهبندی گروهی است که بر اساس راهاندازی و به دنبال آن تجمیع (که به طور مشترک به عنوان bagging نامیده میشود) است. در عمل، طبقهبندیکننده جنگل تصادفی نیازی به تنظیم فراپارامتر یا مقیاسبندی ویژگی ندارد. در نتیجه، طبقهبندیکننده جنگل تصادفی به راحتی توسعه داده میشود، پیادهسازی آن آسان است و طبقهبندی قوی ایجاد میکند(3)
الگوریتم جنگل تصادفی (RF) یکی از بهترین الگوریتم ها برای طبقه بندی است. RF قادر است داده های بزرگ را با دقت طبقه بندی کند. این یک روش یادگیری است که در آن تعداد درخت تصمیم در زمان آموزش و خروجی های مدال پیش بینی شده توسط درختان جداگانه ساخته می شود. RF به عنوان یک پیش بینی کننده درخت عمل می کند که در آن هر درخت به مقادیر بردار تصادفی بستگی دارد. مفهوم اساسی در پشت این این است که گروهی از "یادگیرندگان ضعیف" ممکن است گرد هم آیند تا "یادگیرنده قوی" بسازند [8،10،24،25].(4)
مدلهای جنگل تصادفی (RF) مدلهای یادگیری ماشینی هستند که با ترکیب نتایج حاصل از دنبالهای از درختهای تصمیمگیری رگرسیون، خروجی را پیشبینی میکنند. هر درخت به طور مستقل ساخته می شود و به یک بردار تصادفی که از داده های ورودی نمونه برداری شده است، بستگی دارد، که همه درختان جنگل دارای توزیع یکسانی هستند. پیشبینیهای جنگلها با استفاده از تجمع بوت استرپ و انتخاب ویژگی تصادفی بهطور میانگین محاسبه میشوند. نشان داده شده است که مدلهای RF پیشبینیکنندههای قوی برای اندازههای نمونه کوچک و دادههای ابعادی بالا هستند (Biau & Scornet, 2016). مدلهای طبقهبندی RF ساخته شدهاند که مستقیماً بیوراکتورها را به عنوان دارای محتوای کاردیومیوسیت کافی یا ناکافی طبقهبندی میکنند.(5)
مقایسه درخت تصمیم در مقابل جنگل تصادفی
برای نصب افزونه جنگل تصادفی در SPSS مطابق فیلم آموزشی زیر نصب فرمایید.
منابع:
(1) Mushtaq, M.-S., & Mellouk, A. (2017). Methodologies for Subjective Video Streaming QoE Assessment. Quality of Experience Paradigm in Multimedia Services, 27–57. doi:10.1016/b978-1-78548-109-3.50002-3
(2)Pal, R. (2017). Overview of predictive modeling based on genomic characterizations. Predictive Modeling of Drug Sensitivity, 121–148. doi:10.1016/b978-0-12-805274-7.00006-3
(3)Misra, S., & Wu, Y. (2020). Machine learning assisted segmentation of scanning electron microscopy images of organic-rich shales with feature extraction and feature ranking. Machine Learning for Subsurface Characterization, 289–314. doi:10.1016/b978-0-12-817736-5.00010-7
(4Shrivastava, D., Sanyal, S., Maji, A. K., & Kandar, D. (2020). Bone cancer detection using machine learning techniques. Smart Healthcare for Disease Diagnosis and Prevention, 175–183. doi:10.1016/b978-0-12-817913-0.00017-1 )
(5)Shrivastava, D., Sanyal, S., Maji, A. K., & Kandar, D. (2020). Bone cancer detection using machine learning techniques. Smart Healthcare for Disease Diagnosis and Prevention, 175–183. doi:10.1016/b978-0-12-817913-0.00017-1
نظرات