یادگیری ماشینی در زیست شناسی مولکولی
زیستشناسی به طور سنتی بر طبقهبندی سیستمهای زنده (به صورت سلسله مراتبی) به بخشهای کوچکتر و مطالعه جداگانه این بخشها متمرکز بوده است. این رویکرد پژوهشی تقلیلگرا در زیستشناسی مولکولی به اوج خود رسیده است، جایی که مولکولهای منفرد از نظر ژنها و محصولات ژنی بهطور مستقل مورد مطالعه قرار گرفتهاند. با انتشار اولین توالی ژنوم کامل در سال 1995 (Fleischmann, Adams et al. 1995)، مقدمات این تحقیق تغییر کرد. تعدادی از پروژه های توالی یابی ژنوم در حال حاضر دستورالعمل های اساسی برای عملکرد کل ارگانیسم ها با سرعت فزاینده را در اختیار محققان قرار می دهند (Bernal, Ear et al. 2001). بنابراین، دادههای توالی DNA تا حدی انتقال از ژنتیک مولکولی (یعنی مطالعه تک ژنها) به ژنومیک (یعنی مطالعه همه ژنهای یک ژنوم) را تسهیل کردهاند. ژنومیکس متعاقباً از نقشه برداری و توالی ژنوم ها به کار پیچیده تر درک و تعیین، در مقیاس وسیع ژنوم، عملکرد ژن و پروتئین، برهمکنش پروتئین-پروتئین، برهمکنش پروتئین- لیگاند، تنظیم ژن و غیره دستخوش تغییر شده است. این بخش از ژنومیک را ژنومیک عملکردی ابداع کرده است.
توسعه ژنومیک عملکردی و فناوریهای تجربی با توان عملیاتی بالا، نیاز به رایانهها را برای ذخیره و تجزیه و تحلیل مقادیر زیادی از دادهها ایجاد کرد. همانطور که در مورد ژنومیک اتفاق افتاد، بیوانفورماتیک از رشتهای که عمدتاً با پایگاههای اطلاعاتی توالی و تجزیه و تحلیل توالی مرتبط است به یک علم محاسباتی با استفاده از دادههای بیولوژیکی توسعه یافت. ژنومیک عملکردی اگرچه تعاریف و دیدگاههای متفاوتی از بیوانفورماتیک وجود دارد، اکثر محققان اکنون از بیوانفورماتیک به عنوان یک اصطلاح عمومی برای ذخیره و نگهداری دادههای بیولوژیکی و استفاده از روشها و الگوریتمهای تجزیه و تحلیل دادههای محاسباتی در مطالعات مرتبط با ژنومیک عملکردی استفاده میکنند (کانهیسا و بورک 2003). بنابراین بیوانفورماتیک شامل تعدادی از زمینه های علمی از جمله ریاضیات، آمار، انفورماتیک، فیزیک، شیمی، زیست شناسی و پزشکی می شود.
درخواست تحليل نظريه گراف با نرم افزار Rosetta
یکی از روشهای رایج در بیوانفورماتیک و ژنومیک عملکردی، روش یادگیری ماشینی است. یادگیری ماشینی به مشکل استفاده از رایانه برای یادگیری مفاهیم کلی از مشاهدات و دانش می پردازد و به طور سنتی در دو مدرسه مختلف توسعه یافته است. آماردانان روش های یادگیری را بر اساس چارچوب های ریاضی نظریه احتمال و آمار توسعه می دهند (هستی، تیبشیرانی و همکاران 2001). دانشمندان کامپیوتر اغلب روشهایی را بر اساس مدلهای سیستمهای هوشمند توسعه میدهند (مثلا روشهای الهامگرفته از زیستشناسی مانند الگوریتمهای ژنتیک و شبکههای عصبی، یا روشهای مبتنی بر منطق مانند یادگیری قوانین، به بخش یادگیری ماشین در زیر مراجعه کنید) (میچل 1997). تفاوت ها در درجه اول به این دلیل است که آماردانان بیشتر به تجزیه و تحلیل داده های خالص علاقه مند بوده اند، در حالی که دانشمندان کامپیوتر نیز به ساختن سیستم های هوشمند علاقه مند بوده اند (مانند روبات هایی با هوش مصنوعی (راسل و نورویگ 1995)). با این حال، این دیدگاههای مختلف تا حدودی همگرا هستند، و ترکیبهایی را با استفاده از عناصر آمار و علوم رایانه تشکیل میدهند (مثلاً تشخیص الگو (تئودوریدیس و کوترومباس 2003)).
استقراء به تعمیم از مشاهدات به مفاهیم گسترده اشاره دارد و با استنتاج که به استفاده از مفاهیم کلی (یا نظریه ها) برای استنتاج فرضیه های خاص اشاره دارد، متفاوت است. در زیست شناسی مولکولی، القاء به ویژه مرتبط است، زیرا تئوری های کلی هنوز کار نکرده اند. به عنوان مثال، ما می دانیم که رابطه ای بین توالی و ساختار وجود دارد، اما این رابطه از نظر تئوری هایی که ممکن است برای استنباط مدل های ساختاری خوب برای یک توالی پروتئین خاص استفاده شوند، به خوبی درک نشده است. با این حال، نمونه هایی از این رابطه را از نظر ساختارهای پروتئینی داریم که به صورت تجربی حل شده اند. و روشهای یادگیری ماشین برای القای مدلهای مبتنی بر مثالها طراحی شدهاند که تا حدی رابطه عملکردی مفروض بین، در این مورد، توالی و ساختار را توصیف میکنند. رایج ترین کاربرد چنین مدل هایی، پیش بینی است. با این حال، با توجه به مدلی که می تواند به طور قابل اعتمادی ساختار پروتئین را از روی توالی پیش بینی کند (به ویژه برای پروتئین های دیده نشده، به عنوان مثال پروتئین هایی که در زمان القای مدل در دسترس نبودند)، این مدل بدیهی است که مفاهیم کلی را شامل می شود که ممکن است برای درک رابطه نیز مورد استفاده قرار گیرد. و این درک ممکن است به مرور زمان به نظریه های کلی منجر شود. در نتیجه، یادگیری ماشین ممکن است هم برای اهداف پیش بینی و هم برای اهداف توصیفی استفاده شود. در زیست شناسی مولکولی، و به ویژه در ژنومیکس عملکردی، تعدادی از مشکلات ممکن است با استفاده از مفاهیم مثال ها و یادگیری ماشین بررسی شوند. و کاربرد موفقیت آمیز چنین روش هایی می تواند منجر به موقعیت هایی شود که در آن از آزمایش های بیولوژیکی برای به دست آوردن اطلاعات در مورد مجموعه ای (نماینده) از موارد استفاده می شود، مدل ها به طور خودکار از این نمونه ها القا می شوند و در نهایت برای پر کردن دانش گمشده برای موارد باقی مانده استفاده می شوند. این فلسفه ژنومیک ساختاری است: حل آزمایشی ساختار حداقل یک پروتئین از هر خانواده پروتئینی و پیشبینی ساختار پروتئینهای باقیمانده با استفاده از شباهت توالی به پروتئینهایی با ساختارهای حلشده (چاندونیا و برنر 2006).
یکی از موانع عمده برای استفاده موثر از یادگیری ماشین در ژنومیک عملکردی، فقدان ساختار در دانش زیستی موجود از نظر پایگاههای اطلاعاتی و حاشیهنویسی قابل خواندن توسط کامپیوتر بوده است. بنابراین، متن کاوی و استنتاج خودکار از متن آزاد، یکی از بخشهای اصلی بیوانفورماتیک بوده و خواهد بود (شاتکای و فلدمن، 2003). بنابراین، واژگان کنترل شده مانند هستی شناسی ژن (Ashburner، Ball et al. 2000) برای عملکرد پروتئین برای رویکردهای یادگیری ماشین در زیست شناسی مهم بوده است.
یادگیری قوانین مبتنی بر مجموعه راف و برنامه نرم افزاري Rosetta
ثابت شده است که یادگیری قواعد مبتنی بر مجموعهای راف یک رویکرد موفق در بیوانفورماتیک است. این رویکرد داده های جدولی را در قوانین IF-THEN متراکم می کند. بخش IF هر قانون حداقل الگوی مورد نیاز برای تشخیص مشاهدات با برچسب های مختلف را مشخص می کند، به عنوان مثال.
اگر ژن A تنظیم شده باشد و ژن D تنظیم شده باشد
پس بافت سالم است
IF فاکتور رونویسی باند F و فاکتور رونویسی V باند
سپس ژن با ژن H تنظیم می شود
ساختار پروتئین IF شامل موتیف D و ضریب آب-اکتانول لیگاند > c
سپس میل اتصال بالا است
بر خلاف اکثر روشهای یادگیری ماشین، مدلهای مبتنی بر قانون به راحتی خوانا هستند و بنابراین ممکن است برای درک الگوی زیربنایی در دادهها علاوه بر استفاده برای پیشبینی استفاده شوند. چارچوب مجموعه راف علاوه بر این به ویژه برای مدیریت نویز و نویز مناسب است
داده های مبهم با القای مدل های تقریبی از نظر مدل ها و قوانینی که نتایج متعددی دارند.
سیستم ROSETTA یک بسته نرمافزاری است که القای قوانین مبتنی بر مجموعههای راف را پیادهسازی میکند و شامل تعدادی ویژگی اضافی مانند اعتبارسنجی مدل است. این سیستم با رابط گرافیکی کاربر پسند پیاده سازی شده و توسط جامعه بزرگی از دانشمندان مورد استفاده قرار می گیرد. نمونه هایی از کاربردها در بیوانفورماتیک عبارتند از:
طبقه بندی سرطان (Nørsett, Lægreid et al. 2004; Dennis, Hvidsten et al. 2005)
پیش بینی عملکرد ژن (Lægreid, Hvidsten و همکاران 2003)
تنظیم ژن (Hvidsten, Wilczynski et al. 2005)
مدلسازی برهمکنش پروتئین-لیگاند (استرومرگسون، کریشتافوویچ و همکاران، 2006؛ استرومرگسون، پروسیس و همکاران، 2006)
آموزش و دانلود نرم افزار Rosetta
درخواست تحليل نظريه گراف با نرم افزار Rosetta
منابع
Fleischmann, R. D., M. D. Adams, et al. (1995). "Whole-genome random sequencing and assembly of Haemophilus influenzae Rd." Science 269(5223): 496-512.
Bernal, A., U. Ear, et al. (2001). "Genomes OnLine Database (GOLD): a monitor of genome projects world-wide." Nucleic Acids Res 29(1): 126-7.
Kanehisa, M. and P. Bork (2003). "Bioinformatics in the post-sequence era." Nat Genet 33 Suppl: 305-10.
Hastie, T., R. J. Tibshirani, et al. (2001). The Elements of Statistical Learning. New York, Springer.
Mitchell, T. M. (1997). Machine Learning. New York, McGraw-Hill.
Nørsett, K. G., A. Lægreid, et al. (2004). "Gene expression based classification of gastric carcinoma." Cancer Lett 210(2): 227-37.
Russell, S. and P. Norvig (1995). Artificial Intelligence. New Jersey, Prentice-Hall.
Schapire, R. E. (1990). "The strength of weak learnability." Machine learning 5: 197-227.
Theodoridis, S. and K. Koutroumbas (2003). Pattern recognition. Amsterdam ; Boston, Academic Press
Chandonia, J. M. and S. E. Brenner (2006). "The impact of structural genomics: expectations and outcomes." Science 311(5759): 347-51.
Nørsett, K. G., A. Lægreid, et al. (2004). "Gene expression based classification of gastric carcinoma." Cancer Lett 210(2): 227-37.
Dennis, J. L., T. R. Hvidsten, et al. (2005). "Markers of adenocarcinoma characteristic of the site of origin: development of a diagnostic algorithm." Clin Cancer Res 11(10): 3766-72.
Lægreid, A., T. R. Hvidsten, et al. (2003). "Predicting gene ontology biological process from temporal gene expression patterns." Genome Res 13(5): 965-79.
Hvidsten, T. R., B. Wilczynski, et al. (2005). "Discovering regulatory binding-site modules using rule-based learning." Genome Res 15(6): 856-66.
Strömbergsson, H., P. Prusis, et al. (2006). "Rough set-based proteochemometrics modeling of G-protein-coupled receptor-ligand interactions." Proteins 63(1): 24-34.