یادگیری ماشینی در زیست شناسی مولکولی

زیست‌شناسی به طور سنتی بر طبقه‌بندی سیستم‌های زنده (به صورت سلسله مراتبی) به بخش‌های کوچک‌تر و مطالعه جداگانه این بخش‌ها متمرکز بوده است. این رویکرد پژوهشی تقلیل‌گرا در زیست‌شناسی مولکولی به اوج خود رسیده است، جایی که مولکول‌های منفرد از نظر ژن‌ها و محصولات ژنی به‌طور مستقل مورد مطالعه قرار گرفته‌اند. با انتشار اولین توالی ژنوم کامل در سال 1995  (Fleischmann, Adams et al. 1995)، مقدمات این تحقیق تغییر کرد. تعدادی از پروژه های توالی یابی ژنوم در حال حاضر دستورالعمل های اساسی برای عملکرد کل ارگانیسم ها با سرعت فزاینده را در اختیار محققان قرار می دهند (Bernal, Ear et al. 2001). بنابراین، داده‌های توالی DNA تا حدی انتقال از ژنتیک مولکولی (یعنی مطالعه تک ژن‌ها) به ژنومیک (یعنی مطالعه همه ژن‌های یک ژنوم) را تسهیل کرده‌اند. ژنومیکس متعاقباً از نقشه برداری و توالی ژنوم ها به کار پیچیده تر درک و تعیین، در مقیاس وسیع ژنوم، عملکرد ژن و پروتئین، برهمکنش پروتئین-پروتئین، برهمکنش پروتئین- لیگاند، تنظیم ژن و غیره دستخوش تغییر شده است. این بخش از ژنومیک را ژنومیک عملکردی ابداع کرده است.

فيلم آموزشي نرم افزار Rosetta


توسعه ژنومیک عملکردی و فناوری‌های تجربی با توان عملیاتی بالا، نیاز به رایانه‌ها را برای ذخیره و تجزیه و تحلیل مقادیر زیادی از داده‌ها ایجاد کرد. همانطور که در مورد ژنومیک اتفاق افتاد، بیوانفورماتیک از رشته‌ای که عمدتاً با پایگاه‌های اطلاعاتی توالی و تجزیه و تحلیل توالی مرتبط است به یک علم محاسباتی با استفاده از داده‌های بیولوژیکی توسعه یافت. ژنومیک عملکردی اگرچه تعاریف و دیدگاه‌های متفاوتی از بیوانفورماتیک وجود دارد، اکثر محققان اکنون از بیوانفورماتیک به عنوان یک اصطلاح عمومی برای ذخیره و نگهداری داده‌های بیولوژیکی و استفاده از روش‌ها و الگوریتم‌های تجزیه و تحلیل داده‌های محاسباتی در مطالعات مرتبط با ژنومیک عملکردی استفاده می‌کنند (کانهیسا و بورک 2003). بنابراین بیوانفورماتیک شامل تعدادی از زمینه های علمی از جمله ریاضیات، آمار، انفورماتیک، فیزیک، شیمی، زیست شناسی و پزشکی می شود.

درخواست تحليل نظريه گراف با نرم افزار Rosetta 

یکی از روش‌های رایج در بیوانفورماتیک و ژنومیک عملکردی، روش یادگیری ماشینی است. یادگیری ماشینی به مشکل استفاده از رایانه برای یادگیری مفاهیم کلی از مشاهدات و دانش می پردازد و به طور سنتی در دو مدرسه مختلف توسعه یافته است. آماردانان روش های یادگیری را بر اساس چارچوب های ریاضی نظریه احتمال و آمار توسعه می دهند (هستی، تیبشیرانی و همکاران 2001). دانشمندان کامپیوتر اغلب روش‌هایی را بر اساس مدل‌های سیستم‌های هوشمند توسعه می‌دهند (مثلا روش‌های الهام‌گرفته از زیست‌شناسی مانند الگوریتم‌های ژنتیک و شبکه‌های عصبی، یا روش‌های مبتنی بر منطق مانند یادگیری قوانین، به بخش یادگیری ماشین در زیر مراجعه کنید) (میچل 1997). تفاوت ها در درجه اول به این دلیل است که آماردانان بیشتر به تجزیه و تحلیل داده های خالص علاقه مند بوده اند، در حالی که دانشمندان کامپیوتر نیز به ساختن سیستم های هوشمند علاقه مند بوده اند (مانند روبات هایی با هوش مصنوعی (راسل و نورویگ 1995)). با این حال، این دیدگاه‌های مختلف تا حدودی هم‌گرا هستند، و ترکیب‌هایی را با استفاده از عناصر آمار و علوم رایانه تشکیل می‌دهند (مثلاً تشخیص الگو (تئودوریدیس و کوترومباس 2003)).

فيلم آموزشي نرم افزار Rosetta

استقراء به تعمیم از مشاهدات به مفاهیم گسترده اشاره دارد و با استنتاج که به استفاده از مفاهیم کلی (یا نظریه ها) برای استنتاج فرضیه های خاص اشاره دارد، متفاوت است. در زیست شناسی مولکولی، القاء به ویژه مرتبط است، زیرا تئوری های کلی هنوز کار نکرده اند. به عنوان مثال، ما می دانیم که رابطه ای بین توالی و ساختار وجود دارد، اما این رابطه از نظر تئوری هایی که ممکن است برای استنباط مدل های ساختاری خوب برای یک توالی پروتئین خاص استفاده شوند، به خوبی درک نشده است. با این حال، نمونه هایی از این رابطه را از نظر ساختارهای پروتئینی داریم که به صورت تجربی حل شده اند. و روش‌های یادگیری ماشین برای القای مدل‌های مبتنی بر مثال‌ها طراحی شده‌اند که تا حدی رابطه عملکردی مفروض بین، در این مورد، توالی و ساختار را توصیف می‌کنند. رایج ترین کاربرد چنین مدل هایی، پیش بینی است. با این حال، با توجه به مدلی که می تواند به طور قابل اعتمادی ساختار پروتئین را از روی توالی پیش بینی کند (به ویژه برای پروتئین های دیده نشده، به عنوان مثال پروتئین هایی که در زمان القای مدل در دسترس نبودند)، این مدل بدیهی است که مفاهیم کلی را شامل می شود که ممکن است برای درک رابطه نیز مورد استفاده قرار گیرد. و این درک ممکن است به مرور زمان به نظریه های کلی منجر شود. در نتیجه، یادگیری ماشین ممکن است هم برای اهداف پیش بینی و هم برای اهداف توصیفی استفاده شود. در زیست شناسی مولکولی، و به ویژه در ژنومیکس عملکردی، تعدادی از مشکلات ممکن است با استفاده از مفاهیم مثال ها و یادگیری ماشین بررسی شوند. و کاربرد موفقیت آمیز چنین روش هایی می تواند منجر به موقعیت هایی شود که در آن از آزمایش های بیولوژیکی برای به دست آوردن اطلاعات در مورد مجموعه ای (نماینده) از موارد استفاده می شود، مدل ها به طور خودکار از این نمونه ها القا می شوند و در نهایت برای پر کردن دانش گمشده برای موارد باقی مانده استفاده می شوند. این فلسفه ژنومیک ساختاری است: حل آزمایشی ساختار حداقل یک پروتئین از هر خانواده پروتئینی و پیش‌بینی ساختار پروتئین‌های باقی‌مانده با استفاده از شباهت توالی به پروتئین‌هایی با ساختارهای حل‌شده (چاندونیا و برنر 2006).

یکی از موانع عمده برای استفاده موثر از یادگیری ماشین در ژنومیک عملکردی، فقدان ساختار در دانش زیستی موجود از نظر پایگاه‌های اطلاعاتی و حاشیه‌نویسی قابل خواندن توسط کامپیوتر بوده است. بنابراین، متن کاوی و استنتاج خودکار از متن آزاد، یکی از بخش‌های اصلی بیوانفورماتیک بوده و خواهد بود (شاتکای و فلدمن، 2003). بنابراین، واژگان کنترل شده مانند هستی شناسی ژن (Ashburner، Ball et al. 2000) برای عملکرد پروتئین برای رویکردهای یادگیری ماشین در زیست شناسی مهم بوده است.

فيلم آموزشي نرم افزار Rosetta

یادگیری قوانین مبتنی بر مجموعه راف و برنامه نرم افزاري  Rosetta

ثابت شده است که یادگیری قواعد مبتنی بر مجموعه‌ای راف یک رویکرد موفق در بیوانفورماتیک است. این رویکرد داده های جدولی را در قوانین IF-THEN متراکم می کند. بخش IF هر قانون حداقل الگوی مورد نیاز برای تشخیص مشاهدات با برچسب های مختلف را مشخص می کند، به عنوان مثال.

اگر ژن A تنظیم شده باشد و ژن D تنظیم شده باشد

پس بافت سالم است

IF فاکتور رونویسی باند F و فاکتور رونویسی V باند

سپس ژن با ژن H تنظیم می شود

ساختار پروتئین IF شامل موتیف D و ضریب آب-اکتانول لیگاند > c

سپس میل اتصال بالا است

بر خلاف اکثر روش‌های یادگیری ماشین، مدل‌های مبتنی بر قانون به راحتی خوانا هستند و بنابراین ممکن است برای درک الگوی زیربنایی در داده‌ها علاوه بر استفاده برای پیش‌بینی استفاده شوند. چارچوب مجموعه راف علاوه بر این به ویژه برای مدیریت نویز و نویز مناسب است

داده های مبهم با القای مدل های تقریبی از نظر مدل ها و قوانینی که نتایج متعددی دارند.

سیستم ROSETTA یک بسته نرم‌افزاری است که القای قوانین مبتنی بر مجموعه‌های راف را پیاده‌سازی می‌کند و شامل تعدادی ویژگی اضافی مانند اعتبارسنجی مدل است. این سیستم با رابط گرافیکی کاربر پسند پیاده سازی شده و توسط جامعه بزرگی از دانشمندان مورد استفاده قرار می گیرد. نمونه هایی از کاربردها در بیوانفورماتیک عبارتند از:

طبقه بندی سرطان (Nørsett, Lægreid et al. 2004; Dennis, Hvidsten et al. 2005)

پیش بینی عملکرد ژن (Lægreid, Hvidsten و همکاران 2003)

تنظیم ژن (Hvidsten, Wilczynski et al. 2005)

مدلسازی برهمکنش پروتئین-لیگاند (استرومرگسون، کریشتافوویچ و همکاران، 2006؛ استرومرگسون، پروسیس و همکاران، 2006)

دانلود نرم افزار Rosetta

آموزش و دانلود نرم افزار Rosetta

درخواست تحليل نظريه گراف با نرم افزار Rosetta 

منابع

Fleischmann, R. D., M. D. Adams, et al. (1995). "Whole-genome random sequencing and assembly of Haemophilus influenzae Rd." Science 269(5223): 496-512.
Bernal, A., U. Ear, et al. (2001). "Genomes OnLine Database (GOLD): a monitor of genome projects world-wide." Nucleic Acids Res 29(1): 126-7.
Kanehisa, M. and P. Bork (2003). "Bioinformatics in the post-sequence era." Nat Genet 33 Suppl: 305-10.
Hastie, T., R. J. Tibshirani, et al. (2001). The Elements of Statistical Learning. New York, Springer.
Mitchell, T. M. (1997). Machine Learning. New York, McGraw-Hill.
Nørsett, K. G., A. Lægreid, et al. (2004). "Gene expression based classification of gastric carcinoma." Cancer Lett 210(2): 227-37.
Russell, S. and P. Norvig (1995). Artificial Intelligence. New Jersey, Prentice-Hall.
Schapire, R. E. (1990). "The strength of weak learnability." Machine learning 5: 197-227.
Theodoridis, S. and K. Koutroumbas (2003). Pattern recognition. Amsterdam ; Boston, Academic Press
Chandonia, J. M. and S. E. Brenner (2006). "The impact of structural genomics: expectations and outcomes." Science 311(5759): 347-51.
Nørsett, K. G., A. Lægreid, et al. (2004). "Gene expression based classification of gastric carcinoma." Cancer Lett 210(2): 227-37.
Dennis, J. L., T. R. Hvidsten, et al. (2005). "Markers of adenocarcinoma characteristic of the site of origin: development of a diagnostic algorithm." Clin Cancer Res 11(10): 3766-72.
Lægreid, A., T. R. Hvidsten, et al. (2003). "Predicting gene ontology biological process from temporal gene expression patterns." Genome Res 13(5): 965-79.
Hvidsten, T. R., B. Wilczynski, et al. (2005). "Discovering regulatory binding-site modules using rule-based learning." Genome Res 15(6): 856-66.
Strömbergsson, H., P. Prusis, et al. (2006). "Rough set-based proteochemometrics modeling of G-protein-coupled receptor-ligand interactions." Proteins 63(1): 24-34.

 


ebrahim_bayazidi 1401/06/04