نماد سایت هوش مصنوعی پزشکی آرامیس

نارسایی قلبی

قلبی

نارسایی قلبی یادگیری بدون نظارت
در مقابل، در یادگیری بدون نظارت، هیچ خروجی برای پیش بینی وجود ندارد. در عوض، ما در تلاش برای یافتن الگوها یا گروه‌بندی‌های طبیعی در داده‌ها هستیم.

این کار ذاتاً برای قضاوت چالش‌برانگیزتر است و اغلب ارزش چنین گروه‌هایی که از طریق یادگیری بدون نظارت آموخته می‌شوند، با عملکرد آن در وظایف یادگیری تحت نظارت بعدی ارزیابی می‌شود

(یعنی آیا این الگوهای جدید به نحوی مفید هستند؟).

چه زمانی می توان از چنین رویکردهایی در پزشکی استفاده کرد؟ شاید قانع‌کننده‌ترین فرصت، ابتکار «پزشکی دقیق» باشد. ناامید شده از ناهمگونی ذاتی در بیشتر بیماری‌های رایج، تلاش فزاینده‌ای برای تعریف مجدد بیماری بر اساس مکانیسم‌های پاتوفیزیولوژیک وجود دارد که به نوبه خود می‌تواند مسیرهای جدیدی را برای درمان فراهم کند. اما شناسایی چنین مکانیسم هایی برای بیماری های پیچیده چند عاملی کار آسانی نخواهد بود. بیایید به این فکر کنیم که چگونه می‌توان یادگیری بدون نظارت را در بیماری‌های قلبی در این راستا به کار برد و شرایط ناهمگونی مانند میوکاردیت را در نظر گرفت. می توان با گروه بزرگی از افراد ظاهرا مشابه با نارسایی حاد سیستولیک قلب غیر قابل توضیح شروع کرد. سپس می توان بیوپسی میوکارد را روی آنها انجام داد و ترکیب سلولی هر نمونه را با تکنیکی مانند رنگ آمیزی ایمنی مشخص کرد. برای مثال، می‌توان تعداد لنفوسیت‌های T، نوتروفیل‌ها، ماکروفاژها، ائوزینوفیل‌ها و غیره را داشت. سپس می‌توان مشاهده کرد که آیا الگوهای تکرارشونده‌ای از ترکیب سلولی وجود دارد، که به نوبه خود، ممکن است مکانیسم‌ها و درمان‌هایی را برای کاوش راهنمایی کند. رویکرد مشابهی، اگرچه بر روی ژنومیک متمرکز شده بود، منجر به شناسایی یک زیرگروه ائوزینوفیلیک آسم ۷ شد که به طور منحصربه‌فردی به یک درمان جدید که سیتوکین IL-138 ترشح شده توسط ائوزینوفیل را هدف قرار می‌دهد، پاسخ می‌دهد. به تضاد با یادگیری نظارت شده توجه کنید – هیچ نتیجه پیش بینی شده ای وجود ندارد – ما فقط به شناسایی الگوها در داده ها علاقه مندیم. در واقع، درمان این مشکل به عنوان یک مشکل یادگیری تحت نظارت – مانند ایجاد مدلی از مرگ و میر در میوکاردیت و طبقه بندی بیماران بر اساس خطر – ممکن است چنین زیرگروه هایی را به طور کامل از دست بدهد و در نتیجه شانس شناسایی مکانیسم های بیماری جدید را از دست بدهد.

مشکل یادگیری
اکنون اجازه دهید مشکل یادگیری را به طور کلی تعریف کنیم تا بفهمیم چرا الگوریتم های پیچیده یادگیری ماشینی چنین حضور محدودی در عمل بالینی واقعی داشته اند. من ابتدا بر یادگیری تحت نظارت تمرکز خواهم کرد و در مرحله بعد به یادگیری بدون نظارت خواهم پرداخت.

ما پیش‌بینی MI را به عنوان هدف خود در نظر می‌گیریم و برای سادگی، آن را به‌عنوان یک مشکل طبقه‌بندی در نظر می‌گیریم، با افرادی که یک یا چند MI داشته‌اند به عنوان یک کلاس و افراد (مطابق با سن و جنسیت) بدون MI به عنوان طبقه دوم (شکل 1A) ). بنابراین، وظیفه ما ایجاد یک مدل دقیق برای تمایز بین دو کلاس است. اولین کار این است که برخی از پیش بینی ها یا ویژگی ها را ارائه دهید. برخی از ویژگی های آشکار عبارتند از فشار خون بالا، دیابت و سطح کلسترول LDL. اما چگونه به این موارد رسیدیم و چگونه می‌توانیم این استخر را بیشتر گسترش دهیم؟ یک راه ساده این است که پیش‌بینی‌کننده‌های کاندید را برای ارتباط با وضعیت حمله قلبی آزمایش کنید و فقط موارد مهم را حفظ کنید. اما این تعداد زیادی از ویژگی‌هایی را که ممکن است فقط در زیر مجموعه‌ای از بیماران حمله قلبی مفید باشند، از دست می‌دهد. بدتر از آن، ممکن است ویژگی هایی وجود داشته باشند که در ترکیب (دو، سه یا بیشتر) مفید باشند اما به تنهایی مفید نباشند. به عنوان یک راه حل، ممکن است وسوسه شویم که تسلیم شویم و همه ویژگی های ممکن را به کار ببریم، اما به طور غریزی، ما مشکوک هستیم که این ممکن است کمکی نکند یا حتی ممکن است اوضاع را بدتر کند (به دلایلی که بعداً مشخص می شود). “انتخاب ویژگی” حوزه یادگیری ماشینی است که بر این مشکل تمرکز دارد.

مروری بر یادگیری ماشینی الف. نمایش ماتریسی مسئله یادگیری تحت نظارت و بدون نظارت. ما علاقه مند به توسعه مدلی برای پیش بینی انفارکتوس میوکارد (MI) هستیم. برای داده‌های آموزشی، ما بیمارانی داریم که هر کدام با یک نتیجه مشخص می‌شوند (نمونه‌های آموزشی مثبت یا منفی)، که با دایره در ستون سمت راست مشخص می‌شود، و همچنین با مقادیر ویژگی‌های پیش‌بینی، که با رنگ‌آمیزی مربع‌های آبی تا قرمز نشان داده می‌شود. ما به دنبال ساخت مدلی برای پیش‌بینی نتیجه با استفاده از ترکیبی از ویژگی‌ها هستیم. انواع مختلفی از توابع را می توان برای نگاشت ویژگی ها به نتیجه (B-D) استفاده کرد. الگوریتم‌های یادگیری ماشین برای یافتن مقادیر بهینه پارامترهای آزاد در مدل استفاده می‌شوند تا خطای آموزشی را که با تفاوت بین مقادیر پیش‌بینی‌شده از مدل ما و مقادیر واقعی قضاوت می‌شود، به حداقل برسانند. در مسئله یادگیری بدون نظارت، ما ستون نتیجه را نادیده می گیریم و بیماران را بر اساس شباهت در مقادیر ویژگی هایشان گروه بندی می کنیم. ب. درختان تصمیم ویژگی ها را برای نتیجه ترسیم می کنند. در هر گره یا نقطه شاخه، نمونه های آموزشی بر اساس مقدار یک ویژگی خاص تقسیم بندی می شوند. شاخه های اضافی با هدف تفکیک کامل نمونه های آموزشی مثبت و منفی معرفی می شوند. ج. شبکه‌های عصبی بر اساس نمایش‌های تبدیل‌شده ویژگی‌ها، نتیجه را پیش‌بینی می‌کنند. یک لایه پنهان از گره ها، مقدار گره های ورودی چندگانه (ویژگی های خام) را برای استخراج ویژگی های تبدیل شده یکپارچه می کند. سپس گره خروجی از مقادیر این ویژگی های تبدیل شده در یک مدل برای پیش بینی نتیجه استفاده می کند. D. الگوریتم k نزدیکترین همسایه کلاس را بر اساس مقادیر مشابه ترین نمونه های آموزشی اختصاص می دهد. فاصله بین بیماران بر اساس مقایسه بردارهای چند بعدی مقادیر ویژگی محاسبه می شود. در این مورد، جایی که تنها دو ویژگی وجود دارد، اگر کلاس نتیجه سه نزدیکترین همسایه را در نظر بگیریم، به نمونه داده ناشناخته یک کلاس “بدون MI” اختصاص داده می شود.

چالش بعدی ارائه تابعی است که مقادیر ویژگی ها را به پیش بینی بیماری (تخصیص کلاس) مرتبط می کند. این چالش را می توان به دو مرحله تقسیم کرد. ابتدا باید تصمیم بگیریم که با چه نوع تابعی می خواهیم کار کنیم (شکل 1B–D). آمار کلاسیک ما را وادار می کند که مدل رگرسیون لجستیک را برای این کار در نظر بگیریم. با رگرسیون لجستیک، یک نوع مدل خطی تعمیم یافته، ویژگی ها به صورت افزودنی و خطی وارد مدل می شوند. اما این تنها یک کلاس ممکن از تابع است و اگر این فرض را راحت کنیم، انتخاب های بیشتری وجود دارد. به عنوان مثال می توان از درخت های تصمیم برای پیش بینی وضعیت حمله قلبی استفاده کرد که امکان انعطاف پذیری گزینه های “OR” را فراهم می کند (شکل 1B). یک بیمار حمله قلبی ممکن است دلایل متقابلاً انحصاری مانند کلسترول خونی خانوادگی یا اختلال ترومبوتیک شریانی یا HIV داشته باشد که مدل‌سازی آنها با رگرسیون لجستیک دشوار است. انواع دیگر مدل‌های یادگیری ماشین مانند شبکه‌های عصبی امکان تغییر ویژگی‌های ورودی را برای پیش‌بینی بهتر نتایج می‌دهند (شکل 1C). ماشین‌های بردار پشتیبان مدل‌های طبقه‌بندی را با استفاده از مجموعه‌ای از ویژگی‌های تبدیل‌شده در ابعاد بسیار بالاتر می‌سازند10. روش‌های نمونه اولیه، مانند k-نزدیک‌ترین همسایه‌ها، ایده ساخت یک مدل را از بین می‌برند، و در عوض بر اساس نتیجه نمونه‌های موردی مشابه، پیش‌بینی می‌کنند (شکل 1D). بهترین حدس برای اینکه آیا بیمار ما دچار حمله قلبی خواهد شد یا خیر این است که ببینیم آیا بیماران مشابه تمایل به حمله قلبی دارند یا خیر.

همه این انتخاب‌های کلاس‌های تابعی دارای پارامترهای آزاد برای تناسب هستند. در رگرسیون لجستیک، ضرایب رگرسیون – یعنی وزن‌های اعمال شده برای ویژگی‌های فردی – باید تعیین شوند. در درخت‌های تصمیم، باید متغیرهایی را انتخاب کرد که در آن تقسیم انجام می‌شود و در مورد متغیرهای کمی، مقادیری که تقسیم بر اساس آنها انجام می‌شود. شبکه های عصبی دارای پارامترهای آزاد مربوط به تابع مورد استفاده برای تبدیل ویژگی و همچنین تابعی هستند که برای پیش بینی کلاس بر اساس این ویژگی های مشتق شده استفاده می شود. یافتن مقادیر بهینه برای این پارامترهای رایگان یک کار دلهره آور است. الگوریتم‌های یادگیری ماشینی روش‌های محاسباتی را برای پیمایش مؤثر در فضای پارامترهای آزاد برای رسیدن به یک مدل خوب نشان می‌دهند. به تمایز بین الگوریتم‌ها، که شامل دستورالعمل‌هایی است که توسط کامپیوتر برای تکمیل یک کار خاص دنبال می‌شود، و مدل‌هایی که از کاربرد الگوریتم‌ها در داده‌ها مشتق شده‌اند، توجه کنید.

چگونه این پارامترهای رایگان را متناسب کنیم؟ و مهمتر از آن، چگونه می توانیم بگوییم که داریم کار خوبی انجام می دهیم؟ یادگیری ماشین سعی می‌کند این وظایف را جدا کند و روی مجموعه‌ای از نمونه‌های آموزشی برای انجام کارهایی مانند انتخاب ویژگی و برازش پارامترها و مجموعه‌ای آزمایشی برای ارزیابی عملکرد مدل تمرکز کند. با استفاده از مثال‌های آموزشی، می‌توانیم مقادیر مختلفی را برای پارامترهای آزاد امتحان کنیم و ارزیابی کنیم که خروجی‌های پیش‌بینی‌شده ما چقدر شبیه به خروجی‌های شناخته شده است – این گاهی اوقات تخمین «خطای آموزش» نامیده می‌شود و یکی از «عملکرد ضرر» استفاده می‌کند که برای منعکس کردن طراحی شده است. چه نوع خطاهایی نسبت به سایرین قابل تحمل تر هستند ما مدلی می خواهیم که خطای آموزشی را به حداقل برساند و الگوریتم انتخابی ما با پارامترهای آزاد برای رسیدن به این هدف مطابقت داشته باشد.

NLM به عنوان یک کتابخانه، دسترسی به ادبیات علمی را فراهم می کند. گنجاندن در پایگاه داده NLM به معنای تأیید یا موافقت با محتوای NLM یا مؤسسه ملی بهداشت نیست. درباره سلب مسئولیت ما بیشتر بدانید.
لوگوی nihpa
جریان. دست نوشته نویسنده؛ موجود در PMC 2018 1 مارس. منتشر شده در فرم ویرایش نهایی به عنوان: گردش. 17 نوامبر 2015; 132 (20): 1920-1930. doi: 10.1161/CIRCULATIONAHA.115.001593
PMCID: PMC5831252NIHMSID: NIHMS729905PMID: 26572668
یادگیری ماشینی در پزشکی
راهول سی دیو، دکترا، دکترا
اطلاعات نویسنده حق چاپ و اطلاعات مجوز سلب مسئولیت
نسخه ویرایش شده نهایی ناشر این مقاله در Circulation موجود است
داده های مرتبط
مواد تکمیلی
رفتن به:
خلاصه
به دلیل پیشرفت در قدرت پردازش، حافظه، ذخیره‌سازی و حجم بی‌سابقه‌ای از داده‌ها، از رایانه‌ها خواسته می‌شود تا با وظایف یادگیری پیچیده‌تر و اغلب با موفقیت خیره‌کننده مقابله کنند. رایانه‌ها اکنون بر نوع محبوب پوکر تسلط یافته‌اند، قوانین فیزیک را از داده‌های تجربی آموخته‌اند، و در بازی‌های ویدیویی متخصص شده‌اند – کارهایی که تا چندی پیش غیرممکن تلقی می‌شدند. به موازات آن، تعداد شرکت‌هایی که بر روی اعمال تجزیه و تحلیل داده‌های پیچیده در صنایع مختلف متمرکز شده‌اند، افزایش یافته است، و بنابراین جای تعجب نیست که برخی شرکت‌های تحلیلی توجه خود را به مشکلات در مراقبت‌های بهداشتی معطوف کنند. هدف از این بررسی این است که کشف کند چه مشکلاتی در پزشکی ممکن است از چنین رویکردهای یادگیری سود ببرند و از مثال‌هایی از ادبیات برای معرفی مفاهیم اساسی در یادگیری ماشین استفاده کند. توجه به این نکته مهم است که مجموعه‌های داده‌های پزشکی به اندازه کافی بزرگ و الگوریتم‌های یادگیری کافی برای چندین دهه در دسترس بوده‌اند – و با این حال، اگرچه هزاران مقاله وجود دارد که الگوریتم‌های یادگیری ماشین را برای داده‌های پزشکی به کار می‌برند، تعداد بسیار کمی به طور معناداری در مراقبت بالینی کمک کرده‌اند. این فقدان تأثیر در تضاد کامل با ارتباط عظیم یادگیری ماشینی با بسیاری از صنایع دیگر است. بنابراین بخشی از تلاش من این خواهد بود که شناسایی کنم چه موانعی ممکن است برای تغییر عملکرد پزشکی از طریق رویکردهای یادگیری آماری وجود داشته باشد و در مورد چگونگی غلبه بر آنها بحث کنم.

کلمات کلیدی: کامپیوتر، آمار، عامل خطر، پیش آگهی، یادگیری ماشین
یادگیری ماشینی یک رشته علمی است که بر نحوه یادگیری کامپیوترها از داده ها تمرکز دارد. این در تقاطع آمار، که به دنبال یادگیری روابط از داده ها، و علوم کامپیوتر، با تاکید بر الگوریتم های محاسباتی کارآمد است، به وجود می آید. این ازدواج بین ریاضیات و علوم کامپیوتر ناشی از چالش‌های محاسباتی منحصربه‌فرد ساخت مدل‌های آماری از مجموعه داده‌های عظیم است که می‌تواند شامل میلیاردها یا تریلیون‌ها نقطه داده باشد. انواع یادگیری مورد استفاده توسط رایانه ها به راحتی به دسته هایی مانند یادگیری تحت نظارت و یادگیری بدون نظارت تقسیم می شوند. با این حال، به‌علاوه، متوجه شدم که بخش دیگری می‌تواند هنگام در نظر گرفتن اینکه چگونه یادگیری ماشینی ممکن است در عمل پزشکی مؤثر باشد مفید باشد: تمایز یادگیری آن دسته از وظایفی که پزشکان از قبل می‌توانند به خوبی انجام دهند و یادگیری مواردی که پزشکان تنها موفقیت محدودی داشته‌اند. با در نظر گرفتن این دسته‌بندی‌های گسترده، می‌توانیم از برخی حوزه‌های پزشکی که از رویکردهای یادگیری ماشین بهره‌مند شده‌اند یا ممکن است بهره‌مند شوند، بازدید کنیم.

رفتن به:
یادگیری تحت نظارت
یادگیری تحت نظارت با هدف پیش بینی یک خروجی یا هدف شناخته شده شروع می شود. در مسابقات یادگیری ماشینی، که در آن شرکت‌کنندگان فردی بر اساس عملکردشان در مجموعه‌های داده رایج مورد قضاوت قرار می‌گیرند، مشکلات یادگیری تحت نظارت مکرر شامل تشخیص دست خط (مانند تشخیص ارقام دست‌نویس)، طبقه‌بندی تصاویر اشیاء (مثلاً این یک گربه است یا یک سگ؟) و طبقه بندی سند (به عنوان مثال آیا این یک کارآزمایی بالینی در مورد نارسایی قلبی است یا یک گزارش مالی؟). قابل ذکر است، همه اینها وظایفی هستند که یک فرد آموزش دیده می تواند به خوبی انجام دهد و بنابراین رایانه اغلب سعی می کند عملکرد انسان را تقریب کند.

یادگیری نظارت شده بر طبقه بندی متمرکز است که شامل انتخاب از میان زیر گروه ها برای توصیف بهترین نمونه داده جدید و پیش بینی است که شامل تخمین پارامتر ناشناخته (مانند دمای فردا بعد از ظهر در سانفرانسیسکو) است.

چند نمونه از یادگیری تحت نظارت در پزشکی می تواند باشد؟ شاید رایج‌ترین مثالی که توسط متخصص قلب دیده می‌شود، تفسیر خودکار EKG باشد، که در آن تشخیص الگو برای انتخاب از مجموعه محدودی از تشخیص‌ها (یعنی یک کار طبقه‌بندی) انجام می‌شود. در رادیولوژی، تشخیص خودکار ندول ریه از اشعه ایکس قفسه سینه نیز نشان دهنده یادگیری تحت نظارت است. در هر دو این موارد، رایانه در حال تقریب کاری است که یک پزشک آموزش دیده قبلاً قادر به انجام آن با دقت بالا است.

یادگیری تحت نظارت اغلب برای تخمین ریسک استفاده می شود. امتیاز خطر فرامینگهام 3 برای بیماری عروق کرونر قلب (CHD) ممکن است در واقع رایج‌ترین نمونه یادگیری تحت نظارت در پزشکی باشد. چنین مدل‌های خطری در سراسر پزشکی وجود دارند و شامل درمان ضد ترومبوتیک در فیبریلاسیون دهلیزی و کاشت دفیبریلاتورهای کاشتنی خودکار در کاردیومیوپاتی هیپرتروفیک می‌شوند. در مدل‌سازی ریسک، کامپیوتر چیزی بیش از تقریب مهارت‌های پزشک انجام می‌دهد، اما روابط جدیدی پیدا می‌کند که به آسانی برای انسان‌ها آشکار نیست.

رفتن به:
یادگیری بدون نظارت
در مقابل، در یادگیری بدون نظارت، هیچ خروجی برای پیش بینی وجود ندارد. در عوض، ما در تلاش برای یافتن الگوها یا گروه‌بندی‌های طبیعی در داده‌ها هستیم. این کار ذاتاً برای قضاوت چالش‌برانگیزتر است و اغلب ارزش چنین گروه‌هایی که از طریق یادگیری بدون نظارت آموخته می‌شوند، با عملکرد آن در وظایف یادگیری تحت نظارت بعدی ارزیابی می‌شود (یعنی آیا این الگوهای جدید به نحوی مفید هستند؟).

چه زمانی می توان از چنین رویکردهایی در پزشکی استفاده کرد؟ شاید قانع‌کننده‌ترین فرصت، ابتکار «پزشکی دقیق» باشد. ناامید شده از ناهمگونی ذاتی در بیشتر بیماری‌های رایج، تلاش فزاینده‌ای برای تعریف مجدد بیماری بر اساس مکانیسم‌های پاتوفیزیولوژیک وجود دارد که به نوبه خود می‌تواند مسیرهای جدیدی را برای درمان فراهم کند. اما شناسایی چنین مکانیسم هایی برای بیماری های پیچیده چند عاملی کار آسانی نخواهد بود. بیایید به این فکر کنیم که چگونه می‌توان یادگیری بدون نظارت را در بیماری‌های قلبی در این راستا به کار برد و شرایط ناهمگونی مانند میوکاردیت را در نظر گرفت. می توان با گروه بزرگی از افراد ظاهرا مشابه با نارسایی حاد سیستولیک قلب غیر قابل توضیح شروع کرد. سپس می توان بیوپسی میوکارد را روی آنها انجام داد و ترکیب سلولی هر نمونه را با تکنیکی مانند رنگ آمیزی ایمنی مشخص کرد. برای مثال، می‌توان تعداد لنفوسیت‌های T، نوتروفیل‌ها، ماکروفاژها، ائوزینوفیل‌ها و غیره را داشت. سپس می‌توان مشاهده کرد که آیا الگوهای تکرارشونده‌ای از ترکیب سلولی وجود دارد، که به نوبه خود، ممکن است مکانیسم‌ها و درمان‌هایی را برای کاوش راهنمایی کند. رویکرد مشابهی، اگرچه بر روی ژنومیک متمرکز شده بود، منجر به شناسایی یک زیرگروه ائوزینوفیلیک آسم ۷ شد که به طور منحصربه‌فردی به یک درمان جدید که سیتوکین IL-138 ترشح شده توسط ائوزینوفیل را هدف قرار می‌دهد، پاسخ می‌دهد. به تضاد با یادگیری نظارت شده توجه کنید – هیچ نتیجه پیش بینی شده ای وجود ندارد – ما فقط به شناسایی الگوها در داده ها علاقه مندیم. در واقع، درمان این مشکل به عنوان یک مشکل یادگیری تحت نظارت – مانند ایجاد مدلی از مرگ و میر در میوکاردیت و طبقه بندی بیماران بر اساس خطر – ممکن است چنین زیرگروه هایی را به طور کامل از دست بدهد و در نتیجه شانس شناسایی مکانیسم های بیماری جدید را از دست بدهد.

رفتن به:
مشکل یادگیری
اکنون اجازه دهید مشکل یادگیری را به طور کلی تعریف کنیم تا بفهمیم چرا الگوریتم های پیچیده یادگیری ماشینی چنین حضور محدودی در عمل بالینی واقعی داشته اند. من ابتدا بر یادگیری تحت نظارت تمرکز خواهم کرد و در مرحله بعد به یادگیری بدون نظارت خواهم پرداخت.

ما پیش‌بینی MI را به عنوان هدف خود در نظر می‌گیریم و برای سادگی، آن را به‌عنوان یک مشکل طبقه‌بندی در نظر می‌گیریم، با افرادی که یک یا چند MI داشته‌اند به عنوان یک کلاس و افراد (مطابق با سن و جنسیت) بدون MI به عنوان طبقه دوم (شکل 1A) ). بنابراین، وظیفه ما ایجاد یک مدل دقیق برای تمایز بین دو کلاس است.

اولین کار این است که برخی از پیش بینی ها یا ویژگی ها را ارائه دهید. برخی از ویژگی های آشکار عبارتند از فشار خون بالا، دیابت و سطح کلسترول LDL. اما چگونه به این موارد رسیدیم و چگونه می‌توانیم این استخر را بیشتر گسترش دهیم؟ یک راه ساده این است که پیش‌بینی‌کننده‌های کاندید را برای ارتباط با وضعیت حمله قلبی آزمایش کنید و فقط موارد مهم را حفظ کنید. اما این تعداد زیادی از ویژگی‌هایی را که ممکن است فقط در زیر مجموعه‌ای از بیماران حمله قلبی مفید باشند، از دست می‌دهد. بدتر از آن، ممکن است ویژگی هایی وجود داشته باشند که در ترکیب (دو، سه یا بیشتر) مفید باشند اما به تنهایی مفید نباشند. به عنوان یک راه حل، ممکن است وسوسه شویم که تسلیم شویم و همه ویژگی های ممکن را به کار ببریم، اما به طور غریزی، ما مشکوک هستیم که این ممکن است کمکی نکند یا حتی ممکن است اوضاع را بدتر کند (به دلایلی که بعداً مشخص می شود). “انتخاب ویژگی” حوزه یادگیری ماشینی است که بر این مشکل تمرکز دارد.

یک فایل خارجی که دارای یک تصویر، تصویر و غیره است.
نام شیء nihms729905f1.jpg است
شکل 1
مروری بر یادگیری ماشینی الف. نمایش ماتریسی مسئله یادگیری تحت نظارت و بدون نظارت. ما علاقه مند به توسعه مدلی برای پیش بینی انفارکتوس میوکارد (MI) هستیم. برای داده‌های آموزشی، ما بیمارانی داریم که هر کدام با یک نتیجه مشخص می‌شوند (نمونه‌های آموزشی مثبت یا منفی)، که با دایره در ستون سمت راست مشخص می‌شود، و همچنین با مقادیر ویژگی‌های پیش‌بینی، که با رنگ‌آمیزی مربع‌های آبی تا قرمز نشان داده می‌شود. ما به دنبال ساخت مدلی برای پیش‌بینی نتیجه با استفاده از ترکیبی از ویژگی‌ها هستیم. انواع مختلفی از توابع را می توان برای نگاشت ویژگی ها به نتیجه (B-D) استفاده کرد. الگوریتم‌های یادگیری ماشین برای یافتن مقادیر بهینه پارامترهای آزاد در مدل استفاده می‌شوند تا خطای آموزشی را که با تفاوت بین مقادیر پیش‌بینی‌شده از مدل ما و مقادیر واقعی قضاوت می‌شود، به حداقل برسانند. در مسئله یادگیری بدون نظارت، ما ستون نتیجه را نادیده می گیریم و بیماران را بر اساس شباهت در مقادیر ویژگی هایشان گروه بندی می کنیم. ب. درختان تصمیم ویژگی ها را برای نتیجه ترسیم می کنند. در هر گره یا نقطه شاخه، نمونه های آموزشی بر اساس مقدار یک ویژگی خاص تقسیم بندی می شوند. شاخه های اضافی با هدف تفکیک کامل نمونه های آموزشی مثبت و منفی معرفی می شوند. ج. شبکه‌های عصبی بر اساس نمایش‌های تبدیل‌شده ویژگی‌ها، نتیجه را پیش‌بینی می‌کنند. یک لایه پنهان از گره ها، مقدار گره های ورودی چندگانه (ویژگی های خام) را برای استخراج ویژگی های تبدیل شده یکپارچه می کند. سپس گره خروجی از مقادیر این ویژگی های تبدیل شده در یک مدل برای پیش بینی نتیجه استفاده می کند. D. الگوریتم k نزدیکترین همسایه کلاس را بر اساس مقادیر مشابه ترین نمونه های آموزشی اختصاص می دهد. فاصله بین بیماران بر اساس مقایسه بردارهای چند بعدی مقادیر ویژگی محاسبه می شود. در این مورد، جایی که فقط دو ویژگی وجود دارد، اگر کلاس نتیجه سه نزدیکترین همسایه را در نظر بگیریم، به نمونه داده ناشناخته یک کلاس “بدون MI” اختصاص داده می شود.

چالش بعدی ارائه تابعی است که مقادیر ویژگی ها را به پیش بینی بیماری مرتبط می کند (تخصیص کلاس). این چالش را می توان به دو مرحله تقسیم کرد. ابتدا باید تصمیم بگیریم که با چه نوع تابعی می خواهیم کار کنیم (شکل 1B–D). آمار کلاسیک ما را وادار می کند که مدل رگرسیون لجستیک را برای این کار در نظر بگیریم. با رگرسیون لجستیک، یک نوع مدل خطی تعمیم یافته، ویژگی ها به صورت افزودنی و خطی وارد مدل می شوند. اما این تنها یک کلاس ممکن از تابع است و اگر این فرض را راحت کنیم، انتخاب های بیشتری وجود دارد. به عنوان مثال می توان از درخت های تصمیم برای پیش بینی وضعیت حمله قلبی استفاده کرد که امکان انعطاف پذیری گزینه های “OR” را فراهم می کند (شکل 1B). یک بیمار حمله قلبی ممکن است دلایل متقابلاً انحصاری مانند کلسترول خونی خانوادگی یا اختلال ترومبوتیک شریانی یا HIV داشته باشد که مدل‌سازی آنها با رگرسیون لجستیک دشوار است. انواع دیگر مدل‌های یادگیری ماشین مانند شبکه‌های عصبی امکان تغییر ویژگی‌های ورودی را برای پیش‌بینی بهتر نتایج می‌دهند (شکل 1C). ماشین‌های بردار پشتیبان مدل‌های طبقه‌بندی را با استفاده از مجموعه‌ای از ویژگی‌های تبدیل‌شده در ابعاد بسیار بالاتر می‌سازند10.

روش‌های نمونه اولیه، مانند k-نزدیک‌ترین همسایه‌ها، ایده ساخت یک مدل را از بین می‌برند، و در عوض بر اساس نتیجه نمونه‌های موردی مشابه، پیش‌بینی می‌کنند (شکل 1D). بهترین حدس برای اینکه آیا بیمار ما دچار حمله قلبی خواهد شد یا خیر این است که ببینیم آیا بیماران مشابه تمایل به حمله قلبی دارند یا خیر.

همه این انتخاب‌های کلاس‌های تابعی دارای پارامترهای آزاد برای تناسب هستند. در رگرسیون لجستیک، ضرایب رگرسیون – یعنی وزن‌های اعمال شده برای ویژگی‌های فردی – باید تعیین شوند. در درخت‌های تصمیم، باید متغیرهایی را انتخاب کرد که در آن تقسیم انجام می‌شود و در مورد متغیرهای کمی، مقادیری که تقسیم بر اساس آنها انجام می‌شود. شبکه های عصبی دارای پارامترهای آزاد مربوط به تابع مورد استفاده برای تبدیل ویژگی و همچنین تابعی هستند که برای پیش بینی کلاس بر اساس این ویژگی های مشتق شده استفاده می شود. یافتن مقادیر بهینه برای این پارامترهای رایگان یک کار دلهره آور است. الگوریتم‌های یادگیری ماشینی روش‌های محاسباتی را برای پیمایش مؤثر در فضای پارامترهای آزاد برای رسیدن به یک مدل خوب نشان می‌دهند. به تمایز بین الگوریتم‌ها، که شامل دستورالعمل‌هایی است که توسط کامپیوتر برای تکمیل یک کار خاص دنبال می‌شود، و مدل‌هایی که از کاربرد الگوریتم‌ها در داده‌ها مشتق شده‌اند، توجه کنید.

چگونه این پارامترهای رایگان را متناسب کنیم؟ و مهمتر از آن، چگونه می توانیم بگوییم که داریم کار خوبی انجام می دهیم؟ یادگیری ماشین سعی می‌کند این وظایف را جدا کند و روی مجموعه‌ای از نمونه‌های آموزشی برای انجام کارهایی مانند انتخاب ویژگی و برازش پارامترها و مجموعه‌ای آزمایشی برای ارزیابی عملکرد مدل تمرکز کند. با استفاده از مثال‌های آموزشی، می‌توانیم مقادیر مختلفی را برای پارامترهای آزاد امتحان کنیم و ارزیابی کنیم که خروجی‌های پیش‌بینی‌شده ما چقدر شبیه به خروجی‌های شناخته شده است – این گاهی اوقات تخمین «خطای آموزش» نامیده می‌شود و یکی از «عملکرد ضرر» استفاده می‌کند که برای منعکس کردن طراحی شده است. چه نوع خطاهایی نسبت به سایرین قابل تحمل تر هستند ما مدلی می خواهیم که خطای آموزشی را به حداقل برساند و الگوریتم انتخابی ما با پارامترهای آزاد برای رسیدن به این هدف مطابقت داشته باشد.

یک مدل با عملکرد بالا برای موفقیت به چندین ویژگی نیاز دارد. اول از همه، شما به ویژگی های آموزنده نیاز دارید که در واقع نشان دهنده تفاوت کلاس ها با کلاس های دیگر باشد. برای کارهایی که می‌دانیم انسان‌ها می‌توانند به خوبی انجام دهند، می‌دانیم که داده‌های ورودی لازم را داریم. به عنوان مثال، اگر هدف تقریبی توانایی یک متخصص قلب در خواندن نوار قلب باشد، می‌توان مطمئن بود که خود ECG شامل تمام ویژگی‌هایی است که برای طبقه‌بندی صحیح لازم است. اما برای مشکلات طبقه بندی چالش برانگیزتر، مانند تشخیص موارد MI از گروه شاهد، درک محدود ما از پاتوژنز بیماری، جمع آوری تمام اطلاعات مورد نیاز برای طبقه بندی دقیق را بعید می سازد.

حتی اگر در حال جمع‌آوری ورودی‌های مورد نیاز هستیم، همچنان به برخی عملکردها برای ترکیب آنها برای رسیدن به وظیفه مورد نظر نیاز داریم. برای کارهای پیچیده یادگیری، ممکن است به انعطاف‌پذیری قابل‌توجهی در نحوه استفاده از ویژگی‌ها نیاز داشته باشیم، زیرا مدل‌های افزودنی ساده بعید است که به جدایی مؤثر بین موارد و نه کنترل‌ها دست یابند. اغلب در مورد اینکه دسته خاصی از عملکردها چقدر “بیانگر” صحبت می کنند، که معمولاً شامل تغییر یا ترکیب درجه بالاتری از ویژگی ها برای انجام وظایف یادگیری پیچیده است.

ما دو ویژگی وابسته به هم را توصیف کرده‌ایم – ویژگی‌های اطلاعاتی و عملکردهای بیانی – برای دستیابی به خطای آموزشی کم. اما به حداقل رساندن خطای آموزشی کافی نیست. در واقع، کاری که ما دوست داریم بتوانیم انجام دهیم این است که پیش‌بینی/طبقه‌بندی عالی برای افرادی انجام دهیم که قبلاً هرگز ندیده‌ایم. برای ارزیابی این توانایی تعمیم، باید برخی از داده‌ها را ذخیره کنیم که هرگز برای ارزیابی “خطای تست” خود به آنها نگاه نکرده‌ایم. چنین داده‌های آزمایشی نباید برای هیچ جنبه‌ای از فرآیند یادگیری ماشین، از جمله انتخاب ویژگی یا عادی‌سازی داده‌ها استفاده شده باشد. در حالت ایده‌آل، ما می‌خواهیم مطمئن باشیم که اگر مدلی با خطای آموزشی کم ساخته‌ایم، تضمینی خواهیم داشت که خطای تست پایینی نیز دارد. در غیر این صورت ممکن است به‌طور کاذب و شاید به‌طور خطرناکی تحت تأثیر توانایی پیش‌بینی خودمان قرار بگیریم.

مقدار قابل توجهی از تئوری برای یادگیری ماشین وجود دارد که مرزهایی را برای شباهت بین خطای آموزش و خطای تست ایجاد می کند. اگرچه ریاضیات مفصل است، پیام کاملاً ساده است: مدل‌هایی که بسیار پیچیده هستند (از جمله آنهایی که دارای تعداد زیادی ویژگی هستند) ممکن است در به حداقل رساندن خطای آموزشی بهتر عمل کنند، اما معمولاً برای تعداد معینی از نمونه‌های آموزشی تعمیم ضعیفی دارند. تمایل به بیش از حد برازش با داده ها دارند. نتیجه این امر این است که اگر به پیچیدگی مدل بالایی نیاز دارید تا بتوانید پیش‌بینی دقیقی در مجموعه آموزشی خود داشته باشید، به نمونه‌های آموزشی بسیار بسیار بیشتری نیاز خواهید داشت تا اطمینان حاصل کنید که به خوبی به افراد نادیده قبلی تعمیم می‌دهید.

بنابراین یک معاوضه بین پیچیدگی مدل و قابلیت تعمیم به مجموعه داده های جدید وجود دارد. یک راه حل این است که به سادگی ویژگی های کمتری داشته باشید و مدلی کمتر بیانگر داشته باشید. اما در این صورت ممکن است با یک مدل بی کیفیت و با دقت ضعیف روی مجموعه آموزشی به خودمان آسیب بزنیم. به عنوان یک جایگزین، متخصصان یادگیری ماشین به استفاده از مدل‌های انعطاف‌پذیر ادامه می‌دهند، اما خود را به دلیل پیچیدگی بیش از حد مانند داشتن پارامترهای آزاد بیش از حد یا اجازه دادن به طیف وسیعی از مقادیر برای این پارامترها جریمه می‌کنند – فرآیندی که به نام “قانونی‌سازی” شناخته می‌شود. این ممکن است به این معنی باشد که دقت در مجموعه آموزشی ممکن است کمی آسیب ببیند، اما مزیت آن عملکرد بهتر در داده‌های تست خواهد بود.

با توجه به منوی متنوع الگوریتم‌های یادگیری ماشین و مدل‌های داده، آیا می‌توانیم راهنمایی‌هایی پیدا کنیم که در یک موقعیت یا موقعیت دیگر بهترین کار را انجام دهند؟ به عنوان یک قاعده کلی، بهترین راه حل شامل برازش مدلی است که با مدل اصلی که داده ها را تولید می کند مطابقت داشته باشد. متأسفانه، ما معمولاً نمی‌دانیم آن مدل اساسی چیست. یک راه حل تجربی این است که تعدادی الگوریتم را امتحان کنید و مطمئن شوید که داده های آزمایشی را کنار بگذارید تا عملکرد را ارزیابی کنید. اما این می تواند زمان بر باشد، به خصوص اگر برخی از رویکردها بعید است که از قبل به خوبی کار کنند. بسیاری از شاغلین یادگیری ماشینی مجموعه ابزاری از رویکردهای استخراج ویژگی و پیش پردازش و همچنین زیرمجموعه ای از الگوریتم های یادگیری تحت نظارت و بدون نظارت دارند که با آن احساس راحتی می کنند و به آن بازمی گردند. وقتی داده‌های آموزشی محدود است، اینها اغلب شامل مدل‌های ساده‌تر با منظم‌سازی می‌شوند، مانند اشکال جریمه‌شده رگرسیون خطی و لجستیک. اینها ممکن است به خطای آموزشی کم مانند مدل های پیچیده منجر نشوند (از اصطلاح تعصب بالا استفاده می شود) اما تمایل دارند به خوبی تعمیم دهند (واریانس کم). وقتی داده‌های آموزشی فراوان هستند و مدل اساسی احتمالاً از عدم افزودن و تعاملات پیچیده بین ویژگی‌ها ناشی می‌شود، رویکردهای نمونه مانند k-نزدیک‌ترین همسایه یا الگوریتم‌های درخت تصمیم (مانند تقویت درخت گرادیان تصادفی 12،13 یا جنگل تصادفی 14، که در زیر مورد بحث قرار می‌گیرد) می تواند به خوبی کار کند. برخی از الگوریتم‌ها مانند ماشین‌های بردار پشتیبان غیرخطی15 می‌توانند در موقعیت‌های مختلف بسیار قوی باشند، حتی در جایی که تعداد ویژگی‌های پیش‌بینی در مقایسه با تعداد نمونه‌های آموزشی بسیار زیاد است، وضعیتی که اغلب برازش بیش از حد اتفاق می‌افتد. در نهایت، با پذیرش محدودیت‌های هر کلاس از الگوریتم‌ها، برخی از متخصصان از فرآیندی به نام ترکیب کردن استفاده می‌کنند که خروجی‌های چندین الگوریتم مختلف را ادغام می‌کند (همچنین در زیر مورد بحث قرار گرفته است.

الگوریتم های مختلف نارسایی قلبی (همچنین در زیر مورد بحث قرار گرفته است).

در نهایت، برای چالش‌برانگیز کردن مشکلات پیش‌بینی، به این معنی است که باید تلاش قابل‌توجهی برای جمع‌آوری هرچه بیشتر نمونه‌های آموزشی انجام شود، که همگی با مجموعه‌ای از ویژگی‌های آموزنده مشخص می‌شوند. اگر مقدار داده‌های آموزشی مورد استفاده در مسابقات تحلیل تصویر را بررسی کنیم – که می‌تواند شامل بیش از 100000 تصویر باشد – می‌بینیم که مجموعه‌های داده‌های زیست‌پزشکی معمولی دو تا سه مرتبه کوتاه هستند، علیرغم اینکه احتمالاً یک کار یادگیری اساساً چالش‌برانگیزتر را نشان می‌دهند. . و این کمبود در مقدار داده‌های آموزشی حتی به این واقعیت نمی‌پردازد که ما معمولاً نمی‌دانیم چه ویژگی‌هایی برای درک پیچیدگی فرآیند بیماری لازم است. در درجه اول این چالش است – جمع آوری هزاران یا نه ده ها هزار مثال آموزشی که همگی با مجموعه ای غنی از ویژگی های آموزنده (به اندازه کافی) مشخص می شوند، که سهم یادگیری ماشین را به وظایف پیچیده طبقه بندی و پیش بینی در پزشکی بالینی محدود کرده است.

نمونه های گویا نارسایی قلبی از یادگیری ماشینی
برای نشان دادن برخی از نکاتی که در اینجا به آنها پرداخته شده است، بر چهار مثال از یادگیری ماشین در پزشکی تمرکز خواهم کرد که طیف وسیعی از رویکردهای نظارت شده و بدون نظارت را پوشش می دهد. دو مورد از این موارد بر بیماری های قلبی عروقی و دو مورد بر روی سرطان تمرکز دارند.

الگوریتم جنگل‌های تصادفی، که تقریباً 15 سال پیش توسعه یافته است، به عنوان یکی از بهترین الگوریتم‌های «خارج از قفسه» برای طبقه‌بندی موجود معرفی می‌شود. همانطور که از نام آنها پیداست، جنگل های تصادفی از درختان ساخته می شوند – به طور خاص درختان تصمیم. اجازه دهید فرض کنیم که هدف طبقه بندی افراد به دو گروه است – مانند پاسخ دهندگان استاتین یا غیر پاسخ دهندگان. ما با گروهی از مثال‌های آموزشی شامل پاسخ‌دهنده‌های شناخته شده استاتین و پاسخ‌دهنده‌های غیرپاسخ‌دهندگان، که هر کدام با مجموعه‌ای از ویژگی‌ها، مانند سن، جنس، و وضعیت سیگار کشیدن و دیابت مشخص می‌شوند، شروع می‌کنیم. اغلب ممکن است صدها یا هزاران ویژگی در دسترس باشد. ما یک سری (“گروه”) از درخت های تصمیم می سازیم که هر کدام به دنبال استفاده از این ویژگی های پیش بینی برای تمایز بین دو گروه ما هستند. در هر گره در هر درخت، یک ویژگی انتخاب می شود که به بهترین نحو این تقسیم را به دست می آورد. از آنجایی که بعید است که یک متغیر منفرد کافی باشد، گره‌های بعدی برای دستیابی به جدایی کامل‌تر مورد نیاز هستند. یک تفاوت قابل توجه بین هر درخت این است که هر درخت فقط به زیرمجموعه‌ای از نمونه‌های آموزشی دسترسی دارد – مفهومی که به نام “کیسه‌بندی” شناخته می‌شود. علاوه بر این، در هر گره، تنها زیر مجموعه ای از ویژگی ها در نظر گرفته می شود. تصادفی به دست آمده به هر درخت اجازه می دهد تا رای مستقلی در مورد طبقه بندی نهایی بدهد و به عنوان وسیله ای برای منظم سازی عمل می کند. حتی اگر بعید است که هر درخت به تنهایی دقیق باشد، رأی اکثریت نهایی در میان صدها درخت بسیار دقیق است.

جنگل های تصادفی موفقیت باورنکردنی در رشته های مختلف یادگیری داشته اند و در مسابقات یادگیری ماشین عملکرد خوبی داشته اند. Ishwaran، Lauer و همکاران، جنگل‌های تصادفی را برای تجزیه و تحلیل داده‌های بقا تطبیق دادند – و به درستی رویکرد آنها را “جنگل‌های بقای تصادفی (RSF)” نامیدند. آنها از یک متغیر باینری برای مرگ استفاده کردند و روش خود را برای مشکلات مختلفی از جمله پیش‌بینی بقا در نارسایی سیستولیک قلب و در زنان یائسه به کار بردند. در مثال دوم، آنها 33144 زن را در کارآزمایی‌های ابتکاری سلامت زنان بررسی کردند و متغیرهای بالینی و جمعیت‌شناختی مرسوم و همچنین 477 بیومارکر ECG را در نظر گرفتند. آنها از RSF برای ساخت یک مدل بقا استفاده کردند – و 20 متغیر پیش بینی کننده مرگ و میر طولانی مدت، از جمله 14 نشانگر زیستی ECG را شناسایی کردند. مدل‌هایی که با استفاده از این زیرمجموعه کاهش‌یافته از ویژگی‌ها ساخته شده‌اند، عملکرد بهبود یافته‌ای را هم در داده‌های آموزشی و هم در مجموعه‌ای از آزمون‌ها نشان می‌دهند. جالب توجه است، هنگامی که زیرمجموعه 20 متغیر انتخاب شد، یک مدل افزودنی ساده (نسخه منظم مدل خطرات متناسب کاکس) به همان اندازه RSF در طبقه‌بندی بیماران عمل کرد، که نشان می‌دهد یکی از مزایای اصلی RSF در انتخاب ویژگی بود. بسیاری از این متغیرها در واقع پیش از این هرگز در پیش بینی مرگ و میر دخیل نبودند.

.

چرا این رویکرد تکرار نشده و در مدل های ریسک رایج گنجانده نشده است؟ دلیل اصلی ممکن است این باشد که عملکرد RSF در واقع پایین‌تر از عملکردی است که معمولاً در امتیاز ریسک فرامینگهام مشاهده می‌شود، علی‌رغم این واقعیت که دومی متغیرهای کمتر و مدل ساده‌تری را شامل می‌شود. چگونه می تواند باشد؟ اگرچه حجم نمونه بزرگ در مقایسه با بسیاری از مطالعات اپیدمیولوژیک رشک‌برانگیز بود، اما قیمت بالایی داشت. بسیاری از متغیرها توسط خود گزارش شده بودند و بیشتر نشانگرهای زیستی خون وجود نداشتند، احتمالاً به این دلیل که هزینه انجام فنوتیپ دقیق در چنین گروه بزرگی گران است. به طور قابل توجهی معیارهای کلسترول، از جمله کلسترول تام و کلسترول LDL وجود نداشت. نویسندگان همچنین قادر به یافتن یک مجموعه داده خارجی برای تکرار نشدند، زیرا تعداد کمی از گروه‌ها متغیرهای کمی ECG را اندازه‌گیری کردند. بنابراین علیرغم ارائه یک کاربرد جدید از یک الگوریتم عالی، مزایای مطالعه با نداشتن مجموعه داده‌های آموزشی و آزمایشی با مجموعه‌ای جامع از ویژگی‌های اطلاعاتی، از جمله تمام مواردی که قبلاً برای این کار پیش‌بینی مهم بودند، محدود شد.

رفتن به:
C-Path: یک آسیب شناس خودکار و اهمیت استخراج ویژگی
همانطور که در بالا مشخص شد، انتخاب ویژگی برای یادگیری ماشینی مرکزی است. بدون پیش‌بینی‌کننده‌های اطلاعاتی کافی، با وجود الگوریتم‌های پیچیده، بعید به نظر می‌رسد که پیشرفت کنیم. یک مثال اخیر از زمینه آسیب شناسی سرطان پستان به ویژه نشان می دهد که چه زمانی رویکردهای یادگیری ماشین ممکن است موفق شوند و چه زمانی بعید است که به شیوه های بالینی مرسوم فعلی مزیت اضافه کنند.

کولر و همکارانش در دانشگاه استنفورد بر روی بهبود شناسایی موارد سرطان پستان پرخطر با استفاده از نمونه‌های پاتولوژیک تمرکز کردند – ابزاری به نام C-Path21 (شکل 2) توسعه دادند. بسیاری از خواص بافت شناسی نامطلوب تومورهایی که امروزه استفاده می شوند مانند توبول ها و هسته های آتیپیک ده ها سال پیش شناسایی شده بودند. با این حال، به جای ترکیب ساده اینها با استفاده از الگوریتم‌های جدید، C-Path یک گام بیشتر به عقب برداشت و بر شناسایی ویژگی‌های جدید با استفاده از پردازش خودکار تصویر متمرکز شد. C-Path ابتدا طبقه‌بندی‌کننده‌ای ایجاد کرد که می‌توانست بین بخش‌های اپیتلیال و استرومایی تومور تمایز قائل شود (شکل 2A-B). سپس مجموعه‌ای از ویژگی‌های کمی غنی از 6642 پیش‌بینی‌کننده را از این مناطق به دست آورد که به طور جداگانه و با هم مورد بررسی قرار گرفتند، و «اشیاء» اپیتلیال و استرومایی و روابط آنها، مانند خواص هسته‌ها (اندازه، مکان، فاصله) و روابط بین هسته‌ها و سیتوپلاسم در اپیتلیوم را برجسته کرد. و استروما (شکل 2C). سپس از این ویژگی‌ها برای ساخت مدلی برای پیش‌بینی بقا استفاده شد، که عملکرد عالی را در دو مجموعه داده آزمایشی مستقل، برتر از آنچه توسط آسیب‌شناسان جامعه به دست آمده بود، نشان داد. علاوه بر این، نمرات C-Path به طور قابل توجهی با بقای 5 ساله بالاتر و فراتر از همه عوامل بالینی و مولکولی تعیین شده مرتبط بود (شکل 2D).

شکل 2
مروری بر خط لوله پردازش تصویر C-Path و روش ساخت مدل پیش آگهی. الف. پردازش تصویر اولیه و ساخت ویژگی. ب. ساخت طبقه بندی کننده اپیتلیال-استرومایی. طبقه‌بندی‌کننده مجموعه‌ای از تصاویر میکروسکوپی سرطان سینه را به عنوان ورودی می‌گیرد که تحت پردازش تصویر اولیه و ساخت ویژگی قرار گرفته‌اند و دارای زیرمجموعه‌ای از سوپرپیکسل‌هایی هستند که توسط آسیب‌شناس به‌عنوان اپیتلیوم (قرمز) یا استروما (سبز) برچسب‌گذاری شده‌اند. برچسب های سوپرپیکسل و اندازه گیری ویژگی ها به عنوان ورودی به یک الگوریتم یادگیری نظارت شده برای ساخت یک طبقه بندی کننده اپیتلیال-استرومایی استفاده می شود. سپس طبقه‌بندی‌کننده بر روی تصاویر جدید اعمال می‌شود تا سوپرپیکسل‌ها را به عنوان اپیتلیوم یا استروما طبقه‌بندی کند. ج. ساختن ویژگی های زمینه ای/رابطه ای سطح بالاتر. پس از استفاده از طبقه‌بندی‌کننده استرومای اپیتلیال، تمام اجسام تصویر بر اساس ناحیه بافتی و ویژگی‌های مورفولوژیکی اولیه سلولی زیر طبقه‌بندی و رنگ‌بندی می‌شوند. (پانل سمت چپ) پس از طبقه بندی هر شیء تصویر، یک مجموعه ویژگی غنی ساخته می شود. د. یادگیری یک مدل مبتنی بر تصویر برای پیش بینی بقا. تصاویر پردازش شده از بیماران زنده در 5 سال پس از جراحی و از بیماران فوت شده در 5 سال پس از جراحی برای ساخت یک مدل پیش آگهی مبتنی بر تصویر استفاده شد. پس از ساخت این مدل، آن را به مجموعه آزمایشی از تصاویر سرطان سینه (که در ساخت مدل استفاده نمی‌شود) اعمال کردند تا بیماران را به عنوان خطر مرگ بالا یا پایین تا 5 سال طبقه‌بندی کنند. از Beck et al, Sci Transl Med. 2011؛ ​​3:108ra113. تجدید چاپ با اجازه از AAAS.

NLM به عنوان یک کتابخانه، دسترسی به ادبیات علمی را فراهم می کند. گنجاندن در پایگاه داده NLM به معنای تأیید یا موافقت با محتوای NLM یا مؤسسه ملی بهداشت نیست. درباره سلب مسئولیت ما بیشتر بدانید.
لوگوی nihpa
جریان. دست نوشته نویسنده؛ موجود در PMC 2018 1 مارس. منتشر شده در فرم ویرایش نهایی به عنوان: گردش. 17 نوامبر 2015; 132 (20): 1920-1930. doi: 10.1161/CIRCULATIONAHA.115.001593
PMCID: PMC5831252NIHMSID: NIHMS729905PMID: 26572668
یادگیری ماشینی در پزشکی
راهول سی دیو، دکترا، دکترا
اطلاعات نویسنده حق چاپ و اطلاعات مجوز سلب مسئولیت
نسخه ویرایش شده نهایی ناشر این مقاله در Circulation موجود است
داده های مرتبط
مواد تکمیلی
رفتن به:
خلاصه
به دلیل پیشرفت در قدرت پردازش، حافظه، ذخیره‌سازی و حجم بی‌سابقه‌ای از داده‌ها، از رایانه‌ها خواسته می‌شود تا با وظایف یادگیری پیچیده‌تر و اغلب با موفقیت خیره‌کننده مقابله کنند. رایانه‌ها اکنون بر نوع محبوب پوکر تسلط یافته‌اند، قوانین فیزیک را از داده‌های تجربی آموخته‌اند، و در بازی‌های ویدیویی متخصص شده‌اند – کارهایی که تا چندی پیش غیرممکن تلقی می‌شدند. به موازات آن، تعداد شرکت‌هایی که بر روی اعمال تجزیه و تحلیل داده‌های پیچیده در صنایع مختلف متمرکز شده‌اند، افزایش یافته است، و بنابراین جای تعجب نیست که برخی شرکت‌های تحلیلی توجه خود را به مشکلات در مراقبت‌های بهداشتی معطوف کنند. هدف از این بررسی این است که کشف کند چه مشکلاتی در پزشکی ممکن است از چنین رویکردهای یادگیری سود ببرند و از مثال‌هایی از ادبیات برای معرفی مفاهیم اساسی در یادگیری ماشین استفاده کند. توجه به این نکته مهم است که مجموعه‌های داده‌های پزشکی به اندازه کافی بزرگ و الگوریتم‌های یادگیری کافی برای چندین دهه در دسترس بوده‌اند – و با این حال، اگرچه هزاران مقاله وجود دارد که الگوریتم‌های یادگیری ماشین را برای داده‌های پزشکی به کار می‌برند، تعداد بسیار کمی به طور معناداری در مراقبت بالینی کمک کرده‌اند. این فقدان تأثیر در تضاد کامل با ارتباط عظیم یادگیری ماشینی با بسیاری از صنایع دیگر است. بنابراین بخشی از تلاش من این خواهد بود که شناسایی کنم چه موانعی ممکن است برای تغییر عملکرد پزشکی از طریق رویکردهای یادگیری آماری وجود داشته باشد و در مورد چگونگی غلبه بر آنها بحث کنم.

کلمات کلیدی: کامپیوتر، آمار، عامل خطر، پیش آگهی، یادگیری ماشین
یادگیری ماشینی یک رشته علمی است که بر نحوه یادگیری کامپیوترها از داده ها تمرکز دارد. این در تقاطع آمار، که به دنبال یادگیری روابط از داده ها، و علوم کامپیوتر، با تاکید بر الگوریتم های محاسباتی کارآمد است، به وجود می آید. این ازدواج بین ریاضیات و علوم کامپیوتر ناشی از چالش‌های محاسباتی منحصربه‌فرد ساخت مدل‌های آماری از مجموعه داده‌های عظیم است که می‌تواند شامل میلیاردها یا تریلیون‌ها نقطه داده باشد. انواع یادگیری مورد استفاده توسط رایانه ها به راحتی به دسته هایی مانند یادگیری تحت نظارت و یادگیری بدون نظارت تقسیم می شوند. با این حال، به‌علاوه، متوجه شدم که بخش دیگری می‌تواند هنگام در نظر گرفتن اینکه چگونه یادگیری ماشینی ممکن است در عمل پزشکی مؤثر باشد مفید باشد: تمایز یادگیری آن دسته از وظایفی که پزشکان از قبل می‌توانند به خوبی انجام دهند و یادگیری مواردی که پزشکان تنها موفقیت محدودی داشته‌اند. با در نظر گرفتن این دسته‌بندی‌های گسترده، می‌توانیم از برخی حوزه‌های پزشکی که از رویکردهای یادگیری ماشین بهره‌مند شده‌اند یا ممکن است بهره‌مند شوند، بازدید کنیم.

رفتن به:
یادگیری تحت نظارت
یادگیری تحت نظارت با هدف پیش بینی یک خروجی یا هدف شناخته شده شروع می شود. در مسابقات یادگیری ماشینی، که در آن شرکت‌کنندگان فردی بر اساس عملکردشان در مجموعه‌های داده رایج مورد قضاوت قرار می‌گیرند، مشکلات یادگیری تحت نظارت مکرر شامل تشخیص دست خط (مانند تشخیص ارقام دست‌نویس)، طبقه‌بندی تصاویر اشیاء (مثلاً این یک گربه است یا یک سگ؟) و طبقه بندی سند (به عنوان مثال آیا این یک کارآزمایی بالینی در مورد نارسایی قلبی است یا یک گزارش مالی؟). قابل ذکر است، همه اینها وظایفی هستند که یک فرد آموزش دیده می تواند به خوبی انجام دهد و بنابراین رایانه اغلب سعی می کند عملکرد انسان را تقریب کند.

یادگیری نظارت شده بر طبقه بندی متمرکز است که شامل انتخاب از میان زیر گروه ها برای توصیف بهترین نمونه داده جدید و پیش بینی است که شامل تخمین پارامتر ناشناخته (مانند دمای فردا بعد از ظهر در سانفرانسیسکو) است.

چند نمونه از یادگیری تحت نظارت در پزشکی می تواند باشد؟ شاید رایج‌ترین مثالی که توسط متخصص قلب دیده می‌شود، تفسیر خودکار EKG باشد، که در آن تشخیص الگو برای انتخاب از مجموعه محدودی از تشخیص‌ها (یعنی یک کار طبقه‌بندی) انجام می‌شود. در رادیولوژی، تشخیص خودکار ندول ریه از اشعه ایکس قفسه سینه نیز نشان دهنده یادگیری تحت نظارت است. در هر دو این موارد، رایانه در حال تقریب کاری است که یک پزشک آموزش دیده قبلاً قادر به انجام آن با دقت بالا است.

یادگیری تحت نظارت اغلب برای تخمین ریسک استفاده می شود. امتیاز خطر فرامینگهام 3 برای بیماری عروق کرونر قلب (CHD) ممکن است در واقع رایج‌ترین نمونه یادگیری تحت نظارت در پزشکی باشد. چنین مدل‌های خطری در سراسر پزشکی وجود دارند و شامل درمان ضد ترومبوتیک در فیبریلاسیون دهلیزی و کاشت دفیبریلاتورهای کاشتنی خودکار در کاردیومیوپاتی هیپرتروفیک می‌شوند. در مدل‌سازی ریسک، کامپیوتر چیزی بیش از تقریب مهارت‌های پزشک انجام می‌دهد، اما روابط جدیدی پیدا می‌کند که به آسانی برای انسان‌ها آشکار نیست.

رفتن به:
یادگیری بدون نظارت
در مقابل، در یادگیری بدون نظارت، هیچ خروجی برای پیش بینی وجود ندارد. در عوض، ما در تلاش برای یافتن الگوها یا گروه‌بندی‌های طبیعی در داده‌ها هستیم. این کار ذاتاً برای قضاوت چالش‌برانگیزتر است و اغلب ارزش چنین گروه‌هایی که از طریق یادگیری بدون نظارت آموخته می‌شوند، با عملکرد آن در وظایف یادگیری تحت نظارت بعدی ارزیابی می‌شود (یعنی آیا این الگوهای جدید به نحوی مفید هستند؟).

چه زمانی می توان از چنین رویکردهایی در پزشکی استفاده کرد؟ شاید قانع‌کننده‌ترین فرصت، ابتکار «پزشکی دقیق» باشد. ناامید شده از ناهمگونی ذاتی در بیشتر بیماری‌های رایج، تلاش فزاینده‌ای برای تعریف مجدد بیماری بر اساس مکانیسم‌های پاتوفیزیولوژیک وجود دارد که به نوبه خود می‌تواند مسیرهای جدیدی را برای درمان فراهم کند. اما شناسایی چنین مکانیسم هایی برای بیماری های پیچیده چند عاملی کار آسانی نخواهد بود. بیایید به این فکر کنیم که چگونه می‌توان یادگیری بدون نظارت را در بیماری‌های قلبی در این راستا به کار برد و شرایط ناهمگونی مانند میوکاردیت را در نظر گرفت. می توان با گروه بزرگی از افراد ظاهرا مشابه با نارسایی حاد سیستولیک قلب غیر قابل توضیح شروع کرد. سپس می توان بیوپسی میوکارد را روی آنها انجام داد و ترکیب سلولی هر نمونه را با تکنیکی مانند رنگ آمیزی ایمنی مشخص کرد. برای مثال، می‌توان تعداد لنفوسیت‌های T، نوتروفیل‌ها، ماکروفاژها، ائوزینوفیل‌ها و غیره را داشت. سپس می‌توان مشاهده کرد که آیا الگوهای تکرارشونده‌ای از ترکیب سلولی وجود دارد، که به نوبه خود، ممکن است مکانیسم‌ها و درمان‌هایی را برای کاوش راهنمایی کند. رویکرد مشابهی، اگرچه بر روی ژنومیک متمرکز شده بود، منجر به شناسایی یک زیرگروه ائوزینوفیلیک آسم ۷ شد که به طور منحصربه‌فردی به یک درمان جدید که سیتوکین IL-138 ترشح شده توسط ائوزینوفیل را هدف قرار می‌دهد، پاسخ می‌دهد. به تضاد با یادگیری نظارت شده توجه کنید – هیچ نتیجه پیش بینی شده ای وجود ندارد – ما فقط به شناسایی الگوها در داده ها علاقه مندیم. در واقع، درمان این مشکل به عنوان یک مشکل یادگیری تحت نظارت – مانند ایجاد مدلی از مرگ و میر در میوکاردیت و طبقه بندی بیماران بر اساس خطر – ممکن است چنین زیرگروه هایی را به طور کامل از دست بدهد و در نتیجه شانس شناسایی مکانیسم های بیماری جدید را از دست بدهد.

رفتن به:
مشکل یادگیری
اکنون اجازه دهید مشکل یادگیری را به طور کلی تعریف کنیم تا بفهمیم چرا الگوریتم های پیچیده یادگیری ماشینی چنین حضور محدودی در عمل بالینی واقعی داشته اند. من ابتدا بر یادگیری تحت نظارت تمرکز خواهم کرد و در مرحله بعد به یادگیری بدون نظارت خواهم پرداخت.

ما پیش‌بینی MI را به عنوان هدف خود در نظر می‌گیریم و برای سادگی، آن را به‌عنوان یک مشکل طبقه‌بندی در نظر می‌گیریم، با افرادی که یک یا چند MI داشته‌اند به عنوان یک کلاس و افراد (مطابق با سن و جنسیت) بدون MI به عنوان طبقه دوم (شکل 1A) ). بنابراین، وظیفه ما ایجاد یک مدل دقیق برای تمایز بین دو کلاس است.

اولین کار این است که برخی از پیش بینی ها یا ویژگی ها را ارائه دهید. برخی از ویژگی های آشکار عبارتند از فشار خون بالا، دیابت و سطح کلسترول LDL. اما چگونه به این موارد رسیدیم و چگونه می‌توانیم این استخر را بیشتر گسترش دهیم؟ یک راه ساده این است که پیش‌بینی‌کننده‌های کاندید را برای ارتباط با وضعیت حمله قلبی آزمایش کنید و فقط موارد مهم را حفظ کنید. اما این تعداد زیادی از ویژگی‌هایی را که ممکن است فقط در زیر مجموعه‌ای از بیماران حمله قلبی مفید باشند، از دست می‌دهد. بدتر از آن، ممکن است ویژگی هایی وجود داشته باشند که در ترکیب (دو، سه یا بیشتر) مفید باشند اما به تنهایی مفید نباشند. به عنوان یک راه حل، ممکن است وسوسه شویم که تسلیم شویم و همه ویژگی های ممکن را به کار ببریم، اما به طور غریزی، ما مشکوک هستیم که این ممکن است کمکی نکند یا حتی ممکن است اوضاع را بدتر کند (به دلایلی که بعداً مشخص می شود). “انتخاب ویژگی” حوزه یادگیری ماشینی است که بر این مشکل تمرکز دارد.

یک فایل خارجی که دارای یک تصویر، تصویر و غیره است.
نام شیء nihms729905f1.jpg است
شکل 1
مروری بر یادگیری ماشینی الف. نمایش ماتریسی مسئله یادگیری تحت نظارت و بدون نظارت. ما علاقه مند به توسعه مدلی برای پیش بینی انفارکتوس میوکارد (MI) هستیم. برای داده‌های آموزشی، ما بیمارانی داریم که هر کدام با یک نتیجه مشخص می‌شوند (نمونه‌های آموزشی مثبت یا منفی)، که با دایره در ستون سمت راست مشخص می‌شود، و همچنین با مقادیر ویژگی‌های پیش‌بینی، که با رنگ‌آمیزی مربع‌های آبی تا قرمز نشان داده می‌شود. ما به دنبال ساخت مدلی برای پیش‌بینی نتیجه با استفاده از ترکیبی از ویژگی‌ها هستیم. انواع مختلفی از توابع را می توان برای نگاشت ویژگی ها به نتیجه (B-D) استفاده کرد. الگوریتم‌های یادگیری ماشین برای یافتن مقادیر بهینه پارامترهای آزاد در مدل استفاده می‌شوند تا خطای آموزشی را که با تفاوت بین مقادیر پیش‌بینی‌شده از مدل ما و مقادیر واقعی قضاوت می‌شود، به حداقل برسانند. در مسئله یادگیری بدون نظارت، ما ستون نتیجه را نادیده می گیریم و بیماران را بر اساس شباهت در مقادیر ویژگی هایشان گروه بندی می کنیم. ب. درختان تصمیم ویژگی ها را برای نتیجه ترسیم می کنند. در هر گره یا نقطه شاخه، نمونه های آموزشی بر اساس مقدار یک ویژگی خاص تقسیم بندی می شوند. شاخه های اضافی با هدف تفکیک کامل نمونه های آموزشی مثبت و منفی معرفی می شوند. ج. شبکه‌های عصبی بر اساس نمایش‌های تبدیل‌شده ویژگی‌ها، نتیجه را پیش‌بینی می‌کنند. یک لایه پنهان از گره ها، مقدار گره های ورودی چندگانه (ویژگی های خام) را برای استخراج ویژگی های تبدیل شده یکپارچه می کند. سپس گره خروجی از مقادیر این ویژگی های تبدیل شده در یک مدل برای پیش بینی نتیجه استفاده می کند. D. الگوریتم k نزدیکترین همسایه کلاس را بر اساس مقادیر مشابه ترین نمونه های آموزشی اختصاص می دهد. فاصله بین بیماران بر اساس مقایسه بردارهای چند بعدی مقادیر ویژگی محاسبه می شود. در این مورد، جایی که فقط دو ویژگی وجود دارد، اگر کلاس نتیجه سه نزدیکترین همسایه را در نظر بگیریم، به نمونه داده ناشناخته یک کلاس “بدون MI” اختصاص داده می شود.

چالش بعدی ارائه تابعی است که مقادیر ویژگی ها را به پیش بینی بیماری مرتبط می کند (تخصیص کلاس). این چالش را می توان به دو مرحله تقسیم کرد. ابتدا باید تصمیم بگیریم که با چه نوع تابعی می خواهیم کار کنیم (شکل 1B–D). آمار کلاسیک ما را وادار می کند که مدل رگرسیون لجستیک را برای این کار در نظر بگیریم. با رگرسیون لجستیک، یک نوع مدل خطی تعمیم یافته، ویژگی ها به صورت افزودنی و خطی وارد مدل می شوند. اما این تنها یک کلاس ممکن از تابع است و اگر این فرض را راحت کنیم، انتخاب های بیشتری وجود دارد. به عنوان مثال می توان از درخت های تصمیم برای پیش بینی وضعیت حمله قلبی استفاده کرد که امکان انعطاف پذیری گزینه های “OR” را فراهم می کند (شکل 1B). یک بیمار حمله قلبی ممکن است دلایل متقابلاً انحصاری مانند کلسترول خونی خانوادگی یا اختلال ترومبوتیک شریانی یا HIV داشته باشد که مدل‌سازی آنها با رگرسیون لجستیک دشوار است. انواع دیگر مدل‌های یادگیری ماشین مانند شبکه‌های عصبی امکان تغییر ویژگی‌های ورودی را برای پیش‌بینی بهتر نتایج می‌دهند (شکل 1C). ماشین‌های بردار پشتیبان مدل‌های طبقه‌بندی را با استفاده از مجموعه‌ای از ویژگی‌های تبدیل‌شده در ابعاد بسیار بالاتر می‌سازند10.

روش‌های نمونه اولیه، مانند k-نزدیک‌ترین همسایه‌ها، ایده ساخت یک مدل را از بین می‌برند، و در عوض بر اساس نتیجه نمونه‌های موردی مشابه، پیش‌بینی می‌کنند (شکل 1D). بهترین حدس برای اینکه آیا بیمار ما دچار حمله قلبی خواهد شد یا خیر این است که ببینیم آیا بیماران مشابه تمایل به حمله قلبی دارند یا خیر.

همه این انتخاب‌های کلاس‌های تابعی دارای پارامترهای آزاد برای تناسب هستند. در رگرسیون لجستیک، ضرایب رگرسیون – یعنی وزن‌های اعمال شده برای ویژگی‌های فردی – باید تعیین شوند. در درخت‌های تصمیم، باید متغیرهایی را انتخاب کرد که در آن تقسیم انجام می‌شود و در مورد متغیرهای کمی، مقادیری که تقسیم بر اساس آنها انجام می‌شود. شبکه های عصبی دارای پارامترهای آزاد مربوط به تابع مورد استفاده برای تبدیل ویژگی و همچنین تابعی هستند که برای پیش بینی کلاس بر اساس این ویژگی های مشتق شده استفاده می شود. یافتن مقادیر بهینه برای این پارامترهای رایگان یک کار دلهره آور است. الگوریتم‌های یادگیری ماشینی روش‌های محاسباتی را برای پیمایش مؤثر در فضای پارامترهای آزاد برای رسیدن به یک مدل خوب نشان می‌دهند. به تمایز بین الگوریتم‌ها، که شامل دستورالعمل‌هایی است که توسط کامپیوتر برای تکمیل یک کار خاص دنبال می‌شود، و مدل‌هایی که از کاربرد الگوریتم‌ها در داده‌ها مشتق شده‌اند، توجه کنید.

چگونه این پارامترهای رایگان را متناسب کنیم؟ و مهمتر از آن، چگونه می توانیم بگوییم که داریم کار خوبی انجام می دهیم؟ یادگیری ماشین سعی می‌کند این وظایف را جدا کند و روی مجموعه‌ای از نمونه‌های آموزشی برای انجام کارهایی مانند انتخاب ویژگی و برازش پارامترها و مجموعه‌ای آزمایشی برای ارزیابی عملکرد مدل تمرکز کند. با استفاده از مثال‌های آموزشی، می‌توانیم مقادیر مختلفی را برای پارامترهای آزاد امتحان کنیم و ارزیابی کنیم که خروجی‌های پیش‌بینی‌شده ما چقدر شبیه به خروجی‌های شناخته شده است – این گاهی اوقات تخمین «خطای آموزش» نامیده می‌شود و یکی از «عملکرد ضرر» استفاده می‌کند که برای منعکس کردن طراحی شده است. چه نوع خطاهایی نسبت به سایرین قابل تحمل تر هستند ما مدلی می خواهیم که خطای آموزشی را به حداقل برساند و الگوریتم انتخابی ما با پارامترهای آزاد برای رسیدن به این هدف مطابقت داشته باشد.

یک مدل با عملکرد بالا برای موفقیت به چندین ویژگی نیاز دارد. اول از همه، شما به ویژگی های آموزنده نیاز دارید که در واقع نشان دهنده تفاوت کلاس ها با کلاس های دیگر باشد. برای کارهایی که می‌دانیم انسان‌ها می‌توانند به خوبی انجام دهند، می‌دانیم که داده‌های ورودی لازم را داریم. به عنوان مثال، اگر هدف تقریبی توانایی یک متخصص قلب در خواندن نوار قلب باشد، می‌توان مطمئن بود که خود ECG شامل تمام ویژگی‌هایی است که برای طبقه‌بندی صحیح لازم است. اما برای مشکلات طبقه بندی چالش برانگیزتر، مانند تشخیص موارد MI از گروه شاهد، درک محدود ما از پاتوژنز بیماری، جمع آوری تمام اطلاعات مورد نیاز برای طبقه بندی دقیق را بعید می سازد.

حتی اگر در حال جمع‌آوری ورودی‌های مورد نیاز هستیم، همچنان به برخی عملکردها برای ترکیب آنها برای رسیدن به وظیفه مورد نظر نیاز داریم. برای کارهای پیچیده یادگیری، ممکن است به انعطاف‌پذیری قابل‌توجهی در نحوه استفاده از ویژگی‌ها نیاز داشته باشیم، زیرا مدل‌های افزودنی ساده بعید است که به جدایی مؤثر بین موارد و نه کنترل‌ها دست یابند. اغلب در مورد اینکه دسته خاصی از عملکردها چقدر “بیانگر” صحبت می کنند، که معمولاً شامل تغییر یا ترکیب درجه بالاتری از ویژگی ها برای انجام وظایف یادگیری پیچیده است.

ما دو ویژگی وابسته به هم را توصیف کرده‌ایم – ویژگی‌های اطلاعاتی و عملکردهای بیانی – برای دستیابی به خطای آموزشی کم. اما به حداقل رساندن خطای آموزشی کافی نیست. در واقع، کاری که ما دوست داریم بتوانیم انجام دهیم این است که پیش‌بینی/طبقه‌بندی عالی برای افرادی انجام دهیم که قبلاً هرگز ندیده‌ایم. برای ارزیابی این توانایی تعمیم، باید برخی از داده‌ها را ذخیره کنیم که هرگز برای ارزیابی “خطای تست” خود به آنها نگاه نکرده‌ایم. چنین داده‌های آزمایشی نباید برای هیچ جنبه‌ای از فرآیند یادگیری ماشین، از جمله انتخاب ویژگی یا عادی‌سازی داده‌ها استفاده شده باشد. در حالت ایده‌آل، ما می‌خواهیم مطمئن باشیم که اگر مدلی با خطای آموزشی کم ساخته‌ایم، تضمینی خواهیم داشت که خطای تست پایینی نیز دارد. در غیر این صورت ممکن است به‌طور کاذب و شاید به‌طور خطرناکی تحت تأثیر توانایی پیش‌بینی خودمان قرار بگیریم.

مقدار قابل توجهی از تئوری برای یادگیری ماشین وجود دارد که مرزهایی را برای شباهت بین خطای آموزش و خطای تست ایجاد می کند. اگرچه ریاضیات مفصل است، پیام کاملاً ساده است: مدل‌هایی که بسیار پیچیده هستند (از جمله آنهایی که دارای تعداد زیادی ویژگی هستند) ممکن است در به حداقل رساندن خطای آموزشی بهتر عمل کنند، اما معمولاً برای تعداد معینی از نمونه‌های آموزشی تعمیم ضعیفی دارند. تمایل به بیش از حد برازش با داده ها دارند. نتیجه این امر این است که اگر به پیچیدگی مدل بالایی نیاز دارید تا بتوانید پیش‌بینی دقیقی در مجموعه آموزشی خود داشته باشید، به نمونه‌های آموزشی بسیار بسیار بیشتری نیاز خواهید داشت تا اطمینان حاصل کنید که به خوبی به افراد نادیده قبلی تعمیم می‌دهید.

بنابراین یک معاوضه بین پیچیدگی مدل و قابلیت تعمیم به مجموعه داده های جدید وجود دارد. یک راه حل این است که به سادگی ویژگی های کمتری داشته باشید و مدلی کمتر بیانگر داشته باشید. اما در این صورت ممکن است با یک مدل بی کیفیت و با دقت ضعیف روی مجموعه آموزشی به خودمان آسیب بزنیم. به عنوان یک جایگزین، متخصصان یادگیری ماشین به استفاده از مدل‌های انعطاف‌پذیر ادامه می‌دهند، اما خود را به دلیل پیچیدگی بیش از حد مانند داشتن پارامترهای آزاد بیش از حد یا اجازه دادن به طیف وسیعی از مقادیر برای این پارامترها جریمه می‌کنند – فرآیندی که به نام “قانونی‌سازی” شناخته می‌شود. این ممکن است به این معنی باشد که دقت در مجموعه آموزشی ممکن است کمی آسیب ببیند، اما مزیت آن عملکرد بهتر در داده‌های تست خواهد بود.

با توجه به منوی متنوع الگوریتم‌های یادگیری ماشین و مدل‌های داده، آیا می‌توانیم راهنمایی‌هایی پیدا کنیم که در یک موقعیت یا موقعیت دیگر بهترین کار را انجام دهند؟ به عنوان یک قاعده کلی، بهترین راه حل شامل برازش مدلی است که با مدل اصلی که داده ها را تولید می کند مطابقت داشته باشد. متأسفانه، ما معمولاً نمی‌دانیم آن مدل اساسی چیست. یک راه حل تجربی این است که تعدادی الگوریتم را امتحان کنید و مطمئن شوید که داده های آزمایشی را کنار بگذارید تا عملکرد را ارزیابی کنید. اما این می تواند زمان بر باشد، به خصوص اگر برخی از رویکردها بعید است که از قبل به خوبی کار کنند. بسیاری از شاغلین یادگیری ماشینی مجموعه ابزاری از رویکردهای استخراج ویژگی و پیش پردازش و همچنین زیرمجموعه ای از الگوریتم های یادگیری تحت نظارت و بدون نظارت دارند که با آن احساس راحتی می کنند و به آن بازمی گردند. وقتی داده‌های آموزشی محدود است، اینها اغلب شامل مدل‌های ساده‌تر با منظم‌سازی می‌شوند، مانند اشکال جریمه‌شده رگرسیون خطی و لجستیک. اینها ممکن است به خطای آموزشی کم مانند مدل های پیچیده منجر نشوند (از اصطلاح تعصب بالا استفاده می شود) اما تمایل دارند به خوبی تعمیم دهند (واریانس کم). وقتی داده‌های آموزشی فراوان هستند و مدل اساسی احتمالاً از عدم افزودن و تعاملات پیچیده بین ویژگی‌ها ناشی می‌شود، رویکردهای نمونه مانند k-نزدیک‌ترین همسایه یا الگوریتم‌های درخت تصمیم (مانند تقویت درخت گرادیان تصادفی 12،13 یا جنگل تصادفی 14، که در زیر مورد بحث قرار می‌گیرد) می تواند به خوبی کار کند. برخی از الگوریتم‌ها مانند ماشین‌های بردار پشتیبان غیرخطی15 می‌توانند در موقعیت‌های مختلف بسیار قوی باشند، حتی در جایی که تعداد ویژگی‌های پیش‌بینی در مقایسه با تعداد نمونه‌های آموزشی بسیار زیاد است، وضعیتی که اغلب برازش بیش از حد اتفاق می‌افتد. در نهایت، با پذیرش محدودیت‌های هر کلاس از الگوریتم‌ها، برخی از متخصصان از فرآیندی به نام ترکیب، ادغام خروجی‌های چندین الگوریتم مختلف استفاده می‌کنند (همچنین در زیر بحث شده است).

در نهایت، برای چالش‌برانگیز کردن مشکلات پیش‌بینی، به این معنی است که باید تلاش قابل‌توجهی برای جمع‌آوری هرچه بیشتر نمونه‌های آموزشی انجام شود، که همگی با مجموعه‌ای از ویژگی‌های آموزنده مشخص می‌شوند. اگر مقدار داده‌های آموزشی مورد استفاده در مسابقات تحلیل تصویر را بررسی کنیم – که می‌تواند شامل بیش از 100000 تصویر باشد – می‌بینیم که مجموعه‌های داده‌های زیست‌پزشکی معمولی دو تا سه مرتبه کوتاه هستند، علیرغم اینکه احتمالاً یک کار یادگیری اساساً چالش‌برانگیزتر را نشان می‌دهند. . و این کمبود در مقدار داده‌های آموزشی حتی به این واقعیت نمی‌پردازد که ما معمولاً نمی‌دانیم چه ویژگی‌هایی برای درک پیچیدگی فرآیند بیماری لازم است.

در درجه اول این چالش است – جمع آوری هزاران یا نه ده ها هزار مثال آموزشی که همگی با مجموعه ای غنی از ویژگی های آموزنده (به اندازه کافی) مشخص می شوند، که سهم یادگیری ماشین را به وظایف پیچیده طبقه بندی و پیش بینی در پزشکی بالینی محدود کرده است.

رفتن به:
نمونه های گویا از یادگیری ماشینی
برای نشان دادن برخی از نکاتی که در اینجا به آنها پرداخته شده است، بر چهار مثال از یادگیری ماشین در پزشکی تمرکز خواهم کرد که طیف وسیعی از رویکردهای نظارت شده و بدون نظارت را پوشش می دهد. دو مورد از این موارد بر بیماری های قلبی عروقی و دو مورد بر روی سرطان تمرکز دارند.

رفتن به:
یادگیری تحت نظارت – یادگیری از جنگل ها و درختان
اگرچه تعداد زیادی از الگوریتم‌های یادگیری تحت نظارت توسعه یافته‌اند، اهداف آنها مشترک است: ارائه انعطاف‌پذیری کافی برای به حداقل رساندن خطای آموزشی، اما در عین حال امکان تعمیم به مجموعه‌های داده جدید، همه به روشی محاسباتی کارآمد. من یکی از این روش ها – جنگل های تصادفی – را به عنوان نمونه ای از یک الگوریتم نوآورانه و بسیار موثر برجسته می کنم.

الگوریتم جنگل‌های تصادفی، که تقریباً 15 سال پیش توسعه یافته است، به عنوان یکی از بهترین الگوریتم‌های «خارج از قفسه» برای طبقه‌بندی موجود معرفی می‌شود. همانطور که از نام آنها پیداست، جنگل های تصادفی از درختان ساخته می شوند – به طور خاص درختان تصمیم. اجازه دهید فرض کنیم که هدف طبقه بندی افراد به دو گروه است – مانند پاسخ دهندگان استاتین یا غیر پاسخ دهندگان. ما با گروهی از مثال‌های آموزشی شامل پاسخ‌دهنده‌های شناخته شده استاتین و پاسخ‌دهنده‌های غیرپاسخ‌دهندگان، که هر کدام با مجموعه‌ای از ویژگی‌ها، مانند سن، جنس، و وضعیت سیگار کشیدن و دیابت مشخص می‌شوند، شروع می‌کنیم. اغلب ممکن است صدها یا هزاران ویژگی در دسترس باشد. ما یک سری (“گروه”) از درخت های تصمیم می سازیم که هر کدام به دنبال استفاده از این ویژگی های پیش بینی برای تمایز بین دو گروه ما هستند. در هر گره در هر درخت، یک ویژگی انتخاب می شود که به بهترین نحو این تقسیم را به دست می آورد. از آنجایی که بعید است که یک متغیر منفرد کافی باشد، گره‌های بعدی برای دستیابی به جدایی کامل‌تر مورد نیاز هستند. یک تفاوت قابل توجه بین هر درخت این است که هر درخت فقط به زیرمجموعه‌ای از نمونه‌های آموزشی دسترسی دارد – مفهومی که به نام “کیسه‌بندی” شناخته می‌شود. علاوه بر این، در هر گره، تنها زیر مجموعه ای از ویژگی ها در نظر گرفته می شود. تصادفی به دست آمده به هر درخت اجازه می دهد تا رای مستقلی در مورد طبقه بندی نهایی بدهد و به عنوان وسیله ای برای منظم سازی عمل می کند. حتی اگر بعید است که هر درخت به تنهایی دقیق باشد، رأی اکثریت نهایی در میان صدها درخت بسیار دقیق است.

جنگل های تصادفی موفقیت باورنکردنی در رشته های مختلف یادگیری داشته اند و در مسابقات یادگیری ماشین عملکرد خوبی داشته اند. Ishwaran، Lauer و همکاران، جنگل‌های تصادفی را برای تجزیه و تحلیل داده‌های بقا تطبیق دادند – و به درستی رویکرد آنها را “جنگل‌های بقای تصادفی (RSF)” نامیدند. آنها از یک متغیر باینری برای مرگ استفاده کردند و روش خود را برای مشکلات مختلفی از جمله پیش‌بینی بقا در نارسایی سیستولیک قلب و در زنان یائسه به کار بردند. در مثال دوم، آنها 33144 زن را در کارآزمایی‌های ابتکاری سلامت زنان بررسی کردند و متغیرهای بالینی و جمعیت‌شناختی مرسوم و همچنین 477 بیومارکر ECG را در نظر گرفتند. آنها از RSF برای ساخت یک مدل بقا استفاده کردند – و 20 متغیر پیش بینی کننده مرگ و میر طولانی مدت، از جمله 14 نشانگر زیستی ECG را شناسایی کردند. مدل‌هایی که با استفاده از این زیرمجموعه کاهش‌یافته از ویژگی‌ها ساخته شده‌اند، عملکرد بهبود یافته‌ای را هم در داده‌های آموزشی و هم در مجموعه‌ای از آزمون‌ها نشان می‌دهند. جالب توجه است، هنگامی که زیرمجموعه 20 متغیر انتخاب شد، یک مدل افزودنی ساده (نسخه منظم مدل خطرات متناسب کاکس) به همان اندازه RSF در طبقه‌بندی بیماران عمل کرد، که نشان می‌دهد یکی از مزایای اصلی RSF در انتخاب ویژگی بود. بسیاری از این متغیرها در واقع پیش از این هرگز در پیش بینی مرگ و میر دخیل نبودند.

چرا این رویکرد تکرار نشده و در مدل های ریسک رایج گنجانده نشده است؟ دلیل اصلی ممکن است این باشد که عملکرد RSF در واقع پایین‌تر از عملکردی است که معمولاً در امتیاز ریسک فرامینگهام مشاهده می‌شود، علی‌رغم این واقعیت که دومی متغیرهای کمتر و مدل ساده‌تری را شامل می‌شود. چگونه می تواند باشد؟ اگرچه حجم نمونه بزرگ در مقایسه با بسیاری از مطالعات اپیدمیولوژیک رشک‌برانگیز بود، اما قیمت بالایی داشت. بسیاری از متغیرها توسط خود گزارش شده بودند و بیشتر نشانگرهای زیستی خون وجود نداشتند، احتمالاً به این دلیل که هزینه انجام فنوتیپ دقیق در چنین گروه بزرگی گران است. به طور قابل توجهی معیارهای کلسترول، از جمله کلسترول تام و کلسترول LDL وجود نداشت. نویسندگان همچنین قادر به یافتن یک مجموعه داده خارجی برای تکرار نشدند، زیرا تعداد کمی از گروه‌ها متغیرهای کمی ECG را اندازه‌گیری کردند. بنابراین علیرغم ارائه یک کاربرد جدید از یک الگوریتم عالی، مزایای مطالعه با نداشتن مجموعه داده‌های آموزشی و آزمایشی با مجموعه‌ای جامع از ویژگی‌های اطلاعاتی، از جمله تمام مواردی که قبلاً برای این کار پیش‌بینی مهم بودند، محدود شد.

رفتن به:
C-Path: یک آسیب شناس خودکار و اهمیت استخراج ویژگی
همانطور که در بالا مشخص شد، انتخاب ویژگی برای یادگیری ماشینی مرکزی است. بدون پیش‌بینی‌کننده‌های اطلاعاتی کافی، با وجود الگوریتم‌های پیچیده، بعید به نظر می‌رسد که پیشرفت کنیم. یک مثال اخیر از زمینه آسیب شناسی سرطان پستان به ویژه نشان می دهد که چه زمانی رویکردهای یادگیری ماشین ممکن است موفق شوند و چه زمانی بعید است که به شیوه های بالینی مرسوم فعلی مزیت اضافه کنند.

کولر و همکارانش در دانشگاه استنفورد بر روی بهبود شناسایی موارد سرطان پستان پرخطر با استفاده از نمونه‌های پاتولوژیک تمرکز کردند – ابزاری به نام C-Path21 (شکل 2) توسعه دادند. بسیاری از خواص بافت شناسی نامطلوب تومورهایی که امروزه استفاده می شوند مانند توبول ها و هسته های آتیپیک ده ها سال پیش شناسایی شده بودند. با این حال، به جای ترکیب ساده اینها با استفاده از الگوریتم‌های جدید، C-Path یک گام بیشتر به عقب برداشت و بر شناسایی ویژگی‌های جدید با استفاده از پردازش خودکار تصویر متمرکز شد. C-Path ابتدا طبقه‌بندی‌کننده‌ای ایجاد کرد که می‌توانست بین بخش‌های اپیتلیال و استرومایی تومور تمایز قائل شود (شکل 2A-B). سپس مجموعه‌ای از ویژگی‌های کمی غنی از 6642 پیش‌بینی‌کننده را از این مناطق به دست آورد که به طور جداگانه و با هم مورد بررسی قرار گرفتند، و «اشیاء» اپیتلیال و استرومایی و روابط آنها، مانند خواص هسته‌ها (اندازه، مکان، فاصله) و روابط بین هسته‌ها و سیتوپلاسم در اپیتلیوم را برجسته کرد. و استروما (شکل 2C). سپس از این ویژگی‌ها برای ساخت مدلی برای پیش‌بینی بقا استفاده شد، که عملکرد عالی را در دو مجموعه داده آزمایشی مستقل، برتر از آنچه توسط آسیب‌شناسان جامعه به دست آمده بود، نشان داد. علاوه بر این، نمرات C-Path به طور قابل توجهی با بقای 5 ساله بالاتر و فراتر از همه عوامل بالینی و مولکولی تعیین شده مرتبط بود (شکل 2D).

یک فایل خارجی که دارای یک تصویر، تصویر و غیره است.
نام شیء nihms729905f2.jpg است
شکل 2
مروری بر خط لوله پردازش تصویر C-Path و روش ساخت مدل پیش آگهی. الف. پردازش تصویر اولیه و ساخت ویژگی. ب. ساخت طبقه بندی کننده اپیتلیال-استرومایی. طبقه‌بندی‌کننده مجموعه‌ای از تصاویر میکروسکوپی سرطان سینه را به عنوان ورودی می‌گیرد که تحت پردازش تصویر اولیه و ساخت ویژگی قرار گرفته‌اند و دارای زیرمجموعه‌ای از سوپرپیکسل‌هایی هستند که توسط آسیب‌شناس به‌عنوان اپیتلیوم (قرمز) یا استروما (سبز) برچسب‌گذاری شده‌اند. برچسب های سوپرپیکسل و اندازه گیری ویژگی ها به عنوان ورودی به یک الگوریتم یادگیری نظارت شده برای ساخت یک طبقه بندی کننده اپیتلیال-استرومایی استفاده می شود. سپس طبقه‌بندی‌کننده بر روی تصاویر جدید اعمال می‌شود تا سوپرپیکسل‌ها را به عنوان اپیتلیوم یا استروما طبقه‌بندی کند. ج. ساختن ویژگی های زمینه ای/رابطه ای سطح بالاتر. پس از استفاده از طبقه‌بندی‌کننده استرومای اپیتلیال، تمام اجسام تصویر بر اساس ناحیه بافتی و ویژگی‌های مورفولوژیکی اولیه سلولی زیر طبقه‌بندی و رنگ‌بندی می‌شوند. (پانل سمت چپ) پس از طبقه بندی هر شیء تصویر، یک مجموعه ویژگی غنی ساخته می شود. D.

یادگیری یک مدل مبتنی بر تصویر برای پیش بینی بقا. تصاویر پردازش شده از بیماران زنده در 5 سال پس از جراحی و از بیماران فوت شده در 5 سال پس از جراحی برای ساخت یک مدل پیش آگهی مبتنی بر تصویر استفاده شد. پس از ساخت این مدل، آن را به مجموعه آزمایشی از تصاویر سرطان سینه (که در ساخت مدل استفاده نمی‌شود) اعمال کردند تا بیماران را به عنوان خطر مرگ بالا یا پایین تا 5 سال طبقه‌بندی کنند. از Beck et al, Sci Transl Med. 2011؛ ​​3:108ra113. تجدید چاپ با اجازه از AAAS.

تجربه C-Path به چند دلیل آموزنده بود. شاید مهم ترین درس این بود که ویژگی های جدید آموخته شده برای بهبود عملکرد ضروری هستند – نمی توان به سادگی ویژگی های تثبیت شده را در یک بسته بندی الگوریتمی جدید قرار داد و انتظار طبقه بندی برتر را داشت. علاوه بر این، بسیاری از ویژگی‌های پیش‌بینی‌کننده که توسط C-Path آموخته شد، علی‌رغم چندین دهه بررسی اسلایدهای سرطان پستان توسط آسیب‌شناسان، کاملاً جدید بودند. بنابراین یکی از کمک‌های اصلی یادگیری ماشین، اتخاذ رویکردی بی‌طرفانه برای شناسایی متغیرهای اطلاعاتی غیرمنتظره است. دومین درسی که باید یاد گرفت این است که الگوریتم نهایی مورد استفاده برای طبقه بندی، یک شکل منظم از رگرسیون لجستیک به نام “کند”22، در واقع بسیار ساده بود اما همچنان نتایج عالی ایجاد کرد. الگوریتم‌های ساده می‌توانند به همان خوبی الگوریتم‌های پیچیده‌تر در دو حالت عمل کنند: زمانی که رابطه اساسی بین ویژگی‌ها و خروجی ساده است (مثلاً افزودنی) یا زمانی که تعداد نمونه‌های آموزشی کم است، و بنابراین مدل‌های پیچیده‌تر احتمالاً بیش از حد برازش می‌کنند و تعمیم می‌یابند. ضعیف اگر کسی واقعاً به مزایای مدل‌های پیچیده‌تر مانند مدل‌هایی که تعاملات با ابعاد بالا را ثبت می‌کنند نیاز دارد، باید روی جمع‌آوری داده‌های آموزشی کافی و متنوع تمرکز کند تا امیدی به ساخت یک طبقه‌بندی مؤثر داشته باشد. در نهایت، نویسندگان C-Path دریافتند که موفقیت مدل آنها به شدت به توانایی در ابتدا متمایز کردن اپیتلیوم و استروما بستگی دارد. از آنجایی که بعید است که ماشینی به تنهایی به نیاز این مرحله برسد، این نیاز به تخصص انسانی حوزه خاص برای هدایت فرآیند یادگیری را برجسته می کند.

اگرچه تجزیه و تحلیل نمونه های آسیب شناسی نقش محدودی در قلب و عروق بالینی ایفا می کند، می توان تصور کرد که این رویکرد استخراج ویژگی مبتنی بر داده را به سایر انواع غنی از اطلاعات، مانند تصاویر MRI قلبی یا الکتروگرام، تعمیم دهیم.

رفتن به:
متاژن های جذب کننده در سرطان و نتایج در یادگیری ماشینی
دومین مثال یادگیری ماشینی در زیست‌شناسی سرطان، نشان‌دهنده تعامل بین یادگیری بدون نظارت و نظارت است و مفهوم «ترکیب» را برای بهبود مدل‌های پیش‌بینی معرفی می‌کند.

با توجه به فراوانی الگوریتم‌های یادگیری و این واقعیت که برخی از رویکردها برای مسائل خاص مناسب‌تر هستند، جامعه یادگیری ماشین ایده مسابقات را پذیرفته است. در این الگوریتم «پخت‌آف»، به افراد یا گروه‌های متعدد داده‌های آموزشی مشابهی داده می‌شود و از آنها خواسته می‌شود مدل‌های پیش‌بینی را توسعه دهند، که به نوبه خود در یک مجموعه آزمون مستقل ارزیابی می‌شوند. یک نسخه بسیار برجسته از این جایزه بزرگ نتفلیکس 1,000,000 دلاری 23,24 بود که در آن پول به گروهی تعلق می گرفت که می توانست بیشتر پیش بینی اولویت های فیلم را بر اساس رتبه بندی های گذشته بهبود بخشد. چنین رقابت‌هایی تأثیر فوق‌العاده مفیدی بر حوزه یادگیری ماشین داشته است، از جمله تضمین شفافیت و تکرارپذیری، تشویق به اشتراک‌گذاری روش‌ها، و اجتناب از خطر «تعدیل» تحلیلی توسط محققین برای رسیدن به نتیجه مطلوب. رقابت‌های مشابهی در جامعه زیست‌شناسی ظاهر شده است.

چالش اخیر Sage Bionetworks-DREAM Breast Prognosis Cancer Challenge (BCC) نمونه ای از نوید این نوع رویکرد برای پزشکی بالینی است26. BCC یک چالش باز برای ساخت مدل‌های پیش‌بینی‌کننده سرطان پستان بر اساس داده‌های ژنومی، بالینی و نتایج بقا از نزدیک به 2000 بیمار بود. بیش از 350 گروه از 35 کشور شرکت کردند و مدل‌های پیش‌بینی‌کننده برای پیامدهای بقا تولید کردند، که بر روی یک مجموعه اعتبارسنجی جدید از 184 بیمار ارزیابی شدند. جالب توجه است که مدل برنده 27 تا حدی از ویژگی های ژنومی شناسایی شده از طریق استفاده از یادگیری بدون نظارت برای سرطان های کاملاً نامرتبط ساخته شده است. نویسندگان قبلاً الگوریتمی به نام «متاژن های جذب کننده» 28 توسعه داده بودند که خوشه هایی از ژن ها را شناسایی می کرد که شباهت های مشترکی را در بین نمونه های تومور متعدد داشتند. بسیاری از این خوشه‌ها با فرآیندهای بیولوژیکی ضروری برای پیشرفت سرطان مانند “ناپایداری کروموزومی” و “انتقال مزانشیمی” مطابقت دارند. نویسندگان وجود یا عدم وجود این ویژگی‌ها را همراه با سایر متغیرهای بالینی در مدل‌های مختلف پیش‌بینی برای پیامدهای سرطان سینه گنجانده‌اند. از آنجایی که الگوریتم‌های یادگیری مختلف ممکن است کم و بیش برای پیش‌بینی پیامدها برای انواع خاصی از بیماران مؤثر باشند، نویسندگان از چندین الگوریتم یادگیری تحت نظارت مختلف استفاده کردند و خروجی هر الگوریتم را در یک پیش‌بینی نهایی نتایج بقا ترکیب کردند (شکل 3).

تصویر 3
شماتیک توسعه مدل برای پیش بینی خطر سرطان پستان. بلوک دیاگرام هایی نشان داده شده است که مراحل توسعه را برای مدل پیش آگهی گروه نهایی توصیف می کند. ساخت یک مدل پیش‌آگهی شامل استخراج ویژگی‌های مرتبط، آموزش زیرمدل‌ها و پیش‌بینی‌ها و ترکیب پیش‌بینی‌ها از هر زیرمدل است. این مدل متاژن‌های جذب‌کننده را با استفاده از داده‌های بیان ژن استخراج کرد، آنها را با اطلاعات بالینی از طریق رگرسیون کاکس، ماشین تقویت گرادیان و تکنیک‌های k نزدیک‌ترین همسایه ترکیب کرد و در نهایت پیش‌بینی هر مدل فرعی را با هم ترکیب کرد. از چنگ و همکاران، Sci Transl Med. 2013؛ 5:181ra50. تجدید چاپ با اجازه از AAAS.

AAAS.

چندین جنبه آموزنده از این مسابقه پدید آمد. اولین مورد این است که یادگیری بدون نظارت می تواند به عنوان وسیله ای برای انتخاب ویژگی دیده شود، زیرا می تواند امکان کشف توصیفگرهای بیولوژیکی قوی را فراهم کند، که سپس می تواند در یک مدل نظارت شده برای پیش بینی بیماری استفاده شود. درس دوم این است که مجموعه‌ای از الگوریتم‌های یادگیری مختلف توانستند یک پیش‌بینی برتر از هر الگوریتم به تنهایی ایجاد کنند. ثالثاً، مدل‌هایی که از متغیرهای ژنومی و بالینی استفاده می‌کردند، به تنهایی از هر یک از انواع داده‌ها پیشی گرفتند. در نهایت، یادگیری از داشتن نزدیک به 2000 مجموعه داده برای آموزش و اعتبار سنجی و همچنین یک چارچوب شفاف که به اشتراک گذاری کد را امکان پذیر می کرد و به شرکت کنندگان بازخورد دائمی در مورد عملکرد آنها می داد، سود برد.

رفتن به:
یادگیری بدون نظارت در HFpEF: به سمت پزشکی دقیق؟
نارسایی قلبی با کسر جهشی حفظ شده (HFpEF) یک وضعیت بسیار ناهمگن و بدون درمان اثبات شده است. یکی از احتمالات عدم موفقیت کارآزمایی بالینی در HFpEF این است که بیماران ثبت نام شده چندین فرآیند پاتوفیزیولوژیک غالب را منعکس می کنند، که همه آنها به یک عامل پاسخ نمی دهند. آیا می توان چنین فرآیندهایی را شناسایی کرد؟ اگرچه برخی استفاده از ژنتیک را برای تعریف مجدد دقیق بیماری ها پیشنهاد کرده اند، بعید است که تنوع ژنتیکی به طبقه بندی شرایط پیچیده مانند HFpEF کمک کند، جایی که به احتمال زیاد صدها عامل ژنتیکی ضعیف با یکدیگر و محیط به روشی غیرقابل پیش بینی برای ایجاد فنوتیپ های بیماری در تعامل هستند. .

ما بر استفاده از یادگیری بدون نظارت برای طبقه بندی بیماران HFpEF تمرکز کردیم. همانطور که در بالا ذکر شد، یادگیری بدون نظارت به دنبال یافتن ساختار داخلی در داده ها است. از چارچوبی مشابه به عنوان یادگیری تحت نظارت شروع می‌شود، با نمونه‌هایی (بیماران در این مورد) که هر کدام با یک بردار ویژگی مشخص می‌شوند، که در آن مقادیر برای ویژگی‌های خاصی مانند قد، جنس و سن داده می‌شود. این داده ها را می توان به راحتی با یک ماتریس نشان داد (شکل 1A). اما به جای استفاده از این ماتریس برای یادگیری مدلی که ویژگی‌ها را به نتایج مرتبط می‌کند، در عوض از آن برای یافتن گروهی از بیماران مشابه یکدیگر استفاده می‌کنیم. برای این منظور می توان از چندین الگوریتم استفاده کرد. شاید ساده‌ترین آنها خوشه‌بندی سلسله مراتبی تجمعی باشد که ابتدا افرادی را که بیشترین شباهت را به یکدیگر دارند، جمع‌آوری می‌کند و سپس جفت‌های مشابه و غیره و غیره را با هم ادغام می‌کند. دسته دیگری از الگوریتم‌های یادگیری بدون نظارت، از جمله تجزیه و تحلیل مؤلفه‌های اصلی و فاکتورسازی ماتریس غیرمنفی30، تجزیه ماتریس را انجام می‌دهند و ماتریس ویژگی بیمار را به محصولی از دو ماتریس تبدیل می‌کنند: یکی که ویژگی‌های مشابه را به ویژگی‌های فوق‌العاده در کنار هم قرار می‌دهد (ما به این می‌گوییم. کاهش ابعاد) و دومی که هر بیمار را با بردار وزن های اعمال شده برای این ویژگی های فوق العاده توصیف می کند. سپس بیماران بر اساس شباهت بردارهای وزن آنها گروه بندی می شوند. مجموعه دیگری از روش‌های یادگیری بدون نظارت، مانند خوشه‌بندی k-medoids31 و الگوریتم متاژن‌های جذب‌کننده28، سعی می‌کنند نمونه‌های آموزشی متمایز (یا ترکیبی) را پیدا کنند که در اطراف آن نمونه‌های داده دیگر را گروه‌بندی کنند. نمونه های درون یک خوشه باید بیشتر به یکدیگر شبیه باشند تا نمونه های دیگر خوشه ها.

خوشه ها

کدگذاری پراکنده نشان دهنده پیشرفت اخیر در زمینه یادگیری بدون نظارت است. در اصل برای کمک به حوزه بینایی کامپیوتری 32 ابداع شد که شامل جمع‌آوری، پردازش و تفسیر خودکار تصاویر است و بر کارهایی مانند تشخیص چهره و تفسیر متن دست‌نویس تمرکز می‌کند. اعتقاد بر این است که کدگذاری پراکنده منعکس کننده روشی است که در آن قشر بینایی به محرک ها پاسخ می دهد. به جای اینکه تعداد زیادی نورون های قشری توسط هر تصویر فعال شوند، اصل پراکندگی تعداد بسیار کمی از نورون ها را با یک جنبه بسیار خاص تر و مرتبه بالاتر از تصویر، مانند لبه یک شی گرا در یک تصویر هماهنگ می کند. جهت خاص پیشرفت‌های الگوریتمی به رایانه‌ها این امکان را می‌دهد که مجموعه‌ای از ویژگی‌های مرتبه بالاتر را از تصاویر آموزشی بیاموزند و سپس تصاویر آزمایشی را به عنوان ترکیبی از این ویژگی‌ها تفسیر کنند. با داده های آموزشی کافی، رایانه ها می توانند کارهای پیچیده ای مانند تمایز بین انواع مختلف مواد غذایی را انجام دهند (https://www.metamind.io/vision/food). علاوه بر تشخیص تصویر، کدگذاری پراکنده با موفقیت در پردازش زبان طبیعی اعمال شده است. ما بعداً بحث خواهیم کرد که آیا چنین رویکردهایی ممکن است در طبقه بندی بیماران برای اهداف پزشکی دقیق مورد استفاده قرار گیرند.

در تجزیه و تحلیل خود از HFpEF، ما علاقه مند به گروه بندی بیماران بر اساس متغیرهای کمی اکوکاردیوگرافی و بالینی بودیم. با شروع با 67 ویژگی متنوع، ویژگی‌های بسیار همبسته را حذف کردیم تا 46 پیش‌بینی‌کننده حداقل اضافی باقی بمانیم (شکل 4A). ما از یک شکل منظم از خوشه‌بندی مبتنی بر مدل استفاده کردیم، که در آن از توزیع‌های گاوسی چند متغیره برای تعریف هر خوشه بیمار بر اساس میانگین و انحراف استاندارد اختصاص داده شده به هر ویژگی استفاده شد. برای دستیابی به صرفه‌جویی، منظم‌سازی برای انتخاب تعداد بهینه خوشه‌های بیمار و همچنین تعداد پارامترهای آزاد متناسب در تعریف هر خوشه استفاده شد (شکل 4B). بیماران بر اساس محاسبه احتمال مشترک در همه ویژگی‌ها و انتخاب خوشه‌ای با بیشترین احتمال عضویت برای هر بیمار به خوشه‌هایی اختصاص داده شدند. مقایسه گروه‌های حاصل تفاوت‌هایی را در طیف وسیعی از متغیرهای فنوتیپی نشان داد. مشابه برنده جایزه BCC، ما از خوشه‌های فنوتیپی خود به عنوان ویژگی‌هایی در یک مدل یادگیری نظارت‌شده برای پیش‌بینی بقای بیماران HFpEF استفاده کردیم و دریافتیم که آنها بر روی مدل‌های بالینی که معمولاً برای ارزیابی خطر استفاده می‌شوند، هم در مجموعه آموزشی ما و هم در یک آزمایش مستقل، بهبود می‌بخشند. مجموعه (شکل 4C).

استفاده از یادگیری بدون نظارت در HFpEF. الف. نقشه حرارتی فنوتیپ HFpEF. ستون ها نشان دهنده شرکت کنندگان در مطالعه فردی هستند. ردیف ها، ویژگی های فردی ب- تجزیه و تحلیل معیار اطلاعات بیزی برای شناسایی تعداد بهینه خوشه های فنوتیپی (فنو-گروه). ج. بقای بدون بستری قلبی عروقی (CV) یا مرگ طبقه بندی شده توسط خوشه فنوتیپی. منحنی های Kaplan-Meier برای نتیجه ترکیبی بستری شدن در بیمارستان نارسایی قلبی، بستری قلبی عروقی، یا مرگ طبقه بندی شده توسط خوشه فنوتیپی

NLM به عنوان یک کتابخانه، دسترسی به ادبیات علمی را فراهم می کند. گنجاندن در پایگاه داده NLM به معنای تأیید یا موافقت با محتوای NLM یا مؤسسه ملی بهداشت نیست. درباره سلب مسئولیت ما بیشتر بدانید.
لوگوی nihpa
جریان. دست نوشته نویسنده؛ موجود در PMC 2018 1 مارس. منتشر شده در فرم ویرایش نهایی به عنوان: گردش. 17 نوامبر 2015; 132 (20): 1920-1930. doi: 10.1161/CIRCULATIONAHA.115.001593
PMCID: PMC5831252NIHMSID: NIHMS729905PMID: 26572668
یادگیری ماشینی در پزشکی
راهول سی دیو، دکترا، دکترا
اطلاعات نویسنده حق چاپ و اطلاعات مجوز سلب مسئولیت
نسخه ویرایش شده نهایی ناشر این مقاله در Circulation موجود است
داده های مرتبط
مواد تکمیلی
رفتن به:
خلاصه
به دلیل پیشرفت در قدرت پردازش، حافظه، ذخیره‌سازی و حجم بی‌سابقه‌ای از داده‌ها، از رایانه‌ها خواسته می‌شود تا با وظایف یادگیری پیچیده‌تر و اغلب با موفقیت خیره‌کننده مقابله کنند. رایانه‌ها اکنون بر نوع محبوب پوکر تسلط یافته‌اند، قوانین فیزیک را از داده‌های تجربی آموخته‌اند، و در بازی‌های ویدیویی متخصص شده‌اند – کارهایی که تا چندی پیش غیرممکن تلقی می‌شدند. به موازات آن، تعداد شرکت‌هایی که بر روی اعمال تجزیه و تحلیل داده‌های پیچیده در صنایع مختلف متمرکز شده‌اند، افزایش یافته است، و بنابراین جای تعجب نیست که برخی شرکت‌های تحلیلی توجه خود را به مشکلات در مراقبت‌های بهداشتی معطوف کنند. هدف از این بررسی این است که کشف کند چه مشکلاتی در پزشکی ممکن است از چنین رویکردهای یادگیری سود ببرند و از مثال‌هایی از ادبیات برای معرفی مفاهیم اساسی در یادگیری ماشین استفاده کند. توجه به این نکته مهم است که مجموعه‌های داده‌های پزشکی به اندازه کافی بزرگ و الگوریتم‌های یادگیری کافی برای چندین دهه در دسترس بوده‌اند – و با این حال، اگرچه هزاران مقاله وجود دارد که الگوریتم‌های یادگیری ماشین را برای داده‌های پزشکی به کار می‌برند، تعداد بسیار کمی به طور معناداری در مراقبت بالینی کمک کرده‌اند. این فقدان تأثیر در تضاد کامل با ارتباط عظیم یادگیری ماشینی با بسیاری از صنایع دیگر است. بنابراین بخشی از تلاش من این خواهد بود که شناسایی کنم چه موانعی ممکن است برای تغییر عملکرد پزشکی از طریق رویکردهای یادگیری آماری وجود داشته باشد و در مورد چگونگی غلبه بر آنها بحث کنم.

کلمات کلیدی: کامپیوتر، آمار، عامل خطر، پیش آگهی، یادگیری ماشین
یادگیری ماشینی یک رشته علمی است که بر نحوه یادگیری کامپیوترها از داده ها تمرکز دارد. این در تقاطع آمار، که به دنبال یادگیری روابط از داده ها، و علوم کامپیوتر، با تاکید بر الگوریتم های محاسباتی کارآمد است، به وجود می آید. این ازدواج بین ریاضیات و علوم کامپیوتر ناشی از چالش‌های محاسباتی منحصربه‌فرد ساخت مدل‌های آماری از مجموعه داده‌های عظیم است که می‌تواند شامل میلیاردها یا تریلیون‌ها نقطه داده باشد. انواع یادگیری مورد استفاده توسط رایانه ها به راحتی به دسته هایی مانند یادگیری تحت نظارت و یادگیری بدون نظارت تقسیم می شوند. با این حال، به‌علاوه، متوجه شدم که بخش دیگری می‌تواند هنگام در نظر گرفتن اینکه چگونه یادگیری ماشینی ممکن است در عمل پزشکی مؤثر باشد مفید باشد: تمایز یادگیری آن دسته از وظایفی که پزشکان از قبل می‌توانند به خوبی انجام دهند و یادگیری مواردی که پزشکان تنها موفقیت محدودی داشته‌اند. با در نظر گرفتن این دسته‌بندی‌های گسترده، می‌توانیم از برخی حوزه‌های پزشکی که از رویکردهای یادگیری ماشین بهره‌مند شده‌اند یا ممکن است بهره‌مند شوند، بازدید کنیم.

رفتن به:
یادگیری تحت نظارت
یادگیری تحت نظارت با هدف پیش بینی یک خروجی یا هدف شناخته شده شروع می شود. در مسابقات یادگیری ماشینی، که در آن شرکت‌کنندگان فردی بر اساس عملکردشان در مجموعه‌های داده رایج مورد قضاوت قرار می‌گیرند، مشکلات یادگیری تحت نظارت مکرر شامل تشخیص دست خط (مانند تشخیص ارقام دست‌نویس)، طبقه‌بندی تصاویر اشیاء (مثلاً این یک گربه است یا یک سگ؟) و طبقه بندی سند (به عنوان مثال آیا این یک کارآزمایی بالینی در مورد نارسایی قلبی است یا یک گزارش مالی؟). قابل ذکر است، همه اینها وظایفی هستند که یک فرد آموزش دیده می تواند به خوبی انجام دهد و بنابراین رایانه اغلب سعی می کند عملکرد انسان را تقریب کند.

یادگیری نظارت شده بر طبقه بندی متمرکز است که شامل انتخاب از میان زیر گروه ها برای توصیف بهترین نمونه داده جدید و پیش بینی است که شامل تخمین پارامتر ناشناخته (مانند دمای فردا بعد از ظهر در سانفرانسیسکو) است.

چند نمونه از یادگیری تحت نظارت در پزشکی می تواند باشد؟ شاید رایج‌ترین مثالی که توسط متخصص قلب دیده می‌شود، تفسیر خودکار EKG باشد، که در آن تشخیص الگو برای انتخاب از مجموعه محدودی از تشخیص‌ها (یعنی یک کار طبقه‌بندی) انجام می‌شود. در رادیولوژی، تشخیص خودکار ندول ریه از اشعه ایکس قفسه سینه نیز نشان دهنده یادگیری تحت نظارت است. در هر دو این موارد، رایانه در حال تقریب کاری است که یک پزشک آموزش دیده قبلاً قادر به انجام آن با دقت بالا است.

یادگیری تحت نظارت اغلب برای تخمین ریسک استفاده می شود. امتیاز خطر فرامینگهام 3 برای بیماری عروق کرونر قلب (CHD) ممکن است در واقع رایج‌ترین نمونه یادگیری تحت نظارت در پزشکی باشد. چنین مدل‌های خطری در سراسر پزشکی وجود دارند و شامل درمان ضد ترومبوتیک در فیبریلاسیون دهلیزی و کاشت دفیبریلاتورهای کاشتنی خودکار در کاردیومیوپاتی هیپرتروفیک می‌شوند. در مدل‌سازی ریسک، کامپیوتر چیزی بیش از تقریب مهارت‌های پزشک انجام می‌دهد، اما روابط جدیدی پیدا می‌کند که به آسانی برای انسان‌ها آشکار نیست.

رفتن به:
یادگیری بدون نظارت
در مقابل، در یادگیری بدون نظارت، هیچ خروجی برای پیش بینی وجود ندارد. در عوض، ما در تلاش برای یافتن الگوها یا گروه‌بندی‌های طبیعی در داده‌ها هستیم. این کار ذاتاً برای قضاوت چالش‌برانگیزتر است و اغلب ارزش چنین گروه‌هایی که از طریق یادگیری بدون نظارت آموخته می‌شوند، با عملکرد آن در وظایف یادگیری تحت نظارت بعدی ارزیابی می‌شود (یعنی آیا این الگوهای جدید به نحوی مفید هستند؟).

چه زمانی می توان از چنین رویکردهایی در پزشکی استفاده کرد؟ شاید قانع‌کننده‌ترین فرصت، ابتکار «پزشکی دقیق» باشد. ناامید شده از ناهمگونی ذاتی در بیشتر بیماری‌های رایج، تلاش فزاینده‌ای برای تعریف مجدد بیماری بر اساس مکانیسم‌های پاتوفیزیولوژیک وجود دارد که به نوبه خود می‌تواند مسیرهای جدیدی را برای درمان فراهم کند. اما شناسایی چنین مکانیسم هایی برای بیماری های پیچیده چند عاملی کار آسانی نخواهد بود. بیایید به این فکر کنیم که چگونه می‌توان یادگیری بدون نظارت را در بیماری‌های قلبی در این راستا به کار برد و شرایط ناهمگونی مانند میوکاردیت را در نظر گرفت. می توان با گروه بزرگی از افراد ظاهرا مشابه با نارسایی حاد سیستولیک قلب غیر قابل توضیح شروع کرد. سپس می توان بیوپسی میوکارد را روی آنها انجام داد و ترکیب سلولی هر نمونه را با تکنیکی مانند رنگ آمیزی ایمنی مشخص کرد. برای مثال، می‌توان تعداد لنفوسیت‌های T، نوتروفیل‌ها، ماکروفاژها، ائوزینوفیل‌ها و غیره را داشت. سپس می‌توان مشاهده کرد که آیا الگوهای تکرارشونده‌ای از ترکیب سلولی وجود دارد، که به نوبه خود، ممکن است مکانیسم‌ها و درمان‌هایی را برای کاوش راهنمایی کند. رویکرد مشابهی، اگرچه بر روی ژنومیک متمرکز شده بود، منجر به شناسایی یک زیرگروه ائوزینوفیلیک آسم ۷ شد که به طور منحصربه‌فردی به یک درمان جدید که سیتوکین IL-138 ترشح شده توسط ائوزینوفیل را هدف قرار می‌دهد، پاسخ می‌دهد. به تضاد با یادگیری نظارت شده توجه کنید – هیچ نتیجه پیش بینی شده ای وجود ندارد – ما فقط به شناسایی الگوها در داده ها علاقه مندیم. در واقع، درمان این مشکل به عنوان یک مشکل یادگیری تحت نظارت – مانند ایجاد مدلی از مرگ و میر در میوکاردیت و طبقه بندی بیماران بر اساس خطر – ممکن است چنین زیرگروه هایی را به طور کامل از دست بدهد و در نتیجه شانس شناسایی مکانیسم های بیماری جدید را از دست بدهد.

رفتن به:
مشکل یادگیری
اکنون اجازه دهید مشکل یادگیری را به طور کلی تعریف کنیم تا بفهمیم چرا الگوریتم های پیچیده یادگیری ماشینی چنین حضور محدودی در عمل بالینی واقعی داشته اند. من ابتدا بر یادگیری تحت نظارت تمرکز خواهم کرد و در مرحله بعد به یادگیری بدون نظارت خواهم پرداخت.

ما پیش‌بینی MI را به عنوان هدف خود در نظر می‌گیریم و برای سادگی، آن را به‌عنوان یک مشکل طبقه‌بندی در نظر می‌گیریم، با افرادی که یک یا چند MI داشته‌اند به عنوان یک کلاس و افراد (مطابق با سن و جنسیت) بدون MI به عنوان طبقه دوم (شکل 1A) ). بنابراین، وظیفه ما ایجاد یک مدل دقیق برای تمایز بین دو کلاس است.

اولین کار این است که برخی از پیش بینی ها یا ویژگی ها را ارائه دهید. برخی از ویژگی های آشکار عبارتند از فشار خون بالا، دیابت و سطح کلسترول LDL. اما چگونه به این موارد رسیدیم و چگونه می‌توانیم این استخر را بیشتر گسترش دهیم؟ یک راه ساده این است که پیش‌بینی‌کننده‌های کاندید را برای ارتباط با وضعیت حمله قلبی آزمایش کنید و فقط موارد مهم را حفظ کنید. اما این تعداد زیادی از ویژگی‌هایی را که ممکن است فقط در زیر مجموعه‌ای از بیماران حمله قلبی مفید باشند، از دست می‌دهد. بدتر از آن، ممکن است ویژگی هایی وجود داشته باشند که در ترکیب (دو، سه یا بیشتر) مفید باشند اما به تنهایی مفید نباشند. به عنوان یک راه حل، ممکن است وسوسه شویم که تسلیم شویم و همه ویژگی های ممکن را به کار ببریم، اما به طور غریزی، ما مشکوک هستیم که این ممکن است کمکی نکند یا حتی ممکن است اوضاع را بدتر کند (به دلایلی که بعداً مشخص می شود). “انتخاب ویژگی” حوزه یادگیری ماشینی است که بر این مشکل تمرکز دارد.

یک فایل خارجی که دارای یک تصویر، تصویر و غیره است.
نام شیء nihms729905f1.jpg است
شکل 1
مروری بر یادگیری ماشینی الف. نمایش ماتریسی مسئله یادگیری تحت نظارت و بدون نظارت. ما علاقه مند به توسعه مدلی برای پیش بینی انفارکتوس میوکارد (MI) هستیم. برای داده‌های آموزشی، ما بیمارانی داریم که هر کدام با یک نتیجه مشخص می‌شوند (نمونه‌های آموزشی مثبت یا منفی)، که با دایره در ستون سمت راست مشخص می‌شود، و همچنین با مقادیر ویژگی‌های پیش‌بینی، که با رنگ‌آمیزی مربع‌های آبی تا قرمز نشان داده می‌شود. ما به دنبال ساخت مدلی برای پیش‌بینی نتیجه با استفاده از ترکیبی از ویژگی‌ها هستیم. انواع مختلفی از توابع را می توان برای نگاشت ویژگی ها به نتیجه (B-D) استفاده کرد. الگوریتم‌های یادگیری ماشین برای یافتن مقادیر بهینه پارامترهای آزاد در مدل استفاده می‌شوند تا خطای آموزشی را که با تفاوت بین مقادیر پیش‌بینی‌شده از مدل ما و مقادیر واقعی قضاوت می‌شود، به حداقل برسانند. در مسئله یادگیری بدون نظارت، ما ستون نتیجه را نادیده می گیریم و بیماران را بر اساس شباهت در مقادیر ویژگی هایشان گروه بندی می کنیم. ب. درختان تصمیم ویژگی ها را برای نتیجه ترسیم می کنند. در هر گره یا نقطه شاخه، نمونه های آموزشی بر اساس مقدار یک ویژگی خاص تقسیم بندی می شوند. شاخه های اضافی با هدف تفکیک کامل نمونه های آموزشی مثبت و منفی معرفی می شوند. ج. شبکه‌های عصبی بر اساس نمایش‌های تبدیل‌شده ویژگی‌ها، نتیجه را پیش‌بینی می‌کنند. یک لایه پنهان از گره ها، مقدار گره های ورودی چندگانه (ویژگی های خام) را برای استخراج ویژگی های تبدیل شده یکپارچه می کند. سپس گره خروجی از مقادیر این ویژگی های تبدیل شده در یک مدل برای پیش بینی نتیجه استفاده می کند. D. الگوریتم k نزدیکترین همسایه کلاس را بر اساس مقادیر مشابه ترین نمونه های آموزشی اختصاص می دهد. فاصله بین بیماران بر اساس مقایسه بردارهای چند بعدی مقادیر ویژگی محاسبه می شود. در این مورد، جایی که فقط دو ویژگی وجود دارد، اگر کلاس نتیجه سه نزدیکترین همسایه را در نظر بگیریم، به نمونه داده ناشناخته یک کلاس “بدون MI” اختصاص داده می شود.

چالش بعدی ارائه تابعی است که مقادیر ویژگی ها را به پیش بینی بیماری مرتبط می کند (تخصیص کلاس). این چالش را می توان به دو مرحله تقسیم کرد. ابتدا باید تصمیم بگیریم که با چه نوع تابعی می خواهیم کار کنیم (شکل 1B–D). آمار کلاسیک ما را وادار می کند که مدل رگرسیون لجستیک را برای این کار در نظر بگیریم. با رگرسیون لجستیک، یک نوع مدل خطی تعمیم یافته، ویژگی ها به صورت افزودنی و خطی وارد مدل می شوند. اما این تنها یک کلاس ممکن از تابع است و اگر این فرض را راحت کنیم، انتخاب های بیشتری وجود دارد. به عنوان مثال می توان از درخت های تصمیم برای پیش بینی وضعیت حمله قلبی استفاده کرد که امکان انعطاف پذیری گزینه های “OR” را فراهم می کند (شکل 1B). یک بیمار حمله قلبی ممکن است دلایل متقابلاً انحصاری مانند کلسترول خونی خانوادگی یا اختلال ترومبوتیک شریانی یا HIV داشته باشد که مدل‌سازی آنها با رگرسیون لجستیک دشوار است. انواع دیگر مدل‌های یادگیری ماشین مانند شبکه‌های عصبی امکان تغییر ویژگی‌های ورودی را برای پیش‌بینی بهتر نتایج می‌دهند (شکل 1C). ماشین‌های بردار پشتیبان مدل‌های طبقه‌بندی را با استفاده از مجموعه‌ای از ویژگی‌های تبدیل‌شده در ابعاد بسیار بالاتر می‌سازند10.

روش‌های نمونه اولیه، مانند k-نزدیک‌ترین همسایه‌ها، ایده ساخت یک مدل را از بین می‌برند، و در عوض بر اساس نتیجه نمونه‌های موردی مشابه، پیش‌بینی می‌کنند (شکل 1D). بهترین حدس برای اینکه آیا بیمار ما دچار حمله قلبی خواهد شد یا خیر این است که ببینیم آیا بیماران مشابه تمایل به حمله قلبی دارند یا خیر.

همه این انتخاب‌های کلاس‌های تابعی دارای پارامترهای آزاد برای تناسب هستند. در رگرسیون لجستیک، ضرایب رگرسیون – یعنی وزن‌های اعمال شده برای ویژگی‌های فردی – باید تعیین شوند. در درخت‌های تصمیم، باید متغیرهایی را انتخاب کرد که در آن تقسیم انجام می‌شود و در مورد متغیرهای کمی، مقادیری که تقسیم بر اساس آنها انجام می‌شود. شبکه های عصبی دارای پارامترهای آزاد مربوط به تابع مورد استفاده برای تبدیل ویژگی و همچنین تابعی هستند که برای پیش بینی کلاس بر اساس این ویژگی های مشتق شده استفاده می شود. یافتن مقادیر بهینه برای این پارامترهای رایگان یک کار دلهره آور است. الگوریتم‌های یادگیری ماشینی روش‌های محاسباتی را برای پیمایش مؤثر در فضای پارامترهای آزاد برای رسیدن به یک مدل خوب نشان می‌دهند. به تمایز بین الگوریتم‌ها، که شامل دستورالعمل‌هایی است که توسط کامپیوتر برای تکمیل یک کار خاص دنبال می‌شود، و مدل‌هایی که از کاربرد الگوریتم‌ها در داده‌ها مشتق شده‌اند، توجه کنید.

چگونه این پارامترهای رایگان را متناسب کنیم؟ و مهمتر از آن، چگونه می توانیم بگوییم که داریم کار خوبی انجام می دهیم؟ یادگیری ماشین سعی می‌کند این وظایف را جدا کند و روی مجموعه‌ای از نمونه‌های آموزشی برای انجام کارهایی مانند انتخاب ویژگی و برازش پارامترها و مجموعه‌ای آزمایشی برای ارزیابی عملکرد مدل تمرکز کند. با استفاده از مثال‌های آموزشی، می‌توانیم مقادیر مختلفی را برای پارامترهای آزاد امتحان کنیم و ارزیابی کنیم که خروجی‌های پیش‌بینی‌شده ما چقدر شبیه به خروجی‌های شناخته شده است – این گاهی اوقات تخمین «خطای آموزش» نامیده می‌شود و یکی از «عملکرد ضرر» استفاده می‌کند که برای منعکس کردن طراحی شده است. چه نوع خطاهایی نسبت به سایرین قابل تحمل تر هستند ما مدلی می خواهیم که خطای آموزشی را به حداقل برساند و الگوریتم انتخابی ما با پارامترهای آزاد برای رسیدن به این هدف مطابقت داشته باشد.

یک مدل با عملکرد بالا برای موفقیت به چندین ویژگی نیاز دارد. اول از همه، شما به ویژگی های آموزنده نیاز دارید که در واقع نشان دهنده تفاوت کلاس ها با کلاس های دیگر باشد. برای کارهایی که می‌دانیم انسان‌ها می‌توانند به خوبی انجام دهند، می‌دانیم که داده‌های ورودی لازم را داریم. به عنوان مثال، اگر هدف تقریبی توانایی یک متخصص قلب در خواندن نوار قلب باشد، می‌توان مطمئن بود که خود ECG شامل تمام ویژگی‌هایی است که برای طبقه‌بندی صحیح لازم است. اما برای مشکلات طبقه بندی چالش برانگیزتر، مانند تشخیص موارد MI از گروه شاهد، درک محدود ما از پاتوژنز بیماری، جمع آوری تمام اطلاعات مورد نیاز برای طبقه بندی دقیق را بعید می سازد.

حتی اگر در حال جمع‌آوری ورودی‌های مورد نیاز هستیم، همچنان به برخی عملکردها برای ترکیب آنها برای رسیدن به وظیفه مورد نظر نیاز داریم. برای کارهای پیچیده یادگیری، ممکن است به انعطاف‌پذیری قابل‌توجهی در نحوه استفاده از ویژگی‌ها نیاز داشته باشیم، زیرا مدل‌های افزودنی ساده بعید است که به جدایی مؤثر بین موارد و نه کنترل‌ها دست یابند. اغلب در مورد اینکه دسته خاصی از عملکردها چقدر “بیانگر” صحبت می کنند، که معمولاً شامل تغییر یا ترکیب درجه بالاتری از ویژگی ها برای انجام وظایف یادگیری پیچیده است.

ما دو ویژگی وابسته به هم را توصیف کرده‌ایم – ویژگی‌های اطلاعاتی و عملکردهای بیانی – برای دستیابی به خطای آموزشی کم. اما به حداقل رساندن خطای آموزشی کافی نیست. در واقع، کاری که ما دوست داریم بتوانیم انجام دهیم این است که پیش‌بینی/طبقه‌بندی عالی برای افرادی انجام دهیم که قبلاً هرگز ندیده‌ایم. برای ارزیابی این توانایی تعمیم، باید برخی از داده‌ها را ذخیره کنیم که هرگز برای ارزیابی “خطای تست” خود به آنها نگاه نکرده‌ایم. چنین داده‌های آزمایشی نباید برای هیچ جنبه‌ای از فرآیند یادگیری ماشین، از جمله انتخاب ویژگی یا عادی‌سازی داده‌ها استفاده شده باشد. در حالت ایده‌آل، ما می‌خواهیم مطمئن باشیم که اگر مدلی با خطای آموزشی کم ساخته‌ایم، تضمینی خواهیم داشت که خطای تست پایینی نیز دارد. در غیر این صورت ممکن است به‌طور کاذب و شاید به‌طور خطرناکی تحت تأثیر توانایی پیش‌بینی خودمان قرار بگیریم.

مقدار قابل توجهی از تئوری برای یادگیری ماشین وجود دارد که مرزهایی را برای شباهت بین خطای آموزش و خطای تست ایجاد می کند. اگرچه ریاضیات مفصل است، پیام کاملاً ساده است: مدل‌هایی که بسیار پیچیده هستند (از جمله آنهایی که دارای تعداد زیادی ویژگی هستند) ممکن است در به حداقل رساندن خطای آموزشی بهتر عمل کنند، اما معمولاً برای تعداد معینی از نمونه‌های آموزشی تعمیم ضعیفی دارند. تمایل به بیش از حد برازش با داده ها دارند. نتیجه این امر این است که اگر به پیچیدگی مدل بالایی نیاز دارید تا بتوانید پیش‌بینی دقیقی در مجموعه آموزشی خود داشته باشید، به نمونه‌های آموزشی بسیار بسیار بیشتری نیاز خواهید داشت تا اطمینان حاصل کنید که به خوبی به افراد نادیده قبلی تعمیم می‌دهید.

بنابراین یک معاوضه بین پیچیدگی مدل و قابلیت تعمیم به مجموعه داده های جدید وجود دارد. یک راه حل این است که به سادگی ویژگی های کمتری داشته باشید و مدلی کمتر بیانگر داشته باشید. اما در این صورت ممکن است با یک مدل بی کیفیت و با دقت ضعیف روی مجموعه آموزشی به خودمان آسیب بزنیم. به عنوان یک جایگزین، متخصصان یادگیری ماشین به استفاده از مدل‌های انعطاف‌پذیر ادامه می‌دهند، اما خود را به دلیل پیچیدگی بیش از حد مانند داشتن پارامترهای آزاد بیش از حد یا اجازه دادن به طیف وسیعی از مقادیر برای این پارامترها جریمه می‌کنند – فرآیندی که به نام “قانونی‌سازی” شناخته می‌شود. این ممکن است به این معنی باشد که دقت در مجموعه آموزشی ممکن است کمی آسیب ببیند، اما مزیت آن عملکرد بهتر در داده‌های تست خواهد بود.

با توجه به منوی متنوع الگوریتم‌های یادگیری ماشین و مدل‌های داده، آیا می‌توانیم راهنمایی‌هایی پیدا کنیم که در یک موقعیت یا موقعیت دیگر بهترین کار را انجام دهند؟ به عنوان یک قاعده کلی، بهترین راه حل شامل برازش مدلی است که با مدل اصلی که داده ها را تولید می کند مطابقت داشته باشد. متأسفانه، ما معمولاً نمی‌دانیم آن مدل اساسی چیست. یک راه حل تجربی این است که تعدادی الگوریتم را امتحان کنید و مطمئن شوید که داده های آزمایشی را کنار بگذارید تا عملکرد را ارزیابی کنید. اما این می تواند زمان بر باشد، به خصوص اگر برخی از رویکردها بعید است که از قبل به خوبی کار کنند. بسیاری از شاغلین یادگیری ماشینی مجموعه ابزاری از رویکردهای استخراج ویژگی و پیش پردازش و همچنین زیرمجموعه ای از الگوریتم های یادگیری تحت نظارت و بدون نظارت دارند که با آن احساس راحتی می کنند و به آن بازمی گردند. وقتی داده‌های آموزشی محدود است، اینها اغلب شامل مدل‌های ساده‌تر با منظم‌سازی می‌شوند، مانند اشکال جریمه‌شده رگرسیون خطی و لجستیک. اینها ممکن است به خطای آموزشی کم مانند مدل های پیچیده منجر نشوند (از اصطلاح تعصب بالا استفاده می شود) اما تمایل دارند به خوبی تعمیم دهند (واریانس کم). وقتی داده‌های آموزشی فراوان هستند و مدل اساسی احتمالاً از عدم افزودن و تعاملات پیچیده بین ویژگی‌ها ناشی می‌شود، رویکردهای نمونه مانند k-نزدیک‌ترین همسایه یا الگوریتم‌های درخت تصمیم (مانند تقویت درخت گرادیان تصادفی 12،13 یا جنگل تصادفی 14، که در زیر مورد بحث قرار می‌گیرد) می تواند به خوبی کار کند. برخی از الگوریتم‌ها مانند ماشین‌های بردار پشتیبان غیرخطی15 می‌توانند در موقعیت‌های مختلف بسیار قوی باشند، حتی در جایی که تعداد ویژگی‌های پیش‌بینی در مقایسه با تعداد نمونه‌های آموزشی بسیار زیاد است، وضعیتی که اغلب برازش بیش از حد اتفاق می‌افتد. در نهایت، با پذیرش محدودیت‌های هر کلاس از الگوریتم‌ها، برخی از متخصصان از فرآیندی به نام ترکیب، ادغام خروجی‌های چندین الگوریتم مختلف استفاده می‌کنند (همچنین در زیر بحث شده است).

در نهایت، برای چالش‌برانگیز کردن مشکلات پیش‌بینی، به این معنی است که باید تلاش قابل‌توجهی برای جمع‌آوری هرچه بیشتر نمونه‌های آموزشی انجام شود، که همگی با مجموعه‌ای از ویژگی‌های آموزنده مشخص می‌شوند. اگر مقدار داده‌های آموزشی مورد استفاده در مسابقات تحلیل تصویر را بررسی کنیم – که می‌تواند شامل بیش از 100000 تصویر باشد – می‌بینیم که مجموعه‌های داده‌های زیست‌پزشکی معمولی دو تا سه مرتبه کوتاه هستند، علیرغم اینکه احتمالاً یک کار یادگیری اساساً چالش‌برانگیزتر را نشان می‌دهند. . و این کمبود در مقدار داده‌های آموزشی حتی به این واقعیت نمی‌پردازد که ما معمولاً نمی‌دانیم چه ویژگی‌هایی برای درک پیچیدگی فرآیند بیماری لازم است.

در درجه اول این چالش است – جمع آوری هزاران یا نه ده ها هزار مثال آموزشی که همگی با مجموعه ای غنی از ویژگی های آموزنده (به اندازه کافی) مشخص می شوند، که سهم یادگیری ماشین را به وظایف پیچیده طبقه بندی و پیش بینی در پزشکی بالینی محدود کرده است.

رفتن به:
نمونه های گویا از یادگیری ماشینی

یادگیری تحت نظارت – یادگیری از جنگل ها و درختان


اگرچه تعداد زیادی از الگوریتم‌های یادگیری تحت نظارت توسعه یافته‌اند، اهداف آنها مشترک است: ارائه انعطاف‌پذیری کافی برای به حداقل رساندن خطای آموزشی، اما در عین حال امکان تعمیم به مجموعه‌های داده جدید، همه به روشی محاسباتی کارآمد. من یکی از این روش ها – جنگل های تصادفی – را به عنوان نمونه ای از یک الگوریتم نوآورانه و بسیار موثر برجسته می کنم.

الگوریتم جنگل‌های تصادفی،

که تقریباً 15 سال پیش توسعه یافته است، به عنوان یکی از بهترین الگوریتم‌های «خارج از قفسه» برای طبقه‌بندی موجود معرفی می‌شود. همانطور که از نام آنها پیداست، جنگل های تصادفی از درختان ساخته می شوند – به طور خاص درختان تصمیم. اجازه دهید فرض کنیم که هدف طبقه بندی افراد به دو گروه است – مانند پاسخ دهندگان استاتین یا غیر پاسخ دهندگان. ما با گروهی از مثال‌های آموزشی شامل پاسخ‌دهنده‌های شناخته شده استاتین و پاسخ‌دهنده‌های غیرپاسخ‌دهندگان، که هر کدام با مجموعه‌ای از ویژگی‌ها، مانند سن، جنس، و وضعیت سیگار کشیدن و دیابت مشخص می‌شوند، شروع می‌کنیم. اغلب ممکن است صدها یا هزاران ویژگی در دسترس باشد. ما یک سری (“گروه”) از درخت های تصمیم می سازیم که هر کدام به دنبال استفاده از این ویژگی های پیش بینی برای تمایز بین دو گروه ما هستند. در هر گره در هر درخت، یک ویژگی انتخاب می شود که به بهترین نحو این تقسیم را به دست می آورد. از آنجایی که بعید است که یک متغیر منفرد کافی باشد، گره‌های بعدی برای دستیابی به جدایی کامل‌تر مورد نیاز هستند. یک تفاوت قابل توجه بین هر درخت این است که هر درخت فقط به زیرمجموعه‌ای از نمونه‌های آموزشی دسترسی دارد – مفهومی که به نام “کیسه‌بندی” شناخته می‌شود. علاوه بر این، در هر گره، تنها زیر مجموعه ای از ویژگی ها در نظر گرفته می شود. تصادفی به دست آمده به هر درخت اجازه می دهد تا رای مستقلی در مورد طبقه بندی نهایی بدهد و به عنوان وسیله ای برای منظم سازی عمل می کند. حتی اگر بعید است که هر درخت به تنهایی دقیق باشد، رأی اکثریت نهایی در میان صدها درخت بسیار دقیق است.


برای نشان دادن برخی از نکاتی که در اینجا به آنها پرداخته شده است، بر چهار مثال از یادگیری ماشین در پزشکی تمرکز خواهم کرد که طیف وسیعی از رویکردهای نظارت شده و بدون نظارت را پوشش می دهد. دو مورد از این موارد بر بیماری های قلبی عروقی و دو مورد بر روی سرطان تمرکز دارند.

جنگل های تصادفی موفقیت باورنکردنی در رشته های مختلف یادگیری داشته اند

و در مسابقات یادگیری ماشین عملکرد خوبی داشته اند. Ishwaran، Lauer و همکاران، جنگل‌های تصادفی را برای تجزیه و تحلیل داده‌های بقا تطبیق دادند – و به درستی رویکرد آنها را “جنگل‌های بقای تصادفی (RSF)” نامیدند. آنها از یک متغیر باینری برای مرگ استفاده کردند و روش خود را برای مشکلات مختلفی از جمله پیش‌بینی بقا در نارسایی سیستولیک قلب و در زنان یائسه به کار بردند. در مثال دوم، آنها 33144 زن را در کارآزمایی‌های ابتکاری سلامت زنان بررسی کردند و متغیرهای بالینی و جمعیت‌شناختی مرسوم و همچنین 477 بیومارکر ECG را در نظر گرفتند. آنها از RSF برای ساخت یک مدل بقا استفاده کردند – و 20 متغیر پیش بینی کننده مرگ و میر طولانی مدت، از جمله 14 نشانگر زیستی ECG را شناسایی کردند. مدل‌هایی که با استفاده از این زیرمجموعه کاهش‌یافته از ویژگی‌ها ساخته شده‌اند،

عملکرد بهبود یافته‌ای را هم در داده‌های آموزشی و هم در مجموعه‌ای از آزمون‌ها نشان می‌دهند. جالب توجه است، هنگامی که زیرمجموعه 20 متغیر انتخاب شد، یک مدل افزودنی ساده (نسخه منظم مدل خطرات متناسب کاکس) به همان اندازه RSF در طبقه‌بندی بیماران عمل کرد، که نشان می‌دهد یکی از مزایای اصلی RSF در انتخاب ویژگی بود. بسیاری از این متغیرها در واقع پیش از این هرگز در پیش بینی مرگ و میر دخیل نبودند.

چرا این رویکرد تکرار نشده و در مدل های ریسک رایج گنجانده نشده است؟ دلیل اصلی ممکن است این باشد که عملکرد RSF در واقع پایین‌تر از عملکردی است که معمولاً در امتیاز ریسک فرامینگهام مشاهده می‌شود، علی‌رغم این واقعیت که دومی متغیرهای کمتر و مدل ساده‌تری را شامل می‌شود. چگونه می تواند باشد؟

اگرچه حجم نمونه بزرگ در مقایسه با بسیاری از مطالعات اپیدمیولوژیک رشک‌برانگیز بود، اما قیمت بالایی داشت. بسیاری از متغیرها توسط خود گزارش شده بودند و بیشتر نشانگرهای زیستی خون وجود نداشتند، احتمالاً به این دلیل که هزینه انجام فنوتیپ دقیق در چنین گروه بزرگی گران است.

به طور قابل توجهی معیارهای کلسترول، از جمله کلسترول تام و کلسترول LDL وجود نداشت. نویسندگان همچنین قادر به یافتن یک مجموعه داده خارجی برای تکرار نشدند، زیرا تعداد کمی از گروه‌ها متغیرهای کمی ECG را اندازه‌گیری کردند. بنابراین علیرغم ارائه یک کاربرد جدید از یک الگوریتم عالی، مزایای مطالعه با نداشتن مجموعه داده‌های آموزشی و آزمایشی با مجموعه‌ای جامع از ویژگی‌های اطلاعاتی، از جمله تمام مواردی که قبلاً برای این کار پیش‌بینی مهم بودند، محدود شد.


C-Path: یک آسیب شناس خودکار و اهمیت استخراج ویژگی


همانطور که در بالا مشخص شد، انتخاب ویژگی برای یادگیری ماشینی مرکزی است. بدون پیش‌بینی‌کننده‌های اطلاعاتی کافی، با وجود الگوریتم‌های پیچیده، بعید به نظر می‌رسد که پیشرفت کنیم. یک مثال اخیر از زمینه آسیب شناسی سرطان پستان به ویژه نشان می دهد که چه زمانی رویکردهای یادگیری ماشین ممکن است موفق شوند و چه زمانی بعید است که به شیوه های بالینی مرسوم فعلی مزیت اضافه کنند.

کولر و همکارانش در دانشگاه استنفورد بر روی بهبود شناسایی موارد سرطان پستان پرخطر با استفاده از نمونه‌های پاتولوژیک تمرکز کردند – ابزاری به نام C-Path21 (شکل 2) توسعه دادند. بسیاری از خواص بافت شناسی نامطلوب تومورهایی که امروزه استفاده می شوند مانند توبول ها و هسته های آتیپیک ده ها سال پیش شناسایی شده بودند. با این حال، به جای ترکیب ساده اینها با استفاده از الگوریتم‌های جدید، C-Path یک گام بیشتر به عقب برداشت و بر شناسایی ویژگی‌های جدید با استفاده از پردازش خودکار تصویر متمرکز شد.

C-Path ابتدا طبقه‌بندی‌کننده‌ای ایجاد کرد که می‌توانست بین بخش‌های اپیتلیال و استرومایی تومور تمایز قائل شود (شکل 2A-B). سپس مجموعه‌ای از ویژگی‌های کمی غنی از 6642 پیش‌بینی‌کننده را از این مناطق به دست آورد که به طور جداگانه و با هم مورد بررسی قرار گرفتند، و «اشیاء» اپیتلیال و استرومایی و روابط آنها، مانند خواص هسته‌ها (اندازه، مکان، فاصله) و روابط بین هسته‌ها و سیتوپلاسم در اپیتلیوم را برجسته کرد. و استروما (شکل 2C). سپس از این ویژگی‌ها برای ساخت مدلی برای پیش‌بینی بقا استفاده شد، که عملکرد عالی را در دو مجموعه داده آزمایشی مستقل، برتر از آنچه توسط آسیب‌شناسان جامعه به دست آمده بود، نشان داد. علاوه بر این، نمرات C-Path به طور قابل توجهی با بقای 5 ساله بالاتر و فراتر از همه عوامل بالینی و مولکولی تعیین شده مرتبط بود (شکل 2D).


مروری بر خط لوله پردازش تصویر C-Path و روش ساخت مدل پیش آگهی. الف. پردازش تصویر اولیه و ساخت ویژگی. ب. ساخت طبقه بندی کننده اپیتلیال-استرومایی. طبقه‌بندی‌کننده مجموعه‌ای از تصاویر میکروسکوپی سرطان سینه را به عنوان ورودی می‌گیرد که تحت پردازش تصویر اولیه و ساخت ویژگی قرار گرفته‌اند و دارای زیرمجموعه‌ای از سوپرپیکسل‌هایی هستند که توسط آسیب‌شناس به‌عنوان اپیتلیوم (قرمز) یا استروما (سبز) برچسب‌گذاری شده‌اند. برچسب های سوپرپیکسل و اندازه گیری ویژگی ها به عنوان ورودی به یک الگوریتم یادگیری نظارت شده برای ساخت یک طبقه بندی کننده اپیتلیال-استرومایی استفاده می شود.

سپس طبقه‌بندی‌کننده بر روی تصاویر جدید اعمال می‌شود تا سوپرپیکسل‌ها را به عنوان اپیتلیوم یا استروما طبقه‌بندی کند. ج. ساختن ویژگی های زمینه ای/رابطه ای سطح بالاتر. پس از استفاده از طبقه‌بندی‌کننده استرومای اپیتلیال، تمام اجسام تصویر بر اساس ناحیه بافتی و ویژگی‌های مورفولوژیکی اولیه سلولی زیر طبقه‌بندی و رنگ‌بندی می‌شوند. (پانل سمت چپ) پس از طبقه بندی هر شیء تصویر، یک مجموعه ویژگی غنی ساخته می شود. D.

یادگیری یک مدل مبتنی بر تصویر برای پیش بینی بقا. تصاویر پردازش شده از بیماران زنده در 5 سال پس از جراحی و از بیماران فوت شده در 5 سال پس از جراحی برای ساخت یک مدل پیش آگهی مبتنی بر تصویر استفاده شد. پس از ساخت این مدل، آن را به مجموعه آزمایشی از تصاویر سرطان سینه (که در ساخت مدل استفاده نمی‌شود) اعمال کردند تا بیماران را به عنوان خطر مرگ بالا یا پایین تا 5 سال طبقه‌بندی کنند. از Beck et al, Sci Transl Med. 2011؛ ​​3:108ra113. تجدید چاپ با اجازه از AAAS.

تجربه C-Path به چند دلیل آموزنده بود. شاید مهم ترین درس این بود که ویژگی های جدید آموخته شده برای بهبود عملکرد ضروری هستند – نمی توان به سادگی ویژگی های تثبیت شده را در یک بسته بندی الگوریتمی جدید قرار داد و انتظار طبقه بندی برتر را داشت. علاوه بر این، بسیاری از ویژگی‌های پیش‌بینی‌کننده که توسط C-Path آموخته شد، علی‌رغم چندین دهه بررسی اسلایدهای سرطان پستان توسط آسیب‌شناسان، کاملاً جدید بودند. بنابراین یکی از کمک‌های اصلی یادگیری ماشین، اتخاذ رویکردی بی‌طرفانه برای شناسایی متغیرهای اطلاعاتی غیرمنتظره است. دومین درسی که باید یاد گرفت این است که الگوریتم نهایی مورد استفاده برای طبقه بندی، یک شکل منظم از رگرسیون لجستیک به نام “کند”22، در واقع بسیار ساده بود اما همچنان نتایج عالی ایجاد کرد. الگوریتم‌های ساده می‌توانند به همان خوبی الگوریتم‌های پیچیده‌تر در دو حالت عمل کنند: زمانی که رابطه اساسی بین ویژگی‌ها و خروجی ساده است (مثلاً افزودنی) یا زمانی که تعداد نمونه‌های آموزشی کم است، و بنابراین مدل‌های پیچیده‌تر احتمالاً بیش از حد برازش می‌کنند و تعمیم می‌یابند. ضعیف اگر کسی واقعاً به مزایای مدل‌های پیچیده‌تر مانند مدل‌هایی که تعاملات با ابعاد بالا را ثبت می‌کنند نیاز دارد، باید روی جمع‌آوری داده‌های آموزشی کافی و متنوع تمرکز کند تا امیدی به ساخت یک طبقه‌بندی مؤثر داشته باشد. در نهایت، نویسندگان C-Path دریافتند که موفقیت مدل آنها به شدت به توانایی در ابتدا متمایز کردن اپیتلیوم و استروما بستگی دارد. از آنجایی که بعید است که ماشینی به تنهایی به نیاز این مرحله برسد، این نیاز به تخصص انسانی حوزه خاص برای هدایت فرآیند یادگیری را برجسته می کند.

اگرچه تجزیه و تحلیل نمونه های آسیب شناسی نقش محدودی در قلب و عروق بالینی ایفا می کند، می توان تصور کرد که این رویکرد استخراج ویژگی مبتنی بر داده را به سایر انواع غنی از اطلاعات، مانند تصاویر MRI قلبی یا الکتروگرام، تعمیم دهیم.

رفتن به:
متاژن های جذب کننده در سرطان و نتایج در یادگیری ماشینی
دومین مثال یادگیری ماشینی در زیست‌شناسی سرطان، نشان‌دهنده تعامل بین یادگیری بدون نظارت و نظارت است و مفهوم «ترکیب» را برای بهبود مدل‌های پیش‌بینی معرفی می‌کند.

با توجه به فراوانی الگوریتم‌های یادگیری و این واقعیت که برخی از رویکردها برای مسائل خاص مناسب‌تر هستند، جامعه یادگیری ماشین ایده مسابقات را پذیرفته است. در این الگوریتم «پخت‌آف»، به افراد یا گروه‌های متعدد داده‌های آموزشی مشابهی داده می‌شود و از آنها خواسته می‌شود مدل‌های پیش‌بینی را توسعه دهند، که به نوبه خود در یک مجموعه آزمون مستقل ارزیابی می‌شوند. یک نسخه بسیار برجسته از این جایزه بزرگ نتفلیکس 1,000,000 دلاری 23,24 بود که در آن پول به گروهی تعلق می گرفت که می توانست بیشتر پیش بینی اولویت های فیلم را بر اساس رتبه بندی های گذشته بهبود بخشد. چنین رقابت‌هایی تأثیر فوق‌العاده مفیدی بر حوزه یادگیری ماشین داشته است، از جمله تضمین شفافیت و تکرارپذیری، تشویق به اشتراک‌گذاری روش‌ها، و اجتناب از خطر «تعدیل» تحلیلی توسط محققین برای رسیدن به نتیجه مطلوب. رقابت‌های مشابهی در جامعه زیست‌شناسی ظاهر شده است.

چالش اخیر Sage Bionetworks-DREAM Breast Prognosis Cancer Challenge (BCC) نمونه ای از نوید این نوع رویکرد برای پزشکی بالینی است. BCC یک چالش باز برای ساخت مدل‌های پیش‌بینی‌کننده سرطان پستان بر اساس داده‌های ژنومی، بالینی و نتایج بقا از نزدیک به 2000 بیمار بود.

بیش از 350 گروه از 35 کشور شرکت کردند و مدل‌های پیش‌بینی‌کننده برای پیامدهای بقا تولید کردند، که بر روی یک مجموعه اعتبارسنجی جدید از 184 بیمار ارزیابی شدند. جالب توجه است که مدل برنده 27 تا حدی از ویژگی های ژنومی شناسایی شده از طریق استفاده از یادگیری بدون نظارت برای سرطان های کاملاً نامرتبط ساخته شده است. نویسندگان قبلاً الگوریتمی به نام «متاژن های جذب کننده» 28 توسعه داده بودند که خوشه هایی از ژن ها را شناسایی می کرد که شباهت های مشترکی را در بین نمونه های تومور متعدد داشتند. بسیاری از این خوشه‌ها با فرآیندهای بیولوژیکی ضروری برای پیشرفت سرطان مانند “ناپایداری کروموزومی” و “انتقال مزانشیمی” مطابقت دارند. نویسندگان وجود یا عدم وجود این ویژگی‌ها را همراه با سایر متغیرهای بالینی در مدل‌های مختلف پیش‌بینی برای پیامدهای سرطان سینه گنجانده‌اند. از آنجایی که الگوریتم‌های یادگیری مختلف ممکن است کم و بیش برای پیش‌بینی پیامدها برای انواع خاصی از بیماران مؤثر باشند، نویسندگان از چندین الگوریتم یادگیری تحت نظارت مختلف استفاده کردند و خروجی هر الگوریتم را در یک پیش‌بینی نهایی نتایج بقا ترکیب کردند (شکل 3).


شماتیک توسعه مدل برای پیش بینی خطر سرطان پستان.

بلوک دیاگرام هایی نشان داده شده است که مراحل توسعه را برای مدل پیش آگهی گروه نهایی توصیف می کند. ساخت یک مدل پیش‌آگهی شامل استخراج ویژگی‌های مرتبط، آموزش زیرمدل‌ها و پیش‌بینی‌ها و ترکیب پیش‌بینی‌ها از هر زیرمدل است. این مدل متاژن‌های جذب‌کننده را با استفاده از داده‌های بیان ژن استخراج کرد، آنها را با اطلاعات بالینی از طریق رگرسیون کاکس، ماشین تقویت گرادیان و تکنیک‌های k نزدیک‌ترین همسایه ترکیب کرد و در نهایت پیش‌بینی هر مدل فرعی را با هم ترکیب کرد. از چنگ و همکاران، Sci Transl Med. 2013؛ 5:181ra50. تجدید چاپ با اجازه از AAAS.

چندین جنبه آموزنده از این مسابقه پدید آمد. اولین مورد این است که یادگیری بدون نظارت می تواند به عنوان وسیله ای برای انتخاب ویژگی دیده شود، زیرا می تواند امکان کشف توصیفگرهای بیولوژیکی قوی را فراهم کند، که سپس می تواند در یک مدل نظارت شده برای پیش بینی بیماری استفاده شود. درس دوم این است که مجموعه‌ای از الگوریتم‌های یادگیری مختلف توانستند یک پیش‌بینی برتر از هر الگوریتم به تنهایی ایجاد کنند. ثالثاً، مدل‌هایی که از متغیرهای ژنومی و بالینی استفاده می‌کردند، به تنهایی از هر یک از انواع داده‌ها پیشی گرفتند. در نهایت، یادگیری از داشتن نزدیک به 2000 مجموعه داده برای آموزش و اعتبار سنجی و همچنین یک چارچوب شفاف که به اشتراک گذاری کد را امکان پذیر می کرد و به شرکت کنندگان بازخورد دائمی در مورد عملکرد آنها می داد، سود برد.


یادگیری بدون نظارت در HFpEF: به سمت پزشکی دقیق؟

نارسایی قلبی با کسر جهشی حفظ شده (HFpEF) یک وضعیت بسیار ناهمگن و بدون درمان اثبات شده است. یکی از احتمالات عدم موفقیت کارآزمایی بالینی در HFpEF این است که بیماران ثبت نام شده چندین فرآیند پاتوفیزیولوژیک غالب را منعکس می کنند، که همه آنها به یک عامل پاسخ نمی دهند. آیا می توان چنین فرآیندهایی را شناسایی کرد؟ اگرچه برخی استفاده از ژنتیک را برای تعریف مجدد دقیق بیماری ها پیشنهاد کرده اند، بعید است که تنوع ژنتیکی به طبقه بندی شرایط پیچیده مانند HFpEF کمک کند، جایی که به احتمال زیاد صدها عامل ژنتیکی ضعیف با یکدیگر و محیط به روشی غیرقابل پیش بینی برای ایجاد فنوتیپ های بیماری در تعامل هستند. .

ما بر استفاده از یادگیری بدون نظارت برای طبقه بندی بیماران HFpEF تمرکز کردیم.

همانطور که در بالا ذکر شد، یادگیری بدون نظارت به دنبال یافتن ساختار داخلی در داده ها است. از چارچوبی مشابه به عنوان یادگیری تحت نظارت شروع می‌شود، با نمونه‌هایی (بیماران در این مورد) که هر کدام با یک بردار ویژگی مشخص می‌شوند، که در آن مقادیر برای ویژگی‌های خاصی مانند قد، جنس و سن داده می‌شود. این داده ها را می توان به راحتی با یک ماتریس نشان داد (شکل 1A). اما به جای استفاده از این ماتریس برای یادگیری مدلی که ویژگی‌ها را به نتایج مرتبط می‌کند، در عوض از آن برای یافتن گروهی از بیماران مشابه یکدیگر استفاده می‌کنیم. برای این منظور می توان از چندین الگوریتم استفاده کرد.

شاید ساده‌ترین آنها خوشه‌بندی سلسله مراتبی تجمعی باشد که ابتدا افرادی را که بیشترین شباهت را به یکدیگر دارند، جمع‌آوری می‌کند و سپس جفت‌های مشابه و غیره و غیره را با هم ادغام می‌کند. دسته دیگری از الگوریتم‌های یادگیری بدون نظارت، از جمله تجزیه و تحلیل مؤلفه‌های اصلی و فاکتورسازی ماتریس غیرمنفی30، تجزیه ماتریس را انجام می‌دهند و ماتریس ویژگی بیمار را به محصولی از دو ماتریس تبدیل می‌کنند: یکی که ویژگی‌های مشابه را به ویژگی‌های فوق‌العاده در کنار هم قرار می‌دهد (ما به این می‌گوییم. کاهش ابعاد) و دومی که هر بیمار را با بردار وزن های اعمال شده برای این ویژگی های فوق العاده توصیف می کند. سپس بیماران بر اساس شباهت بردارهای وزن آنها گروه بندی می شوند. مجموعه دیگری از روش‌های یادگیری بدون نظارت، مانند خوشه‌بندی k-medoids31 و الگوریتم متاژن‌های جذب‌کننده28، سعی می‌کنند نمونه‌های آموزشی متمایز (یا ترکیبی) را پیدا کنند که در اطراف آن نمونه‌های داده دیگر را گروه‌بندی کنند. نمونه های درون یک خوشه باید بیشتر به یکدیگر شبیه باشند تا نمونه های دیگر خوشه ها.

کدگذاری پراکنده نشان دهنده پیشرفت اخیر در زمینه یادگیری بدون نظارت است. در اصل برای کمک به حوزه بینایی کامپیوتری 32 ابداع شد که شامل جمع‌آوری، پردازش و تفسیر خودکار تصاویر است و بر کارهایی مانند تشخیص چهره و تفسیر متن دست‌نویس تمرکز می‌کند. اعتقاد بر این است که کدگذاری پراکنده منعکس کننده روشی است که در آن قشر بینایی به محرک ها پاسخ می دهد. به جای اینکه تعداد زیادی نورون های قشری توسط هر تصویر فعال شوند، اصل پراکندگی تعداد بسیار کمی از نورون ها را با یک جنبه بسیار خاص تر و مرتبه بالاتر از تصویر، مانند لبه یک شی گرا در یک تصویر هماهنگ می کند. جهت خاص پیشرفت‌های الگوریتمی به رایانه‌ها این امکان را می‌دهد که مجموعه‌ای از ویژگی‌های مرتبه بالاتر را از تصاویر آموزشی بیاموزند و سپس تصاویر آزمایشی را به عنوان ترکیبی از این ویژگی‌ها تفسیر کنند. با داده های آموزشی کافی، رایانه ها می توانند کارهای پیچیده ای مانند تمایز بین انواع مختلف مواد غذایی را انجام دهند (https://www.metamind.io/vision/food). علاوه بر تشخیص تصویر، کدگذاری پراکنده با موفقیت در پردازش زبان طبیعی اعمال شده است. ما بعداً بحث خواهیم کرد که آیا چنین رویکردهایی ممکن است در طبقه بندی بیماران برای اهداف پزشکی دقیق مورد استفاده قرار گیرند.

در تجزیه و تحلیل خود از HFpEF، ما علاقه مند به گروه بندی بیماران بر اساس متغیرهای کمی اکوکاردیوگرافی و بالینی بودیم. با شروع با 67 ویژگی متنوع، ویژگی‌های بسیار همبسته را حذف کردیم تا 46 پیش‌بینی‌کننده حداقل اضافی باقی بمانیم (شکل 4A). ما از یک شکل منظم از خوشه‌بندی مبتنی بر مدل استفاده کردیم، که در آن از توزیع‌های گاوسی چند متغیره برای تعریف هر خوشه بیمار بر اساس میانگین و انحراف استاندارد اختصاص داده شده به هر ویژگی استفاده شد. برای دستیابی به صرفه‌جویی، منظم‌سازی برای انتخاب تعداد بهینه خوشه‌های بیمار و همچنین تعداد پارامترهای آزاد متناسب در تعریف هر خوشه استفاده شد (شکل 4B). بیماران بر اساس محاسبه احتمال مشترک در همه ویژگی‌ها و انتخاب خوشه‌ای با بیشترین احتمال عضویت برای هر بیمار به خوشه‌هایی اختصاص داده شدند. مقایسه گروه‌های حاصل تفاوت‌هایی را در طیف وسیعی از متغیرهای فنوتیپی نشان داد. مشابه برنده جایزه BCC، ما از خوشه‌های فنوتیپی خود به عنوان ویژگی‌هایی در یک مدل یادگیری نظارت‌شده برای پیش‌بینی بقای بیماران HFpEF استفاده کردیم و دریافتیم که آنها بر روی مدل‌های بالینی که معمولاً برای ارزیابی خطر استفاده می‌شوند، هم در مجموعه آموزشی ما و هم در یک آزمایش مستقل، بهبود می‌بخشند. مجموعه (شکل 4C).

یک فایل خارجی که دارای یک تصویر، تصویر و غیره است.
نام شیء nihms729905f4.jpg است
شکل 4
استفاده از یادگیری بدون نظارت در HFpEF. الف. نقشه حرارتی فنوتیپ HFpEF. ستون ها نشان دهنده شرکت کنندگان در مطالعه فردی هستند. ردیف ها، ویژگی های فردی ب- تجزیه و تحلیل معیار اطلاعات بیزی برای شناسایی تعداد بهینه خوشه های فنوتیپی (فنو-گروه). ج. بقای بدون بستری قلبی عروقی (CV) یا مرگ طبقه بندی شده توسط خوشه فنوتیپی.

منحنی‌های کاپلان مایر برای نتیجه ترکیبی بستری شدن در بیمارستان نارسایی قلبی، بستری شدن در بیمارستان قلبی عروقی یا مرگ طبقه‌بندی شده توسط خوشه فنوتیپی.

نیازی به گفتن نیست که این فقط یک شروع است. کاربرد هر گونه طبقه‌بندی باید در مدل‌های بقا در گروه‌های دیگر تأیید شود، به‌ویژه به این دلیل که تعاریف خوشه‌ای همگی به این بستگی دارند که کدام ویژگی انتخاب شده و کدام الگوریتم یادگیری استفاده می‌شود. مهمتر از آن، ما می‌خواهیم از چنین طبقه‌بندی برای بررسی مجدد آزمایش‌های بالینی شکست‌خورده در HFpEF مانند TOPCAT36 استفاده کنیم تا ببینیم آیا هر یک از گروه‌هایی که تعریف کردیم، زیرمجموعه‌ای از بیماران را شناسایی می‌کنند که ممکن است از درمان‌های خاص سود ببرند یا خیر.

رفتن به:
بحث
بر اساس مثال‌های بالا، واضح است که یادگیری ماشین – چه تحت نظارت و چه بدون نظارت – می‌تواند در مجموعه داده‌های بالینی به منظور توسعه مدل‌های ریسک قوی و تعریف مجدد کلاس‌های بیمار اعمال شود. این تعجب آور نیست، زیرا مشکلات در طیف وسیعی از زمینه ها، از امور مالی گرفته تا نجوم تا زیست شناسی، می تواند به آسانی به وظیفه پیش بینی نتایج از ویژگی های مختلف یا یافتن الگوهای تکرار شونده در مجموعه داده های چند بعدی کاهش یابد. پزشکی نباید استثنا باشد. با این حال، با توجه به ردپای محدود بالینی یادگیری ماشینی، برخی موانع باید بر سر راه ترجمه وجود داشته باشد.

برخی از این موارد ممکن است به مسائل عملی مرتبط با صنعت پزشکی، از جمله بازپرداخت و مسئولیت مربوط باشد. به عنوان مثال، سیستم بهداشتی ما تمایلی ندارد که به طور کامل به یک ماشین کاری را بسپارد که یک انسان بتواند با دقت بالاتری انجام دهد، حتی اگر صرفه جویی قابل توجهی در هزینه وجود داشته باشد. برای اینکه یادگیری ماشین در مناطقی گنجانده شود که نمی تواند به اندازه یک متخصص انسانی دقت بالایی را نوید دهد، باید راه هایی برای پزشکان وجود داشته باشد تا با سیستم های کامپیوتری برای حفظ دقت و در عین حال افزایش توان عملیاتی و کاهش هزینه ها تعامل داشته باشند. به عنوان مثال، می توان یک سیستم خودکار را تصور کرد که از حساسیت بسیار بالایی برخوردار است و از خواندن بیش از حد انسان برای افزایش ویژگی استفاده می کند. یک مدل بازپرداخت جدید برای چنین رویکرد یکپارچه انسان و ماشین مورد نیاز خواهد بود. و پزشکان باید با خطرات خطاهای پزشکی راحت باشند – که ممکن است بیشتر از سایر شرایط بالینی نباشد – اما با این وجود ممکن است به دلیل ماهیت “جعبه سیاه” سیستم خودکار احساس متفاوتی داشته باشند. ارزیابی در محل با داده های محلی برای یک دوره آزمایشی به اندازه کافی طولانی ممکن است برخی از این نگرانی ها را کاهش دهد. و اگر برای کاهش هزینه‌های پزشکی به سیستم‌های خبره بسیار دقیق مستقل تکیه کنیم، آیا سازندگان این سیستم‌ها مسئولیتی خواهند داشت؟

یک چالش نامربوط این است که آیا یک اندیکاسیون بالینی FDA به دارویی برای زیرگروهی از بیماران اعطا می شود که به روشی غیر مرتبط با مکانیسم اثر آن دارو تعریف شده است. در حالی که هدف قرار دادن یک مهارکننده کیناز خاص به سمت بیماران سرطانی با جهش محرک فعال کننده در همان کیناز ساده است، برای مثال، مشخص نیست که چگونه می‌توانیم کلاس‌های HFpEF خود را با نوع خاصی از دارو، صرف نظر از اینکه چقدر فنوتیپی دارد، توجیه کنیم. ممکن است گروه همگن باشد. شواهد تجربی از فواید درمانی نامتناسب در یک کلاس نسبت به کلاس دیگر ضروری است – اما آیا کافی است؟ من گمان می‌کنم که این ناتوانی در توجیه تطبیق یک زیرگروه بیمار با یک دارو بر اساس بیولوژیک، چالشی ذاتی برای طبقه‌بندی مجدد بیشتر بیماری‌های پیچیده باشد، زیرا این بیماری‌ها معمولاً توسط ژنتیک به تنهایی یا یک نشانگر زیستی آشکار مرتبط با مکانیسم درمانی دارو قابل تعریف نیستند. به عنوان یک راه حل، آزمایشات بالینی می تواند به اندازه کافی برای همه زیرگروه های از پیش تعریف شده ارائه شود، اما باید دید چه شواهدی برای تأیید داروی انتخابی زیرگروه مورد نیاز است.

برخی از مشکلات در پذیرش یادگیری ماشین در پزشکی نیز ممکن است به چالش های آماری واقعی در یادگیری مرتبط باشد. در آن نقطه، می‌توانیم تعدادی درس مفید از نمونه‌هایی که برجسته کردم و همچنین تجربیات گسترده‌تر جامعه یادگیری ماشین استخراج کنیم.

اول از همه، ویژگی‌های آموزنده جدیدی برای ایجاد مدل‌های بهبودیافته در پزشکی، به‌ویژه در موقعیت‌های یادگیری که رایانه صرفاً عملکرد پزشک را تقریب نمی‌کند، مورد نیاز است. صرفاً استفاده از پیش‌بینی‌کننده‌های مشابه با الگوریتم‌های نوآورانه‌تر بعید است ارزش زیادی اضافه کند. در مورد C-Path، ویژگی ها از طریق تجزیه و تحلیل تصویر خودکار به دست آمد، در حالی که در الگوریتم متاژن های جذب کننده، آنها از تجزیه و تحلیل ژنومی تومورها به وجود آمدند. در هر دو مورد، مجموعه بالقوه ویژگی های جدید ده ها هزار بود.

برای بیماری های قلبی عروقی، جایی که بافت مورد نظر به راحتی در دسترس نیست، یافتن منابع بزرگ بی طرفانه از داده های فنوتیپی با اطلاعات کافی برای توصیف روند بیماری چالش برانگیز خواهد بود. در مطالعه ما روی بیماران HFpEF، از داده های اکوکاردیوگرافی استفاده کردیم. به همین ترتیب سایر ویژگی‌ها می‌توانند از خصوصیات غیرتهاجمی بافت میوکارد و بسترهای عروقی ناشی شوند. برخی حتی امیدوارند که دستگاه های تلفن همراه ممکن است ویژگی های فنوتیپی دقیق و هزینه کمتری را برای بیماران ارائه دهند. باید دید که آیا محتوای اطلاعاتی داده‌های حاصل از تصویربرداری یا روش‌های ضبط تلفن همراه با داده‌های ژنومی (یا پروتئومی یا متابولومیک) مطابقت دارد یا خیر، با این هشدار که در مورد بیماران قلبی، چنین داده‌های omic ممکن است باید ارائه شود. از خون محیطی و نه از میوکارد یا عروق. از این نظر نسبت به سرطان شناسی در مضیقه هستیم. در غیاب دستیابی به بافت قلبی یا عروقی، دیدن مسیری برای استخراج ویژگی‌های غنی از بیولوژیکی دشوار است، مگر اینکه بتوانیم به نحوی عوامل آشفتگی ایمن را برای بررسی فعالیت‌های مسیری خاص در این اندام‌های غیرقابل دسترسی ایجاد کنیم، که سپس می‌توان آن‌ها را از طریق تصویربرداری تعیین کرد.

در موقعیتی باشیم که بتوانیم ویژگی‌های جدید را استخراج کنیم، باید به نحوی اشتهای جمع‌آوری مقادیر زیادی از داده‌های بی‌طرفانه در مورد هزاران نفر را پیدا کنیم، بدون اینکه بدانیم چنین تلاشی واقعاً مفید خواهد بود. و جمع آوری چنین داده هایی به تنهایی در گروه آموزشی کافی نخواهد بود.

همانطور که تجربه RSF نشان داد، ضروری است که همان ویژگی‌های اطلاعاتی در هر مدل امیدوارکننده در چند گروه مستقل جمع‌آوری شود تا به عنوان مجموعه‌های آزمایشی خدمت کنند.

متأسفانه، دستیابی به چنین ویژگی‌های بیولوژیکی اطلاعاتی احتمالاً پرهزینه است (برخلاف ده‌ها هزار عکس فوری دیجیتالی از گربه‌ها که به عنوان داده‌های آموزشی در برنامه‌های پردازش تصویر استفاده می‌شوند).

درس پایانی یک درس فنی است که به تعامل شکل های یادگیری بدون نظارت و تحت نظارت مربوط می شود. یادگیری عمیق، با لایه‌های انباشته از نمایش‌های مرتبه بالاتر از اشیا، دنیای یادگیری ماشینی را تحت تأثیر قرار داده است.

یادگیری عمیق از یادگیری بدون نظارت استفاده می کند تا ابتدا ویژگی های قوی را بیابد، که سپس می توان آن ها را اصلاح کرد و در نهایت به عنوان پیش بینی کننده در یک مدل نظارت شده نهایی استفاده کرد. کار ما 35 و متاژن های جذب کننده 27 هر دو نشان می دهد که چنین تکنیک هایی ممکن است برای داده های بیمار مفید باشد.

در یک نمایش یادگیری عمیق از بیماری انسانی، لایه‌های پایین‌تر می‌توانند اندازه‌گیری‌های بالینی را نشان دهند (مانند داده‌های ECG یا بیومارکرهای پروتئین)، لایه‌های میانی می‌توانند مسیرهای نابجا را نشان دهند (که ممکن است به طور همزمان روی بسیاری از نشانگرهای زیستی تأثیر بگذارد)، و لایه‌های بالایی می‌توانند نشان‌دهنده زیررده‌های بیماری باشند (که به وجود می‌آیند).

از سهم متغیر یک یا چند مسیر نابجا). در حالت ایده‌آل، چنین زیرمجموعه‌هایی بیش از طبقه‌بندی ریسک انجام می‌دهند و در واقع مکانیسم(های) بیماری غالب را منعکس می‌کنند. این یک سوال را در مورد اساس پاتوفیزیولوژیک زمینه ای بیماری پیچیده در هر فرد ایجاد می کند: آیا این بیماری به صورت پراکنده در مجموعه محدودی از مسیرهای نابجا رمزگذاری شده است،

که نارسایی قلبی می تواند توسط یک فرآیند یادگیری بدون نظارت (البته با جمع آوری ویژگی های مناسب و نمونه کافی بزرگ) بازیابی شود. اندازه)، یا این یک فرآیند پراکنده و چند عاملی با صدها عامل تعیین کننده کوچک است که به روشی بسیار متغیر در افراد مختلف ترکیب می شوند؟

در مورد دوم، مفهوم “پزشکی دقیق” بعید است که مفید باشد. با این حال، در وضعیت قبلی، یادگیری بدون نظارت و شاید عمیق ممکن است در واقع هدف گریزان طبقه‌بندی مجدد بیماران بر اساس زیرگروه‌های همگن تر، با پاتوفیزیولوژی مشترک و پتانسیل پاسخ مشترک به درمان را محقق کند.


خروج از نسخه موبایل

Notice: ob_end_flush(): failed to send buffer of zlib output compression (1) in /home/doctorar/public_html/wp-includes/functions.php on line 5309

Notice: ob_end_flush(): failed to send buffer of zlib output compression (1) in /home/doctorar/public_html/wp-includes/functions.php on line 5309