گاهی در فرایند انجام یک تحلیل علّت ریشه‌ای (Root Cause Analysis – RCA)، با وجود به‌کارگیری تمام روش‌ها و تلاش‌های لازم، امکان دستیابی به «علّت ریشه‌ای دقیق» فراهم نمی‌شود. در چنین موقعیتی، معمولاً توصیه می‌شود از یک فرد خبره برای پشتیبانی تحلیلی و طراحی اقدامات پیشگیرانه کمک گرفته شود تا از تکرار احتمالی رخداد جلوگیری گردد. با این حال، تنها اتکا به نظر یک فرد متخصص کافی نیست و لازم است اقدامات ساختاریافته‌تری انجام شود.

در شرایط واقعی، شواهد کلیدی که می‌توانند تعیین‌کننده‌ی مسیر تحلیل باشند، اغلب از دست می‌روند یا در اثر زمان، عملیات یا مداخلات بعدی تخریب می‌شوند. با وجود این محدودیت‌ها و با در نظر گرفتن فشارهای ناشی از زمان، هزینه، منابع و الزامات قانونی، همچنان لازم است اقداماتی مؤثر برای جلوگیری از تکرار خرابی صورت گیرد. هنگامی که شدت پیامدهای احتمالی بالا باشد، دیگر نمی‌توان صرفاً با رویکرد «آمادگی برای بدترین حالت و امید به بهترین نتیجه» عمل کرد؛ بلکه باید از یک چارچوب نظام‌مند و مبتنی بر کاهش ریسک استفاده شود.

در این رویکرد، تمرکز بر «محتمل‌ترین علّت» یا «مجموعه‌ای از علل محتمل» قرار می‌گیرد و این عوامل تا حد امکان کاهش داده می‌شوند (Mitigate) یا حذف می‌گردند (Eliminate). هم‌زمان، مجموعه‌ای از «دام‌های داده» (Data Traps) تعریف می‌شود؛ یعنی ابزارها، تجهیزات یا رویه‌هایی که تضمین می‌کنند در صورت وقوع مجدد رخداد، اطلاعات حیاتی و تعیین‌کننده حفظ شود و از بین نرود. این داده‌ها امکان می‌دهند که در رخداد بعدی، علّت واقعی با دقت بیشتری شناسایی و سپس تأیید (Verify) شود.

تأکید نهایی این است که هر علّتی که به‌عنوان گزینه‌ای محتمل مطرح می‌شود باید در صورت امکان، تأیید شود؛ زیرا تنها زمانی می‌توان از اثربخشی اقدامات اصلاحی اطمینان یافت که علّت واقعی شناسایی و صحه‌گذاری شده باشد.

برای یافتن سناریوی علّی که بیشترین انطباق منطقی با شواهد موجود دارد در شرایطی که داده‌ها ناقص هستند، می‌توان از یک رویکرد ساختاریافته و مرحله‌به‌مرحله استفاده کرد. در گام نخست، لازم است یک درخت خطا (Fault Tree) دقیق ترسیم شود و تمامی علل فیزیکیِ ممکن— مواردی که در نگاه اول بسیار دور از ذهن به نظر می‌رسند—در آن ثبت شود. انجام این کار معمولاً نیازمند همکاری یک تیم چندتخصصی است تا اطمینان حاصل شود هیچ مسیر بالقوه‌ای از قلم نیفتاده باشد.

در مرحله بعد، شاخه‌های درخت خطا به‌صورت نظام‌مند بررسی می‌شوند و هر شاخه‌ای که هیچ مدرک معتبر و قابل اتکایی مبنی بر وقوع گسست در توالی رویدادها ندارد، کنار گذاشته می‌شود. این روش بر حذف تدریجی گزینه‌هایی استوار است که می‌توان با اتکا به شواهد، نشان داد «علت نبوده‌اند». با ادامه این فرایند، مجموعه‌ای محدود از سناریوهای علّی باقی می‌ماند که از نظر فیزیکی و منطقی هنوز امکان وقوع دارد و هیچ مدرکی آن‌ها را رد نکرده است.

این همان منطق معروفی است که در یکی از داستان‌های شرلوک هولمز بیان شده است:
 «وقتی ناممکن‌ها حذف شوند، آنچه باقی می‌ماند— اگر بعید به نظر برسد—باید حقیقت باشد.»

مرحله‌ی حذف علت‌های نامعتبر معمولاً به‌تنهایی موجب می‌شود دامنه‌ی مسئله به‌طور قابل‌توجهی محدود شود. ممکن است همچنان نیاز باشد برخی راه‌حل‌ها با رویکرد «پراکنده‌زنی» (Shotgunning) بررسی شوند، اما این بار تحلیل جهت‌دار است و تلاش‌ها بدون هدف میان گزینه‌های متعدد پراکنده نمی‌شود. در بسیاری از موارد، همین فرایند موجب می‌شود مسئله تنها به چند سناریوی علّیِ قابل‌رسیدگی کاهش یابد؛ سناریوهایی که امکان طراحی اقدامات منطقی برای کاهش احتمال وقوع آن‌ها وجود دارد.

اگر این مرحله به‌تنهایی کافی نباشد، می‌توان برای شاخه‌هایی از درخت خطا (Fault Tree) که هیچ داده‌ای برای تأیید یا رد آن‌ها وجود ندارد و در گروه «نامشخص» قرار می‌گیرند، از داده‌های نرخ خرابی (Failure Rate Data) استفاده کرد—چه مربوط به خطای انسانی (Human Failure Rate) و چه مرتبط با خرابی تجهیزات (Hardware Failure Rate). این داده‌ها امکان می‌دهند مشخص شود کدام یک از این سناریوهای نامشخص، از نظر احتمال وقوع، اولویت بیشتری برای بررسی دقیق‌تر یا طراحی اقدام اصلاحی دارد.

اگر برای سیستم مورد بررسی یا سامانه‌های مشابه آن، داده‌های قابل‌اعتماد مربوط به نرخ خرابی (Failure Rate Data) در دسترس نباشد، می‌توان از داده‌های منتشرشده‌ای استفاده کرد که در حوزه‌ی ارزیابی ریسک و مدیریت ریسک (Risk Assessment / Risk Management) به‌کار می‌روند؛ این داده‌ها در منابع عمومی به‌طور گسترده موجود است و می‌تواند یک مبنای اولیه قابل‌قبول فراهم کند. در هر صورت، لازم است مناسب‌ترین و واقع‌بینانه‌ترین داده‌ی نرخ خرابی که امکان دسترسی به آن وجود دارد—یا می‌توان آن را به‌صورت تقریبی برآورد کرد—به‌عنوان مبنا انتخاب شود.

به‌عنوان مثال، اگر نرخ خرابی یک موتور مشخص در دسترس نباشد، می‌توان در گام نخست یک مقدار تقریبی برای زمان متوسط بین خرابی‌ها (Mean Time Between Failures – MTBF) محاسبه کرد؛ این مقدار بر اساس داده‌های عملکردی تجهیزاتی به‌دست می‌آید که در همان سایت، همان واحد یا همان کلاس تجهیز فعالیت می‌کنند. چنین برآوردی موجب می‌شود میزان قابل‌توجهی از قضاوت سلیقه‌ای (Subjectivity) حذف شود و عدد به‌دست‌آمده معمولاً دست‌کم در محدوده‌ی یک مرتبه‌ی بزرگی (Order of Magnitude) به نرخ خرابی واقعی نزدیک خواهد بود.

در ادامه، تنها کافی است محاسبات ساده‌ی احتمال انجام شود تا احتمال کلی وقوع هر یک از شاخه‌های موجود در درخت خطا (Fault Tree) به‌دست آید. بر این اساس، می‌توان یا شاخه‌هایی را که بالاترین احتمال وقوع را دارند، هدف اقدامات کاهش‌دهنده (Mitigation) قرار داد، یا آن دسته از علل و رویدادهای مشترکی را شناسایی و کنترل کرد که در چند شاخه‌ی با احتمال بالاتر به‌صورت تکرارشونده ظاهر شده‌اند.

در تحلیل ریسک (Risk Analysis) باید توجه داشت که اهمیت رویدادها معمولاً بر مبنای «مرتبه‌ی بزرگی» (Order of Magnitude) احتمال آن‌ها سنجیده می‌شود؛ بنابراین، اگر احتمال وقوع دو رویداد یا دو شاخه، حداقل به اندازه‌ی یک مرتبه‌ی بزرگی با یکدیگر تفاوت نداشته باشد، از نظر کاربردی تقریباً هم‌ارز تلقی می‌شوند. بر همین اساس، ضروری نیست نسبت به تفاوت‌هایی مانند دو خرابی در سال در مقایسه با پنج خرابی در سال حساسیت زیادی نشان داده شود؛ تفاوت واقعی زمانی اهمیت پیدا می‌کند که، برای مثال، دو بار خرابی در سال در برابر دو بار خرابی در یک دهه قرار گیرد.

با وجود اجرای این مراحل، همواره احتمال دارد اقدام اصلاحی انتخاب‌شده به‌طور کامل با علّت واقعی منطبق نباشد؛ با این حال، این رویکرد امکان می‌دهد بدون توسل به تغییرات پراکنده و بدون هدف، ریسک کلی سیستم به‌طور مؤثری کاهش یابد. در نهایت، همین کاهش ریسک، هدف اصلی در مهندسی قابلیت اطمینان (Reliability Engineering) محسوب می‌شود.

این روش در بسیاری از موارد با موفقیت مورد استفاده قرار گرفته است، به‌ویژه در شرایطی که امکان صبر کردن برای وقوع خرابی بعدی—به‌منظور تکمیل داده‌های ناقص—وجود ندارد، یا هنگامی که سازمان توان تحمل پیامدهای خرابی آینده را ندارد. در چنین موقعیت‌هایی، این رویکرد سطحی از دقت، مسئولیت‌پذیری و رسیدگی منطقی (Due Diligence) فراهم می‌کند که برای تصمیم‌گیری عملی و قابل قبول است. 

What Do You Do If You Can’t Find the Root Cause of an RCA?: https://www.lce.com/resources/what-do-you-do-if-you-cant-find-the-root-cause-of-an-rca/

Powered by Froala Editor