خطای سرور Advanced ECC

خراب شدن سرور می­تواند ناشی از خراب شدن حافظه باشد. در این صورت دسترسی و عملکرد سرویس نیز کاهش می­یابد. یک سرویس را در نظر بگیرید که شامل چندین سرور است. ممکن است سرور به خاطر خرابی در ماژول single memory خراب شود یا حتی به خاطر خطا در uncorrectable memory. برای اینکه از این اتفاقات بتوان جلوگیری کرد HPE فناوری RAS را ارائه داده است. عنوان RAS از حروف اول reliability یا قابلیت اطمینان، availability یا در دسترس بودن و serviceability یا سرویس­دهی می­آید که شامل این موارد است:

HPE Fast Fault Tolerance، Advaned ECC support، Online spare with Advanced ECC support و Mirrored memory with advanced ECC support.

به دلیل مشکلات نرم­افزاری و قطع برق همینطور خطاهای مموری ممکن است سرورها به مشکل بخورند. بعضی خطاها را می­توان اصلاح کرد، بعضی دیگر قابلیت بازیابی دارند و سایر خطاها اصلاح ناپذیر هستند. به دلیل وجود چنین خطاهایی memory RAS نیاز است.

اصولا به خطاهایی قابل اصلاح می­گویند که توسط چیپ­ست قابل شناسایی و اصلاح هستند و به طور کلی یک بیتی هستند.

تمامی سرورهای HPE خطاهای یک بیتی را تشخیص و اصلاح می­کنند و از error-correcting code(ECC) پشتیبانی می­کنند.

سیستم­های HPE، به کاربر درباره بیش از حد شدن correctable error از طریق چراغ­های روی پنل جلویی یا بورد سیستم هشدار می­دهد و یا به وسیله HPE Integrated Management Log(IML) این کار را می­کند.

 

به خطاهایی که توسط چیپ­ست شناسایی می­شوند ولی اصلاح نمی­شوند خطاهای غیر قابل اصلاح می­گویند که همیشه چند بیتی هستند. این خطاها در ILM ثبت می­شوند. این نوع خطاها را معمولا می­توان در یک DIMM جدا کرد. خطاهای غیر قابل اصلاح فورا سیستم را خراب و یا خاموش می­کنند. با پشتیبانی از سیستم عامل و پردازنده­های پیشرفته مثل سری Gold یا Platinum پردازنده­های Intel Xeon، بعضی اوقات سیستم خراب نمی­شود. به این نوع مدل خطاها، قابل بازیابی می­گویند.

 

خطاهای DRAM غالبا به دو صورت هستند:

Hard error: خطای سخت به معنای وجود مشکل در خود DIMM هست. با اینکه خطاهای قابل اصلاح سخت توسط سیستم اصلاح می­شوند، باز هم یک اشکال سخت­افزاری است. این خطاها معمولا منجر به این می­شوند که DIMM از آستانه خطاهای قابل اصلاح سیستم­های HPE فراتر برود، به کاربر درباره این موضوع هشدار داده می­شود.

Soft error: خطای نرم  بر خلاف خطای سخت ارتباطی با DIMM ندارد و زمانی اتفاق می­افتد که داده و یا بیت­های ECC روی DIMM درست نباشند، با اصلاح این خطا، دیگر ادامه نمی­یابد. این خطاها معمولا منجر نمی­شوند که DIMM از آستانه خطاهای قابل اصلاح سیستم­های HPE فراتر برود پس هیچ خبری از مشکل سخت­افزاری نیست.

 

خطاها اگر درست کنترل نشوند، می­توانند باعث خاموش شدن سیستم شوند. اوایل استفاده از سرورها با ECC می­شد بیشتر خرابی­های DRAM را رفع کرد ولی الان اوضاع متفاوت است. برای همین از ویژگی­های اضافی RAS استفاده می­شود تا پایداری و زمان­بندی مورد انتظار سرورها فراهم شود. دستگاه­های حافظه خراب شده جایگزین می­شوند. همچنین، فناوری RAS حافظه می تواند یک دستگاه DRAM را روی DIMM که دارای خطاهای نرم زیادی است، شناسایی و قبل از خرابی سخت آن را تعویض کند.

HPE Advanced ECC Support:

حالت پیشفرض برای حفاظت از مموری برای سرورهای HPE در سیستم­های ROM revision قبل از 1.5 ، مموری Advanced ECC است. در  1.5 به بعد، HPE Fast Fault Tolerance حالت پیشفرض RAS در همه پروفایل­های بجز پروفایل با تاخیرکم، است.

 

ECC استاندارد خطاهای یک بیتی مموری را اصلاح می­کند، همچنین خطاهای چند بیتی را تشخیص می­دهد. زمانی که این اتفاق می­افتد، خطا به سرور سیگنال شده و باعث متوقف شدن آن می­شود.

 

Advanced ECC مدت زیادی است که در سرور­های HPE، حالت پیشفرض اصلاح خطاهاست و علاوه بر محافظت از سرور مقابل خطاهای یک بیتی، مقابل بعضی خطاهای چند بیتی مخصوصا خطاها در DRAM نیز محافظت می­کند.

Advanced ECC می­تواند هم خطاهای یک بیتی و هم 4 بیتی حافظه را در صورتیکه همه بیت­های خراب در یک DRAM روی یک DIMM باشند، اصلاح کند. همچنین نسبت به ECC استاندارد حفاظت بیشتری دارد چون که می­تواند بعضی از خطاهای حافظه را اصلاح کند که درغیر اینصورت منجر به خرابی سرور می­شوند. با استفاده از فناوری تشخیص خطای حافظه HPE Advanced، سرور هنگام تخریب DIMM اعلانی را ارائه می­دهد و احتمال خطای حافظه غیر قابل اصلاح را بیشتر می کند.

برای advanced ECC support هیچ قانون یا تنظیمات RBSU نیاز نیست و به عنوان پیشفرض در پلتفرم­های Purely  فعال شده است.

Advanced ECC فقط وقتی که خطاهای چند بیتی در یک DRAM واحد رخ می­دهند، می­تواند با اطمینان خطاها را اصلاح کند و قابلیت خرابی را ایجاد نمی­کند. بنابراین اگر حافظه خراب شد و نیاز به جایگزینی داشت، باید ابتدا سیستم خاموش شود. آخرین نسل از سرورهای HPE ProLiant/Synergy/Blade با استفاده از پردازنده­های Intel Xeon Scalable سه سطح حافظت از حافظه پیشرفته (از جمله HPE Fast Fault Tolerance)  ارائه می­کنند که باعث افزایش تحمل خطا در برنامه­هایی می­شود که به سطح بالاتری از در دسترس بودن نیاز دارند.

نکات مهم قبل از عیب‌یابی در سرور

  1. سرور های HP ProLiant P-Class بلندگو ندارند. بنابراین از خروجی صدا پشتیبانی نمی‌کنند. اگر شما از این سری از سرورها استفاده می‌نمایید، از اطلاعات بوق‌های ذکر شده در این صفحه صرف نظر کنید.
  2. این آموزش اطلاعاتی را برای چندین مدل متفاوت از سرورها و به صورت عمومی، ارائه می‌دهد.بنابرین امکان دارد در مواردی اطلاعات ارائه شده در این آموزش با دستگاه در حال عیب‌یابی شما، یکسان نباشد. در این صورت نیاز است تا به مستندات رسمی در سایت سازنده مراجعه کنید.
  3. با توجه به تعداد بالای ارور های سرور اچ پی در این صفحه، می‌توانید از ویژگی جستوجوی مرورگرتان استفاده نمایید. (برای این منظور کلید Ctrl را همزمان با کلید F فشار دهید.)

سخن پایانی

در این قسمت سعی کردیم تمامی ارورهایی که بدون نمایش پیام عددی در زمان نصب و پیکربندی سرورهای اچ پی رخ می‌دهند را بیان کنیم و با بررسی آن‌ها، راه حلی مناسب برای رفع ارور رخ داده را خدمت شما همراهان ارئه دهیم.

در پارت‌های بعدی از آموزش بررسی و رفع ارورهای سرور اچ پی، به بررسی ارورهای سری 100، 200، 300، 338، 400، 600، 1100، 1600، 1700 در سرورهای HPE ProLiant خواهیم پرداخت.

شرکت ما به طور عمده و تخصصی بر روی فروش و پخش عمده سرور hp و تمام سخت افزار مورد نیاز فعالیت می کند.

نمایش بیشتر

دیدگاهتان را بنویسید

دکمه بازگشت به بالا