Методы и средства повышения надежности ЭВМ
Факторы производительности ВС
· Число операций при выполнении задач
· Логические возможности и системы команд
· Характеристика и организация памяти
· Особенности системы ввода-вывода
· Составляющие и характеристики устройств ввода-вывода
6. Ошибка(error)–состояние системы, которое может привести к ее неработоспособности. Причиной ошибки является отказ. Система отказывает (fail) если она не способна выполнять свои функции
Отказ(fault)- это событие, заключающееся в нарушении работоспособного состояния объекта.
Причинами отказов объектов могут быть дефекты, допущенные при конструировании, производстве и ремонте, нарушение правил и норм эксплуатации, различного рода повреждения, а также естественные процессы изнашивания и старения.
Отказы могут быть случайными, периодическими и постоянными.
Классификации:
По характеру проявления отказы подразделяют на:
· Византийские – система активна и может проявлять себя по-разному.
· Пропажа признаков жизни
По степени влияния на работоспособность ЭВМ или ВС различают:
· полные (легла вся система)
По связи с другими отказами:
По физическому характеру непосредственного проявления на:
· Катастрофические (ломается вся система)
· Параметрические (ломается часть системы)
По характеру изменения параметра до момента возникновения отказа:
• внезапный отказ (возникает в результате скачкообразного изменения характеристик изделия)
• постепенный отказ (вызывается плавным изменением характеристик изделия)
Причиной отказа является неисправность.
· Неполадки (влияют на выполнение основных функций системы)
· Дефекты (могут повредить систему в будущем)
Для обеспечения надежного решения задач в условиях отказов применяют 2 подхода: восстановление после отказа и предотвращение отказа системы.
Отказоустойчивость – свойство ЭВМ и ВС, обеспечивающее системе возможность продолжения действий, заданных программой, после возникновения отказов, она требует избыточного аппаратного и программного обеспечения.
Методы и средства повышения надежности ЭВМ
Группы методов:
· Производственные (повышают надежность в процессе создания ЭВМ)
· Схемо-конструкторские (повышают надежность во время проектирования)
· Эксплуатационные (повышают надежность технического обслуживания)
1) Выбор подходящих уровней нагрузки
2) Унификация элементов и узлов
4) Контроль работы оборудования и введение избыточности по времени
5) Использование корректирующих кодов
1) Сбор информации о надежности ЭВМ
2) Коррекция рабочих режимов ЭВМ
3) Проведение профилактических мероприятий
4) Обучение обслуживающего персонала
8. Регистры процессора –это ячейки сверхбыстрой оперативной памяти, которые предназначены для временного хранения промежуточных данных. Различные регистры содержат информацию в различном виде: адреса и указатели сегментов памяти или системных таблиц, индексы элементов массива и пр.
9. Регистры общего назначения :
Эти регистры физически находятся в микропроцессоре внутри арифметико-логического устройства.
1) eax/ax/ah/al (Accumulator register) – аккумулятор. Применяется для хранения промежуточных данных.
2) ebx/bx/bh/bl (Base register) – базовый регистр. Применяется для хранения базового адреса некоторого объекта в памяти;
3) ecx/cx/ch/cl (Count register) – регистр-счетчик. Применяется в командах, производящих некоторые повторяющиеся действия.
4) edx /dx/dh/dl(Data register) – регистр данных. Он хранит промежуточные данные.
Следующие два регистра используются для поддержки так называемых цепочечных операций, т. е. операций, производящих последовательную обработку цепочек элементов, каждый из которых может иметь длину 32, 16 или 8 бит:
1) esi/si (Source Index register) – индекс источника. Содержит текущий адрес элемента в цепочке-источнике;
2) edi/di (Destination Index register) – индекс приемника (получателя). Содержит текущий адрес в цепочке-приемнике.
Для работы со стеком существуют специальные регистры:
1) esp/sp (Stack Pointer register) – регистр указателя стека. Содержит указатель вершины стека в текущем сегменте стека.
2) ebp/bp (Base Pointer register) – регистр указателя базы кадра стека. Предназначен для организации произвольного доступа к данным внутри стека.
10. Сегментные регистры — регистры, указывающие на сегменты.
При работе с ними для формирования любого адреса применяют два числа – адрес начала сегмента и смещение искомого байта относительно начала. Сегменты кода могут располагаться в памяти где угодно , поэтому программа обращается к ним используя вместо настоящего адреса ? 16-битное число — селектор
Имеется шесть сегментных регистров: cs, ss, ds, es, gs, fs. Сегменты для хранения селекторов.
Сегмент кода содержит программу, исполняющуюся в данный момент. ?
11. Стек—это специальным образом организованный участок памяти, используемый для временного хранения переменных, для передачи параметров вызываемым подпрограммам и для сохранения адреса возврата при вызове процедур и прерываний. Особенность стека заключается в том, что данные в него помещаются и извлекаются по принципу «первым вошел – последним вышел».
Стек располагается в сегменте памяти, описываемом регистром SS, а текущее смещение вершины стека записано в регистре ESP, причем при записи в стек значение этого смещения уменьшается, то есть стек растет вниз от максимально возможного адреса.
При вызове подпрограммы параметры в большинстве случаев помещают в стек, а в EBP записывают текущее значение ESP. Их смещения будут записываться как EBP + номер параметра.
Регистр флагов
Устанавливается в один при условии или установка их в один меняет поведение процессора.
CF- флаг переноса.
PF-флаг четности. Устанавливается в один если есть четный результат
ZF-флаг нуля. Если результат предыдущей команды «0»
SF-флаг знака. Всегда равен старшему биту
TF- используется для работы отладчика
IF- флаг прерываний. Процессор перестает обрабатывать прерывания от внешнего устройства
DF- флаг направления. Когда в один строки обрабат,в сторону уменьшения адресов,иначе наоборот.
OF-флаг переполнения. Когда результат предыдущих операций выходит за пределы.
IOPL- уровень привилегий ввода/вывода.
Способы адресации
Операнд — аргумент команды процессора
Способ адресации — это способ задания, способ хранения операнда.
Существует ряд способов адресации:
1. Регистровый ( Mov ax, bx)
2. Непосредственный (Mov ax, 2 (Число 2 загружается в AX))
3. Прямой. Если известен адрес операнда располагающемся в памяти (mov ax, es 0001)
Поместит регистр в ах слово, находящееся в сегменте на котором указан es, со смещение 0001.
4. Косвенная (Mov ax,[bx])
Помещает слово из ячейки памяти, селектор которой находится в ax, а смещение в bx.
5. По базе со сдвигом. Комбинирует два предыдущих метода. (Mov ax,[bx+2])
6. Косвенная адресация с масштабируемостью (позволяет прочитать элемент массива слов, двойных или учетверенных слов)
7. По базе с индексированием (смещение операнда памяти вычисляется как сумма чисел содержащихся в 2 регистрах и смещение)
Источник
Методы повышения надежности БЦВС
Обеспечение надежности системы охватывает все стадии проектирования, производства и эксплуатации системы. Совокупность мероприятий, направленных на повышение надежности системы, оформляются в виде программы обеспечения надежности, в которой предусматриваются необходимые мероприятия, гарантирующие надежность технических и программных средств.
На стадии технического предложения и эскизного проекта оценивается надежность базовой структуры вычислительной системы. Вычисленные показатели сравниваются с требуемыми, и определяется способ повышения надежности системы.
На этом этапе используются следующие методы для повышения надежности:
1. Выбор элементов с номинальными параметрами работы (частота, напряжение, температура и т.д.) выше, чем предполагают режимы эксплуатации в реальных изделиях, для снижения интенсивности отказов. Обычно, используют элементы с двукратным запасом по рабочим параметрам.
2. Уменьшение рабочей температуры элементов аппаратуры, за счет теплоотвода, мощной системы охлаждения, корректного размещения, обеспечивающего свободный обдув и отсутствие дополнительных источников тепла (двигателя, сильно греющихся элементов аппаратуры и др.).
3. Разработка структуры БЦВС с учетом резервирования отдельных ее элементов, целых БЦВМ, или программное резервирование (повтор решения отдельных задач, использование корректирующих кодов, перераспределения нагрузки и т.д.).
4. Обеспечение достаточной ремонтопригодности. Ремонтопригодность позволяет снижать затраты времени и средств на восстановление работоспособности системы. Для повышения ремонтопригодности существует множество способов, реализуемых на всех стадиях проектирования, производства и эксплуатации системы: встраивание в систему эффективных средств контроля и диагностики, унификация конструкций и рациональная их компоновка и др.
На этапе производства и эксплуатации также есть ряд методов, повышающих надежность БЦВС:
1. Тщательный отбор и тестирование деталей особо важных элементов вычислительной системы.
2. Корректная техническая эксплуатация и обслуживание. Техническая эксплуатация или техническое обслуживание– обеспечение работоспособности системы, путем создания требуемых условий эксплуатации (режим электропитания, температурный и др.) и проведения профилактических и ремонтно-восстановительных работ.
Основной показатель качества технического обслуживания – коэффициент готовности системы (компонентов), характеризующий долю времени, в течение которого система (компоненты) — работоспособна(ы). Увеличение коэффициента готовности системы достигается путем сокращения простоев оборудования из-за профилактических и ремонтно-восстановительных работ. На эффективность технического обслуживания наиболее существенно влияют следующие факторы:
а) условия эксплуатации системы (стабильность электропитания, температура, чистота среды и др.):
б) надежность и ремонтопригодность системы, степень совершенства средств контроля и диагностики;
в) режим обслуживания и квалификация обслуживающего персонала;
г) полнота денных о сбоях и отказах технических средств.
Для повышения эффективности технического обслуживания в системах предусматриваются средства накопления данных об ошибках, сбоях и отказах. Данные накапливаются путем регистрации состояния системы в момент ошибки, обнаруживаемой встроенными средствами контроля или программами. Регистрация данных производится операционной системой в специальном системном журнале – области накопителя на магнитных дисках. Данные из системного журнала периодически или при необходимости выводятся на печать и используются обслуживающим персоналом для выявления источников ошибок, сбоев и отказов, с целью проведения профилактических и ремонтно-восстановительных работ.
Серьезное влияние на качество технического обслуживания оказывает стоимость эксплуатационных и восстановительных работ. Использование универсального, серийно выпускаемого, модульного оборудования значительно снижает стоимость ремонтных работ и уменьшает количество аппаратуры, хранимой в запасе на случай выхода из строя одного из элементов вычислительной системы. Универсальность алгоритмов, позволяющая запускать их в любом из модулей системы, так же способствует значительной экономии средств и времени при эксплуатации системы.
Источник
Надежность и отказоустойчивость МВС
Одной из основных проблем построения вычислительных систем остается задача обеспечения их продолжительного функционирования.
Важнейшей характеристикой вычислительных систем является надежность , т.е. работа системы без сбоев в определенных условиях в течение определенного времени. Повышение надежности основано на принципе предотвращения неисправностей путем снижения интенсивности отказов и сбоев за счет применения электронных схем и компонентов с высокой и сверхвысокой степенью интеграции, снижения уровня помех, облегченных режимов работы схем, обеспечения тепловых режимов их работы, а также за счет совершенствования методов сборки аппаратуры.
Понятие надежности включает не только аппаратные средства , но и программное обеспечение , которое используется, в частности, для анализа производительности систем и управления конфигурациями. Главной целью повышения надежности систем является целостность хранящихся в них данных. Единицей измерения надежности является среднее время наработки на отказ ( MTBF — Mean Time Between Failure ), иначе — среднее время безотказной работы.
Отказоустойчивость — это способность вычислительной системы продолжать действия, заданные программой, после возникновения неисправностей. Введение отказоустойчивости требует избыточного аппаратного и программного обеспечения. Направления, связанные с предотвращением неисправностей и с отказоустойчивостью , — основные для обеспечения надежности . Концепции параллельности и отказоустойчивости вычислительных систем естественным образом связаны между собой, поскольку в обоих случаях требуются дополнительные функциональные компоненты. Поэтому на параллельных вычислительных системах достигается как наиболее высокая производительность , так и, во многих случаях, очень высокая надежность . Имеющиеся ресурсы избыточности в параллельных системах могут гибко использоваться как для повышения производительности, так и для повышения надежности . Структура многопроцессорных и многомашинных систем приспособлена к автоматической реконфигурации и обеспечивает возможность продолжения работы системы после возникновения неисправностей.
В настоящее время эти два понятия — надежности и отказоустойчивости — при описании компьютерных систем часто смешивают. Во многом это объяснятся тем, что пользователя (не обязательно индивидуального) интересует главное: вычислительная система должна работать необходимое время и предоставлять определенный набор услуг. Для достижения безотказной работы используются разные приемы, часть из которых мы здесь рассматриваем, не акцентируя внимания на том, к какому из вышеуказанных понятий эти приемы относятся.
Для повышения надежности информационно-вычислительной системы идеальной схемой являются кластерные системы. Благодаря единому представлению, отдельные неисправные узлы или компоненты кластера могут быть без остановки работы и незаметно для пользователя заменены, что обеспечивает непрерывность и безотказную работу вычислительной системы даже в таких сложных приложениях как базы данных .
Основа надежности кластера — это некоторое избыточное количество отказоустойчивых серверов (узлов), в зависимости от конфигурации кластера и его задач.
Кластерная конфигурация узлов, коммуникационного оборудования и памяти может обеспечить зеркалирование данных, резервирование компонентов самоконтроля и предупреждения, а также совместное использование ресурсов для минимизации потерь при отказе отдельных компонентов.
Решение, обеспечивающее повышенную отказоустойчивость сервера, должно включать:
- компоненты с «горячей» заменой;
- диски, вентиляторы, внешние накопители, устройства PCI, источники питания;
- избыточные источники питания и вентиляторы;
- автоматический перезапуск и восстановление системы;
- память с коррекцией ошибок;
- функции проверки состояния системы;
- превентивное обнаружение и анализ неисправностей;
- средства удаленного администрирования системы.
Во многих случаях кластер , как типичный представитель МВС, представляется пользователю и администратору как единая система. Наблюдение за системой включает сбор, хранение и извлечение таких показателей как использование центрального процессора и памяти, температура системы и процессора, скорость вращения вентиляторов; эти и другие параметры помогают пользователям и администраторам понимать общее состояние системы и эффективность ее использования.
Единое управление системами кластера позволяет максимально увеличить период безотказной работы, контроль и управление приложениями, операционными системами и аппаратными средствами. При этом все узлы кластера управляются из единого центра контроля.
Программы-утилиты обеспечивают улучшение защиты и возможности восстановления данных, а также сглаживают последствия сбоев в работе оборудования для конечного пользователя. Операционная система кластера служит для управления всеми функциями кластера.
Программное обеспечение дает возможность организовать эффективную службу сопровождения и мониторинга решения, позволяя собирать данные на уровне узла, используя плату управления. Важным направлением является совершенствование и развитие библиотеки MPI и развитие системы отладки параллельных программ, работающих на МВС. К ней относятся отладчики, профилировщики, обеспечивающие контроль над прохождением задач.
В операционной системе HP-UX11i, созданной компанией Hewlett-Packard и предназначенной для обслуживания критически важных задач в Internet , для повышения надежности предусмотрена возможность подключения дополнительных процессоров без перезагрузки ОС. Применение файловой системы Veritas дает возможность резервного копирования в режиме online и дефрагментации дисков без выключения системы. Операционная система может отключать неработоспособные процессоры и блоки памяти без выключения системы.
Системы хранения должны быть представлены RAID-системами высокой готовности. Избыточные соединения должны обеспечивать доступность данных даже в случае выхода из строя узлов, контроллеров или кабелей. Соединение с системами хранения данных в кластере может быть реализовано как с использованием интерфейсов SCSI , так и на основе Fibre Channel технологии.
Для синхронизации и совместной работы серверов в качестве кластера необходимы избыточные соединения между серверами, называемые «системным соединением» ( private interconnect ). Системное соединение используется для передачи сигналов о состоянии серверов, а также применяется параллельными базами данных для передачи данных.
Катастрофоустойчивые решения создаются на основе разнесения узлов кластерной системы на сотни километров и обеспечения механизмов глобальной синхронизации данных между такими узлами.
В качестве примера повышения надежности кластерной системы приведем решения фирмы Hewlett-Packard. В этих решениях, в зависимости от нужного уровня отказоустойчивости , серверные узлы кластера размещаются следующим образом:
- централизованно (локальный кластер);
- по соседним зданиям (кампусный кластер);
- по нескольким территориям в пределах города (метро кластер);
- в разных городах, странах или континентах (два связанных кластера — континентальный кластер).
В дополнение к дублированному центральному коммутатору, все аппаратные компоненты: системный контроллер , источники питания, системы охлаждения, часы — полностью дублированы. Система не имеет единичной точки сбоя. Для сравнения — если такой простой элемент как системные часы выйдет из строя в дорогостоящем сервере HP Superdome или IBM p680, вся система прекратит работу.
В систему должны быть заранее установлены или сконфигурированы запасные модули, так что при отказе одного из модулей запасной модуль может заменить его практически немедленно. Отказавший модуль может ремонтироваться автономно, в то время как система продолжает работать.
Принцип быстрого проявления неисправности обычно реализуется с помощью двух методов — самоконтроля и сравнения. Средства самоконтроля предполагают, что при выполнении некоторой операции модуль делает и некоторую дополнительную работу, позволяющую подтвердить правильность полученного состояния. Примерами этого метода являются коды обнаружения неисправности при хранении данных и передаче сообщений. Метод сравнения основывается на выполнении одной и той же операции двумя или большим числом модулей и сопоставлении результатов компаратором. В случае обнаружения несовпадения результатов работа приостанавливается.
Методы самоконтроля были основой построения отказоустойчивых систем в течение многих лет. Они требуют реализации дополнительных схем и времени разработки и, вероятно, будут доминировать в устройствах памяти и устройствах связи благодаря простоте и ясности логики. Однако для сложных устройств обработки данных экономические соображения, связанные с применением стандартных массовых компонентов, навязывают использование методов сравнения. Поскольку компараторы сравнительно просты, их применение дает некоторое увеличение логических схем при существенном сокращении времени разработки. Следует отметить, что в более ранних отказоустойчивых конструкциях 30% логических схем процессоров и 30% времени разработки уходило на реализацию средств самоконтроля. С этой точки зрения схемы сравнения добавляют лишь универсальные схемы с простой логикой. В результате сокращаются общие расходы на разработку и логику.
Еще одним средством построения отказоустойчивой архитектуры является принцип дублирования дуплексных модулей, который предполагает создание некоторой комбинации двух модулей («супермодуля»), построенных на принципах быстрого проявления неисправности. Такой «супермодуль» продолжает работать, даже когда отказывает один из субмодулей.
Дублирование дуплексных модулей требует большего объема оборудования, но позволяет делать выбор одного из режимов работы: организацию либо двух независимых вычислений на принципах быстрого проявления неисправности, выполняющихся на двух парах модулей, либо одного высоконадежного вычисления, выполняющегося на всех четырех модулях.
Необходимо помнить, что сама по себе избыточность только снижает надежность в случае дублирования и троирования. Для существенного увеличения уровня готовности избыточная конструкция должна обеспечивать возможность ремонта и замены отказавших модулей.
Источник