Какими способами можно обнаружить неисправность сервера баг

Проблемы с сервером — что делать?

Как могут выглядеть типичные сбои сервера:

  • сервер вообще не запускается
  • проблема с загрузкой сервера — сервер запускается, но показывает “синий экран смерти” (BSOD)
  • сервер запускается, на нем загружается операционная система, но некоторые сервисы не работают (например, сайт)
  • произошел сбой связи с сервером по сети
  • сервер сильно нагревается при работе
  • постоянные перезагрузки без видимых причин
  • заметно падает скорость выполнения операций

Причины сбоя и поломок сервера, типичные неисправности:

  • Физическое отключение — вероятнее всего, причиной неисправности серверов являются проблемы с аппаратной частью или пропало электричество. В первом случае понадобится ремонт или замена отказавшей детали, быстро исправить это вряд ли получится. Во втором попробуйте сначала загрузить/перезагрузить сервер, когда электричество появится — есть шансы, что его работоспособность восстановится.
  • Сервер запускается, но находится не в сети, клиентские приложения пытаются к нему подключиться и выдают ошибку подключения к серверу — неожиданная проблема связи с сервером может возникнуть из-за неполадок в сетевой карте сервера или из-за неправильных сетевых настроек (неправильный IP-адрес, маска подсети, шлюз, проблема в сетевых протоколах). Также есть возможность, что ошибка соединения с сервером вызвана неисправностью сетевого кабеля или другого сетевого оборудования — роутера/свитча/хаба.
  • Причиной отключения сервера может быть поломка одной из комплектующих, согласно статистике, чаще всего “летят” жесткие диски HDD, материнские платы, адаптеры, процессоры.
  • Ошибки в конфигурации — многие типичные неисправности сервера являются прямым следствием ошибок в его настройке, для их устранения понадобится помощь квалифицированного системного администратора.
  • Причиной сбоя сервера может быть перегрузка системы, вызванная внутренними процессами, например, активностью пользователей или неудачно настроенным снятием резервных копий, или DOS/DDOS-атакой снаружи.
  • Запуск сервера и сбой запуска? Возможно, в этом виновен перегрев сервера.

Как устранить и предотвратить проблемы с сервером

Предотвратить поломки сервера значительно проще и дешевле, чем устранять, когда они уже проявились.

Вот несколько требований, выполняя которые вы сможете снизить вероятность отказа вашего сервера:

  • Если у вас собственная серверная, организуйте в ней качественное охлаждение и старайтесь держать ее всегда закрытой, чтобы туда не проникала лишняя пыль. Обязательно используйте источники бесперебойного питания.
  • Регулярно проводите профилактическое обслуживание серверов — чистку от пыли, замену термопасты и т.д.
  • Используйте специализированное ПО для мониторинга, чтобы отслеживать состояние сервера и вовремя заметить проблемы работы сервера.
  • У вас обязательно должно быть настроено резервное копирование и восстановление данных сервера, чтобы предотвратить потерю важной информации в случае, если сервер все же “упадет”. Регулярно делайте бекапы, а если есть возможность — используйте отказоустойчивый кластер, тогда при сбоях в работе сервера его работа будет распределена между остальными серверами в кластере.

Если несмотря на все предпринятые меры у вас все же возникли проблемы с сервером, что делать?

Читайте также:  Классификация сетей по способу управления определяет сети сга

В некоторых случаях можно попробовать самостоятельно провести диагностику, чтобы понять, что произошло и как исправить проблемы с сервером:

  • Просмотреть логи событий сервера — возможно, по ним удастся понять причину неполадок.
  • Физически осмотреть комплектующие сервера, иногда их поломки бывают заметны визуально.
  • Если это возможно, запустить тест памяти.
  • Запустить проверку жестких дисков на наличие ошибок.
  • Проверить сервер антивирусом. Это может помочь в устранении неисправностей файлового сервера, часто такие неисправности являются результатом работы вредоносного ПО.
  • Проверить загрузку процессора, состояние памяти, использование дискового пространства с помощью специализированного ПО.

Срочный ремонт серверов, что можно сделать

Как устранить проблему с сервером. Если у вас на сервере произошел сбой, а его простой или потеря данных грозят компании серьезными убытками, лучше не пытаться исправить все самостоятельно, а сразу обратиться к специалистам за помощью, это будет быстрее и эффективнее.

Например, неквалифицированная попытка восстановить данные может вместо этого окончательно их уничтожить.

Обслуживание серверов

Инженеры ГК «Интегрус» уже много лет занимаются сервисным обслуживанием и ремонтом серверов, к нам всегда можно обратиться за бесплатной консультацией, аудитом, а если понадобится — то и за срочным ремонтом серверов.

Мы выполняем весь перечень ремонтных работ, работ по восстановлению данных с сервера при аппаратном или программном сбое, восстановлению сервера из бэкапа, сервисному обслуживанию, настройке защиты сервера от взлома, профилактике и мониторингу, модернизации, созданию серверной «под ключ».

Источник

Как выявить аппаратную проблему с сервером

Статья давно не обновлялась, поэтому информация могла устареть.

Содержание

Как выявить аппаратную проблему с сервером?

В данной статье мы рассмотрим выявление и диагностирование сбойных винчестеров, возможности для проверки оперативной памяти, так же рассмотрим подачу заявки в службу технической поддержки.

Анализируя запросы в службу поддержки, связанные с аппаратными проблемами на выделенных серверах, можно резюмировать следующее: большинство клиентов просто не умеют правильно идентифицировать проблему, возникшую на сервере, а так же составить четкий запрос специалистам компании.

Помочь клиентам в этом вопросе и будет являться целью данной статьи. Во множестве заявок клиент не указывает всей необходимой информации о сервере, выяснение которой затягивает решение вопросов.

Сервер, являясь электронным прибором, может рано или поздно выйти из строя. Любой современный электронный прибор, и сервер в частности, построен на модульном принципе, что имеет множество преимуществ: взаимозаменяемость, быстрая замена и диагностика без применения специального оборудования. При выходе сервера из эксплуатации, эти преимущества играют огромную роль.

Сервер не отвечает на запросы

Наиболее типичной является ситуация, когда сервер перестает отвечать на запросы. Перед тем, как написать запрос в службу технической поддержки, следует провести следующие диагностические мероприятия:

Для начала необходимо перезагрузить сервер, используя панель управления DCImanager, «Перезагрузить».

Если сервер не загрузился, по прошествии некоторого времени, следует запросить IP-KVM для того, чтобы иметь доступ к консоли сервера и видеть вывод ошибок.

Возможно, идет проверка файловой системы, при худшем раскладе – на консоли ошибки “kernel panic”, ошибки “disk boot failure, insert system disk and press enter”, темный экран. В первом случае вам просто следует подождать, сервер «поднимется». Во втором случае желательно обратиться к техническим специалистам компании.

После загрузки сервера, необходимо проверить состояние винчестеров.

Читайте также:  Задания по теме способы получения металлов 9 класс

Проверка состояния жестких дисков

В этом поможет технология SMART, встроенная в современные диски. Она позволяет оценить состояние и предсказать выход диска из стоя. Доступ к данным, предоставляемым технологией SMART, осуществляется различными утилитами. В ОС семейства FreeBSD и Linux это – smartctl входящая в пакет утилит smartmontools, адрес официального сайта: http://sourceforge.net/apps/trac/smartmontools/.

Чтобы установить пакет воспользуйтесь командой для вашего дистрибутива ОС:

Проверяем диск так:

Имя диска может отличаться и быть одним из следующих:

Виртуальный сервер на виртуализации KVM имеет диски /dev/vda

Например, для FreeBSD команда может выглядеть так:

а для Linux так:

Детальное описание можно посмотреть на официальном сайте проекта smartmontools , описание атрибутов на русском языке на Википедии.

Получив данные SMART с диска, следует обратить внимание на следующие показатели:

SATA/SAS

Reallocated Sectors Count — Показывает количество переназначенных секторов (remaping). Большое число свидетельствует о проблемах с поверхностью дисков. Можно считать ключевым параметром при оценке состояния диска, особенно при постоянном увеличении данного параметра.

Current Pending Sector Count — Текущее количество нестабильных секторов. Поле raw value этого атрибута показывает общее количество секторов, которые накопитель в данный момент считает претендентами на переназначение в резервную область (remap). Если в дальнейшем какой-то из этих секторов будет прочитан успешно, то он исключается из списка претендентов. Если же чтение сектора будет сопровождаться ошибками, то накопитель попытается восстановить данные и перенести их в резервную область, а сам сектор пометить как переназначенный (remapped). Постоянно ненулевое значение raw value этого атрибута говорит о низком качестве (отдельной зоны) поверхности диска.

Uncorrectable Sector Count — Количество нескорректированных ошибок. Атрибут показывает общее количество ошибок, возникших при чтении/записи сектора и которые не удалось скорректировать. Рост значения в поле raw value этого атрибута указывает на явные дефекты поверхности и/или проблемы в работе механики накопителя.

Рассмотрение остальных параметров имеет менее важное значение и не входит в рамки данной статьи. Более детальное описание есть на ресурсе, указанном выше.

В качестве примера рассмотрим вывод утилиты smartctl

В данном случае наблюдается большое значение параметра “Reallocated Sectors Count” указывающее на возможное наличие сбойных секторов(bad blocks) и “Seek_Error_Rate” – ошибки позиционирования считывающих головок диска. В данном примере диск можно считать сбойным и в ближайшее время, возможен выход его из строя.

Как показывает наш опыт в случае если значения Uncorrectable Sector Count, Current Pending Sector Count, UDMA_CRC_Error_Count больше нуля, то жесткий диск требует срочной замены.

Так же будет полезно провести тест диска:

Следить за процессом и посмотреть результат можно командой:

Если нужной информации не отобразилось, то просмотрите полный вывод команды:

Основной показатель здоровья диска:

Media Wearout Indicator — эта переменная напрямую указывает на износ диска. Счётчик имеет ненулевое значение в начале (100), и уменьшается со временем. При достижении некоего определённого производителем порогового значения, диск признается изношенным и переходит в read-only режим.

Если его значение упало ниже 10, значит пора диск менять.

Так же стоит обращать внимание на:

При оценке состояния жестких дисков очень важно делать проверку не при возникновении проблем, а с достаточной для оперативной реакции периодичностью. Поможет в этом демон мониторинга жестких дисков smatrd. Его настройка не составит больших трудностей, т.к. он очень хорошо документирован на официальном сайте проекта (см. http://smartmontools.sourceforge.net/man/smartd.8.html и http://smartmontools.sourceforge.net/man/smartd.conf.5.html). Процедура не займет много времени, но при этом позволит всегда знать в каком состоянии находятся жесткие диски ваших серверов, а при появлении ошибок позволит вовремя принять меры и предотвратить потерю данных.

Читайте также:  Кетонал крем способ применения

Получив и проанализировав показатели SMART, необходимо написать запрос в службу технической поддержки. Правильно составленный запрос облегчает работу специалистов и уменьшает время реакции.

Правила подачи запроса в службу поддержки

Информация, необходимая для подачи запроса:

  • Идентификационные данные сбойного диска, при невозможности извлечения, данные о целом диске. Информация будет передана техническим сотрудникам в ДЦ, которые будут заниматься заменой сбойного диска.
  • Результат выполнения команды smartctl -a на проблемном жестком диске.
  • Данные доступа на сервер, для подтверждения состояния дисков сотрудниками компании.

Сообщения, не содержащие данной информации не могут быть приняты к рассмотрению.

Работа утилиты smartctl. Для определения данных о сбойном диске необходим следующий блок информации:

Пример запроса

Рассмотрим небольшой пример переписки воображаемого клиента К с сотрудником технической поддержки С:

Данный диалог можно сократить до запроса о замене диска и ответа о выполнении работ:

Такой запрос будет выполнен сотрудниками технической поддержки без дополнительных уточняющих вопросов, что сокращает время выполнения заявки и экономит рабочее время сотрудников технической поддержки.

Возможности по диагностированию оперативной памяти

Данная проблема может проявляться неявно и решение проблемы затянется. Примером могут быть случаи с выходом из строя отдельных ячеек памяти. Сбои в работе сервера будут происходить не часто или проявляться как ошибки чтения/записи по адресу памяти без выхода из строя сервера.

Диагностика данной проблемы проводится тестом Memtest, официальный сайт проекта — http://www.memtest.org/. Идея данного теста проста — проверка ячеек памяти чтением/записью значений, от простого к сложному. Запуск теста можно сделать, заказав IP-KVM и подключение образа с Memtes’ом в техподдержке (нужно будет загрузиться с этого образа). При наличии проблем с памятью, вероятнее всего, тест пройден не будет, что будет отображено на экране (в какой ячейке и при записи какого значения произошел сбой).

После выявления проблемы с памятью пишем запрос в службу технической поддержки. В запросе необходимо приложить снимок экрана с ошибкой. Сообщения, не содержащие данной информации не могут быть приняты к рассмотрению. Если ваш провайдер не предоставляет доступ в панель DCImanager, то вам следует сразу написать обращение в службу поддержки с просьбой провести данный тест. При подтверждении ошибки, память будет заменена.

Заключение

Вместо заключения хотелось бы сказать следующее: проблемы выхода винчестеров из строя — явление прогнозируемое и в этом может помочь сервис мониторинга состояния диска smartd, так же включенный в пакет smartmontools . Его настройка и использование неоднократно рассматривались в интернете и не входит в рамки данной статьи. Использование клиентами этого средства мониторинга может спасти от нежелательной потери данных.

Проблемы оперативной памяти — явление непредсказуемое и спонтанное. Выход её из строя не грозит потерей информации, однако вызывает простои в эксплуатации.

И последнее — желаем вам, чтобы ваши сервера не ломались, а обращений в службу технической поддержки по данной тематике было меньше.

Источник

Оцените статью
Разные способы