Алексей Жумыкин: Настольная книга эксплуататора

Настольная книга эксплуататора

Содержание книги "Настольная книга эксплуататора"

На странице можно читать онлайн книгу Настольная книга эксплуататора Алексей Жумыкин. Жанр книги: отраслевые издания. Также вас могут заинтересовать другие книги автора, которые вы захотите прочитать онлайн без регистрации и подписок. Ниже представлена аннотация и текст издания.

Если перестанут работать дата-центры (ДЦ), вы не сможете заказать такси, отправить другу мем или оплатить коммунальные услуги через банковское приложение. За любыми, казалось бы, простыми действиями в интернете стоит «невидимая армия», или служба эксплуатации. Эти люди обеспечивают работу серверов и заботятся о том, чтобы информационный поток в наших девайсах никогда не прекращался.

«Про работу службы эксплуатации уже появилось несколько не очень приятных стереотипов. На первых полосах бумажных газет о ней не прочитаешь, и в TikTok ее не увидишь. Существует даже мнение, что в дежурные идут для того, чтобы спокойно спать в ночную смену. Но все это совсем не так. От этих нескольких человек, находящихся в ночь с субботы на воскресенье на площадке, полностью зависит работа крупного банка, заказ еды или такси, сообщения мессенджеров, прогноз погоды – да трудно представить, какая часть информационного потока не идет сейчас через дата-центры».

Деятельности дата-центров и посвящена книга Алексея Жумыкина, руководителя эксплуатации ДЦ «Яндекса». Автор, опираясь на собственный опыт, подробно объясняет процессы эксплуатации, рассказывает, как создать хорошую команду, и дает практические рекомендации по безопасности и техническому обслуживанию. Жумыкин простым языком говорит о сложных вещах: организации дата-центров, управлении мощностями, составлении документации, работе с подрядчиками, бюджетировании. В книге также приведены примеры того, как справляться с аварийными ситуациями. Для наглядности автор использует схемы, графики и таблицы, которые позволяют понять устройство оборудования и процессы внутри стандартных ДЦ.

Онлайн читать бесплатно Настольная книга эксплуататора

Настольная книга эксплуататора - читать книгу онлайн бесплатно, автор Алексей Жумыкин

Страница 1

Редакторы: Никита Киселев, Людмила Васильева

Дизайн Антон Лойбо

Корректоры Саша Нойвельт, Наталья Ерохина

Верстка Саша Нойвельт

Все права защищены. Данная электронная книга предназначена исключительно для частного использования в личных (некоммерческих) целях. Электронная книга, ее части, фрагменты и элементы, включая текст, изображения и иное, не подлежат копированию и любому другому использованию без разрешения правообладателя. В частности, запрещено такое использование, в результате которого электронная книга, ее часть, фрагмент или элемент станут доступными ограниченному или неопределенному кругу лиц, в том числе посредством сети интернет, независимо от того, будет предоставляться доступ за плату или безвозмездно.

Копирование, воспроизведение и иное использование электронной книги, ее частей, фрагментов и элементов, выходящее за пределы частного использования в личных (некоммерческих) целях, без согласия правообладателя является незаконным и влечет уголовную, административную и гражданскую ответственность.

© Жумыкин А., 2022

© ООО «Альпина ПРО», 2022

* * *

Книга издана при поддержке АНО «Координационный совет по ЦОДам и облачным технологиям» (АНО КС ЦОД)


Вам выпала невероятная удача – прочитать самое блестящее описание непростой кухни эксплуатации датацентра[1] из всех, что были написаны на русском языке. Мне очень импонирует почти разговорный стиль изложения автора – далекий от псевдоакадемических умствований, призванных, как правило, замаскировать отсутствие живой и ясной мысли. Датацентры и без того достаточно сложны, чтобы дополнительно затуманивать понимание их устройства сложностью изложения.

Я был приятно удивлен, что идеи автора весьма созвучны стандарту эксплуатации датацентров Tier Standard: Operational Sustainability от Uptime Institute. Эта книга является его расширенным дополнением. В отличие от более чем лаконичного текста стандарта, здесь все изложено в деталях и подробностях с массой практических рекомендаций.

Автор скромно умолчал об уникальном опыте работы в крупнейших организациях, владеющих датацентрами. В этой связи я призываю читателя к вдумчивому чтению: не все, что хорошо для спортивного суперкара, подходит один в один для семейного минивэна или джипа-вездехода. При общей схожести подходов, есть существенная разница в деталях.

Книга является ясным свидетельством того, что российские датацентры вышли на мировой уровень качества. На сегодняшний день у нас есть и опыт эксплуатации, ничем не уступающий лучшим мировым практикам, и люди, способные его описать, обобщить и поделиться, за что я крайне признателен автору.

Алексей Солодовников,управляющий директор Uptime Institute в России и странах СНГ

Не было гвоздя – подкова пропала.
Не было подковы – лошадь захромала.
Лошадь захромала – командир убит.
Конница разбита – армия бежит.
Враг вступает в город, пленных не щадя,
Оттого, что в кузнице не было гвоздя.

Стихотворение, приписываемое Бенджамину Франклину, 1758 г.Перевод Самуила Маршака

Предисловие от компании 3data

Компания 3data[2] решила издать эту книгу, потому что мы не понаслышке знаем, насколько важна роль эксплуататоров в функционировании ЦОДов. Наша сеть насчитывает десятки центров обработки данных по всей России. Опыт Алексея Жумыкина, которым он делится в книге, позволит нашим специалистам и всем инженерам ЦОДов свежим взглядом посмотреть на собственные рабочие процессы, оценить и улучшить их. Мы рассчитываем, что книга станет настольной для профессионалов отрасли.

За каждым заказанным такси, доставленной пиццей и мемом с котиком стоит сервер. Сотни миллионов серверов делают интернет самой большой машиной на планете Земля. Серверы вместе со всеми сайтами и сервисами мира живут в центрах обработки данных, и их обслуживают настоящие профессионалы своего дела.

Оборудование датацентров работает 24/7 365 дней в году. И люди тоже. Инженерные системы ЦОДов способны противостоять инцидентам и непредвиденным ситуациям. И люди тоже. Чем надежнее техника, тем незаметнее для пользователей ее труд. И вклад людей тоже.

В качестве популяризации технологий мы будем рады предложить эту книгу и широкой аудитории. Она поможет читателям лучше узнать людей, которые трудятся за кулисами современных технологических процессов.

Илья Хала,генеральный директор сети датацентров 3data

Введение

Идея этой книги родилась жарким летом, когда в офисных помещениях закрывают окна поплотнее и включают кондиционеры. Для тех, кто отвечает за жизнедеятельность центров обработки данных, в это время настает действительно жаркая пора. Приходится, не отрывая глаз от мониторов, следить за температурой в серверных. В такие моменты как никогда чувствуешь, насколько современный, насквозь пропитанный информационными потоками мир может зависеть от капризов погоды и какие-то плюс два-три градуса в серверной могут привести к сбою оборудования и последствиям, если и не критичным, то заметным даже для рядовых офисных сотрудников в помещениях с кондиционерами.

Про работу службы эксплуатации уже появилось несколько не очень приятных стереотипов. На первых полосах бумажных газет о ней не прочитаешь и в TikTok ее не увидишь. Существует даже мнение, что в дежурные идут для того, чтобы спокойно спать в ночную смену. Но все это совсем не так. От этих нескольких человек, находящихся в ночь с субботы на воскресенье на площадке, полностью зависит работа крупного банка, заказ еды или такси, сообщения мессенджеров, прогноз погоды – да трудно представить, какая часть информационного потока не идет сейчас через датацентры.

Эта невидимая армия заслуживает своего описания – именно службе эксплуатации будут посвящены страницы данной книги.

Эта книга не претендует на полное описание всех возможных аспектов работы датацентров, так же как и не содержит решений на все случаи жизни. Я уверен, что любой из действующих или бывших эксплуатационщиков может в какой-то момент не согласиться с моим мнением, добавить какие-то свои истории, методологии и ситуации. И это здорово.

Когда, спустя несколько лет, я вновь сел за свой старый, но все еще быстрый Lenovo Х220, то вдруг по-настоящему понял признак истинного профессионала эксплуатации. Выбирать надежное оборудование, следить за его исправностью и использовать так долго, пока окружающие не начнут спрашивать: «Где ты откопал такой раритет?» За более чем десяток лет я продолжаю ежедневно сталкиваться с проблемами, решений для которых еще нет, и придумать их необходимо здесь, сейчас и конкретно для этого случая. И теперь мне больше всего хочется не научить, а рассказать. Однако работа единомышленников в больших компаниях помогла сформировать некие общие принципы, подходы к процессу эксплуатации, придерживаясь которых справляться с проблемами стало значительно проще. Именно этими принципами я и хочу поделиться.

Так получилось, что большую часть времени я провел в командах, где были приняты неформальное общение, нестрогое отношение к одежде и внешнему виду. Это не могло не сказаться на живом общении и переписке. Надеюсь, мой стиль не покоробит никого из специалистов отрасли, кроме яростных поборников чистоты русского языка. С другой стороны, некоторая небрежность в одежде никак не коррелирует с жесткой, почти военной требовательностью и скрупулезностью в отношении оборудования.

Управление датацентрами отчасти напоминает промышленные предприятия, где существует большое количество соприкосновений с другими отделами и, несмотря на то что все работают в одной компании, интересы соседних подразделений могут быть противоположны. И как поступать в спорных ситуациях, в общем случае предсказать невозможно. Я постараюсь придерживаться мнения, что команда эксплуатации права, когда ее позиция основана на ее ключевых интересах. Например, если при закупке оборудования выбор стоит между «быстро», «дешево» и «надежно», очевидно, что первое и второе эксплуатацию должно волновать гораздо меньше, чем третье. Другими словами, финансистам, проектному отделу или даже юристам какие-то решения эксплуатации могут не нравиться, но я буду говорить только за своих.

Немного о терминологии. В российской тусовке принято сокращать центры обработки данных как ЦОД. Это, конечно, правильно, но звучание такой аббревиатуры лично меня коробит. Сразу представляются ряды электронно-вычислительных машин (ЭВМ), заполняющие эти ЦОДы, и среднего возраста научные работники в очках и белых халатах с пачкой перфокарт в руках. Лично мне, как и всей команде, с которой я работал, больше по душе сокращение ДЦ – датацентр.

Остальные разъяснения будут появляться по мере необходимости непосредственно в тексте. Итак, приступаем…

Глава 1
Зоны ответственности команды эксплуатации

Прежде чем рассказывать о тонкостях эксплуатации датацентра, нужно ответить на два вопроса: когда и где начинается и заканчивается эксплуатация. Давайте разберем эти вопросы. Мы будем рассматривать пример абстрактной компании. В каждом конкретном случае имеет смысл составить такую же схему, чтобы визуально представлять, какие ресурсы и ограничения есть в работе и как их правильно использовать.

В повседневной жизни понятие «датацентр» может быть многозначным. Например, говоря о датацентре, ктото может иметь в виду юридическое лицо, оказывающее услуги по хранению и обработке данных. Другие могут представлять находящуюся в поле огороженную площадку, на которой расположены разнообразные здания. Третьи под датацентром понимают совокупность серверного и инженерного оборудования. Поэтому нужно хорошо понимать, в какой ситуации каким термином лучше оперировать. Например, в зависимости от того, идет речь о площадке или о юридическом лице, контактными лицами могут быть технический директор или генеральный директор компании.

Команда эксплуатации датацентров (Data Center Operations = DCOPS[3]) в нашем примере обеспечивает функционирование всех трех ипостасей датацентра. Основная задача – обеспечение беспрерывного снабжения серверного оборудования ресурсами, то есть электричеством и охлажденным воздухом. Формальная граница между командой DCOPS и командой эксплуатации серверного оборудования может проходить по разъемам коробок отбора мощности на шинопроводах или разъемам кабелей питания, отходящих от главного распределительного щита.

Другие функции DCOPS: поддержание исправности инженерного оборудования, а также разнообразных процессов жизнедеятельности площадки – от функций генерального директора до заказа обедов для посетителей датацентра.

Команда эксплуатации серверного оборудования (IT Operations = ITOPS[4]) отвечает за работоспособность серверов, стоек и вспомогательного оборудования в стойках, кроссировку и т. п. Эта команда является точкой входа для заказчиков, поэтому именно в составе ITOPS имеет смысл организовать круглосуточную службу поддержки, которая будет принимать на себя все вопросы извне, связанные с работой датацентра, и координировать потоки информации внутри датацентра.

Команда сетевых подключений (Network Operations Center = NOC[5]). Этот отдел может как быть частью команды внутри конкретного датацентра, так и ориентироваться на решение задач внешней связности. Обычно участие его сотрудников в ежедневной жизни датацентра ограничивается написанием правил, по которым заказчики подключаются к сети, и размещением собственного оборудования в специально выделенных помещениях и стойках.

[1] Датацентр, или дата-центр, – единого официального написания нет, даже американцы напишут data center, тогда как британцы – data centre. В книге мы будем использовать вариант написания «датацентр».
[2] Федеральная сеть дата центров, учредитель Координационного совета по ЦОДам и облачным технологиям (АНО КС ЦОД), член Ассоциации участников отрасли ЦОД.
[3] Data Center Operations.Выдуманный жаргонный термин, обозначающий команду эксплуатации инженерных систем датацентра. Как правило, эта же команда следит и за зданиями и сооружениями на площадке.
[4] IT Operations. Как и DCOPS, выдуманный термин, описывающий специалистов по серверному и сетевому оборудованию.
[5] Network Operations Center. Центр сетевой связности объекта. В отрасли существуют и другие термины, по сути обозначающие то же самое: meet-me room, коммутационный центр и т. п. Может отличаться от FMR.