Для кого SLA – мгла, расскажем, в чем тут дела / Хабр

I. предоставляемые услуги

В этом разделе мы описываем все работы, которые «IT-консалт» выполняет для Заказчика, и системы, которые находятся у нас на поддержке. По каждому виду работ определяется график и ограничения объема услуг, если они есть. Отдельно оговариваются те работы, которые не входят в нашу зону ответственности.

Исполнитель обязуется оказывать Заказчику услуги по сопровождению программного обеспечения 1С 8 ERP, установленного у Заказчика, на следующих инсталляциях:

Период оказания услуг — с «___» _______ ____ г. — «___» _______ ____ г.

Перечень услуг по сопровождению, время предоставления и ограничения по объему оказываемых услуг указан в таблице:

УслугаВремя предоставления*Объем услуг
Консультации пользователей по работе с ПО, помощь в решении проблем в части бизнес-процессов:
— Приемка на склад — Отгрузка готовой продукции
24/7Не ограничен
Консультации пользователей по работе с ПО, помощь в решении проблем в части прочих бизнес-процессовС 9:00 по 18:00 в рабочие дниНе ограничен
Контроль выполнения регулярных процедур по согласованным регламентам24/7Не ограничен
Мониторинг интеграций с системами Меркурий, EDI, восстановление работоспособности интеграций24/7Не ограничен
Мониторинг и поддержание работоспособности сервера приложений24/7Не ограничен
Ведение пользовательской документации (обновление документации при изменениях в ПО, ведение раздела «FAQ»)ЕжемесячноНе ограничен
Выдача и изменение пользовательских прав, ролей (по заявкам ключевых пользователей или службы безопасности)С 9:00 по 18:00 в рабочие дниНе ограничен
Эскалация вопросов, не относящихся к области компетенции Исполнителя (администрирование инфраструктуры, администрирование БД)С 9:00 по 18:00 в рабочие дниНе ограничен
Исправление ошибок в программном коде ПОС 9:00 по 18:00 в рабочие дниНе ограничен
Доработка ПО в соответствии с бизнес-требованиями ЗаказчикаС 9:00 по 18:00 в рабочие дниНе более 40 плановых часов в месяц **
Обновление систем на новые версии, поставляемые производителем ПОС 9:00 по 18:00 в рабочие дниНе более 2 раз в год
Читайте про операторов:  Оператор домашнего Call-центра Тинькофф — отзывы. Негативные, нейтральные и положительные отзывы

* Время часового пояса Москвы.

** Плановые часы — часы на выполнение модификации, включая постановку задачи, кодирование, тестирование и перенос модификации на рабочее приложение; плановые часы являются оценкой Исполнителя, в обязательном порядке согласуются с ответственным представителем ИТ-службы Заказчика.

В перечень услуг, оказываемых Исполнителем, не входят следующие задачи:

  • Поддержка оборудования и инфраструктуры системы (сервера, каналы связи, системное ПО, включая подсистему печати, сервер базы данных), лицензионные ключи на ПО
  • Администрирование базы данных, в т.ч. обеспечение сохранности данных (резервное копирование).

Способы взаимодействия пользователей Заказчика и Исполнителя:

  • E-mail
  • Телефон
  • Система Service Desk Исполнителя

Конкретные почтовые адреса, телефоны и учетные записи для Service Desk определяются в регламенте взаимодействия.

Iii. приоритеты и нормативное время решения заявок

В этом разделе мы описываем принципы очередности выполнения заявок поддержкой, включая разбивку бизнес-процессов Заказчика по степени критичности. Здесь же описывается нормативное среднее время решения заявок и предельная доля тех заявок, которые не уложились в нормативное время.

Приоритет заявок определяется дежурным специалистом Исполнителя, исходя из бизнес-процесса, по которому поступила заявка от пользователя ПО, и характера заявки. Нормативное среднее время выполнения заявок и максимально допустимая доля заявок, время выполнения которых не уложилось в нормативное время, представлена в таблице:

ПриоритетСреднее время решения заявкиДоля просроч. заявокВиды заявок
1КритическийНе более 2 рабочих часовНе более 20%Нарушения в работе ПО, которые приводят к неработоспособности одной или нескольких инсталляций в целом.

Мониторинг и поддержание работоспособности сервера приложений

2ВысокийНе более 4 рабочих часовНе более 20%Консультации пользователей по работе с ПО, помощь в решении проблем в части бизнес-процессов высокого приоритета:

— Приемка на склад

— Отгрузка готовой продукции

— Казначейство

Эскалация вопросов, не относящихся к области компетенции Исполнителя (администрирование инфраструктуры, администрирование БД)

Контроль выполнения регулярных процедур по согласованным регламентам

Мониторинг интеграций с системами Меркурий, EDI, восстановление работоспособности интеграций

3СреднийНе более 16 рабочих часовНе более 20%Консультации пользователей по работе с ПО, помощь в решении проблем в части прочих бизнес-процессов

Выдача и изменение пользовательских прав, ролей

4НизкийНе более 40 рабочих часовНе более 20%Исправление ошибок в программном коде ПО
5ФоновыйПо согласованиюДоработка ПО в соответствии с бизнес-требованиями Заказчика

Обновление систем на новые версии, поставляемые производителем ПО

Ведение пользовательской документации (обновление документации при изменениях в ПО, ведение раздела «FAQ»)

По взаимному соглашению сторон приоритет заявки может быть изменен как в большую, так и в меньшую стороны.

Время решения заявки рассчитывается как разница между датой/временем решения заявки и датой/временем регистрации заявки в ServiceDesk, за вычетом периодов нерабочего времени (в соответствии с графиком предоставления услуг в разделе I) и за вычетом времени нахождения заявки на стороне пользователя:

  • Уточнение у заказчика
  • Согласование заказчиком
  • Тестирование заказчиком
  • Передано сторонней службе

Доля просроченных заявок рассчитывается как отношение количества заявок данного приоритета, время решения которых больше нормативного, к общему количеству заявок данного приоритета.

Sla в информационных технологиях

В типовом договоре об оказании услуг, связанных с информационными технологиями указываются сроки предоставления сервиса, количество, характеристики и местоположение задействованного в оказании услуги аппаратного и программного обеспечения, порядок размещения и прохождения заявок на обслуживание, сроки и размеры платежей, связанных с предоставлением сервиса, ответственность заказчика и исполнителя, а также процедура разрешения разногласий.

Если SLA относится к работе ИТ-подразделения, то в наборе параметров SLA отражаются ключевые ИТ-процессы, с которыми связана его деятельность. Соблюдение параметров SLA становится ключевым показателем эффективности работы подразделения.

Для соблюдения принятых в SLA обязательств, поставщик услуг заключает также операционное соглашение об уровне услуг (OLA, operational-level agreement) с другими внутренними подразделениями, от которых зависит качество предоставления услуг.

Каковы стандарты «уровня обслуживания» (sl) контактного центра?

Мы продолжаем делиться результатами наших исследований по работе контактных  центров. Эта статья, в частности, посвящена анализу уровней обслуживания по различным каналам взаимодействия с клиентами (телефон, электронная почта, онлайн-чат и т. п.)

Научный труд под названием «Обеспечивает ли ваш контактный центр образцовое обслуживание клиентов?» за 2022 год провел большую работу по исследованию всех вышеупомянутых каналов, стараясь посвятить равное внимание каждому из них.  Детальный анализ уровня обслуживания (SL, или иногда SLA) и его различных составляющих помог нам выявить некоторые закономерности, влияющие на выбор целевого показателя SL.

Итак, давайте посмотрим, что нам удалось выяснить.

Телефон

Среднестатистический SL-показатель по отрасли – в течение 20 секунд ответить на 80% звонков

Уровень обслуживания, или SL (ServiceLevel) – это один из важнейших критериев того, насколько работа контактного цента по обработке звонков соответствует его целевому ориентиру.

Наши исследования показывают, что средний SLA-показатель для индустрии многие годы остается равным  80/20, и  большинство контактных центров  решают придерживаться именно этого значения.

Из приведенного ниже точечного графика мы видим, что в отметке 80/20 сконцентрирована большая часть полученных нами данных по различным контакт-центрам.    

Уровень обслуживания

График 1:Уровень обслуживания, оказанного по телефонным каналам связи (основано на ответах 250 контакт-центров). Вдоль вертикальной оси координат – слова «Скорость ответа (в секундах)», вдоль горизонтальной – «Процент отвеченных звонков»

Однако, если приглядеться повнимательнее, то можно заметить, что ощутимая часть звонков заметно отклоняется от общепринятого эталона. Дальнейший анализ показывает, что эту, не подчиняющуюся традиционному стандарту долю звонков, можно, в свою очередь, разделить на две группы. Одна группа представлена теми контакт-центрами, которые отклоняются от «нормы» по вертикали (т. е. не спешит уложиться в заданную скорость ответа);  другая – теми, кто отклоняется от нее по горизонтали, т. е. по более высокому процентному показателю.

Отклонения от «нормативного» времени

Взгляните на график еще раз, и вы увидите, что мы обвели красным не только тот кластер данных, который относится к  отметке 80/20, но и два других. Первый из них (который мы назвали RelaxedAnswer Time – т. е. «Отклонение от образцово-показательного времени») находится чуть левее основного (или «нормативного»), и объединяет данные, сконцентрированные в районе отметок 70/20 и 80/60.

Хотя некоторые исследователи продолжают настаивать на эталоне в 80/20, не предполагает ли полученная на основе наших данных диаграмма то, что некоторые контакт-центры намеренно пытаются заставить ждать своих клиентов дольше, чем «положено по нормативу»?

Положим, что в выбранной ими линии поведения может быть некий смысл. Финансовые выгоды подобной стратегии понятны, поскольку при работе с более низким SLA, равным 70/20 и 80/60, контактному центру должно потребоваться меньше сотрудников.

Организации, принадлежащие этому кластеру, могли найти определенную закономерность между их «нестандартным» SLA и клиентской удовлетворенностью (CSAT).  И,  если удовлетворение клиентов от применения выбранной ими стратегии растет, то это хорошее маркетинговое обоснование для их заниженного эталонного значения SLA.

Однако, прежде чем следовать этой бизнес-стратегии, стоит обратить внимание на то, как такой подход может повлиять на уровень необработанных вызовов (т. е. звонков, прерванных по истечение определенного временного порога). Не повлечет ли такая стратегическая схема потерю колл-центром большого количества звонков?

Повышенный уровень SLA

Если мы еще раз посмотрим на наш график, то увидим, что остался еще один кластер, расположенный справа от «стандартного». Он говорит о том, что помимо группы контакт-центров, стремящихся занизить свой SLA, существует другая, противоположная ей группа с совершенно противоположной целью.  Мы назвали этот кластер «Boosted Service Level», и сейчас попытаемся понять его логику.

Наличие отклонений от стандарта наводит на мысль что, проанализировав свои клиентские базы, организации, принадлежащие этому кластеру, кажется, нашли еще одну закономерность, влияющую на изменение их целевого SLA, но совершенно в обратную сторону. Вероятно, существует некая взаимосвязь между SLA-показателем, уровнем необработанных звонков и клиентской удовлетворенностью.

Это неплохая новость, поскольку она предполагает, что контактные центры не просто принимают традиционные отраслевые стандарты за чистую монету, а внимательно изучают свою клиентуру и ее опыт взаимодействия с брендом.

В зависимости от того, по какому вопросу и в какую службу звонит клиент, он настраивает себя на разные периоды ожидания ответа. Логично, что абонент, желающий поговорить со службой технической поддержки, скорее всего, ожидает, что  услышит ответ оператора техподдержки не настолько быстро, чем, если бы он позвонил в отдел розничной торговли.

Поэтому есть все основания полагать, что многие удалённые контактные центры выстраивают свои графики зависимости SLA от необработанных звонков.  Проанализировав эту взаимосвязь, они могут установить пороговые значения для необработанных вызовов, скажем, в 3 или 5% – в зависимости от планируемого уровня CSAT и корпоративных ценностей – что позволяет им сориентировать как уровень своего SLA, так и количество консультантов, необходимых для достижения поставленных перед центром задач.

Электронная почта

Среднеотраслевой стандарт – в течение 24 часов ответить на 100% электронных писем

В последнее время начали динамично развиваться другие, альтернативные телефону, способы взаимодействия с клиентами, такие как электронная почта (email), живой чат, мессенджеры и социальные сети. И хотя SLA-стандарты для многих из них пока не разработаны, приятным исключением из этого списка является email, SLA-анализ которого все активнее внедряется в нашу повседневную маркетинговую практику. Взгляните на результаты нашего анализа, которые мы представили в графическом виде ниже:

Уровень обслуживания, оказанного с помощью электронной почты

График 2:Уровень обслуживания, оказанного с помощью электронной почты

Из вышеприведенного графика видно, что большая часть ответов на письменные запросы клиентов  сконцентрирована   на отметке 100/24.  Заметим, однако, что диаграмма отражает и другие, хоть и не такие частые, особенности.  Некоторые данные  имеют тенденцию группироваться в районе отметок в 80, 90 и 95 процентов.  

Взгляните еще раз на отметку в 100%, и вы увидите, что над и под основным кластером (100/24) находятся еще два: один с показателем 100/3, и другой – 100/48. Это означает, что одни организации придерживаются правила отвечать в течение 3-х часов на все 100% электронных писем, а другие – следуют другой тактике, отвечая на все полученные ими сообщения в течение 48 часов.

Перед нами вырисовываются два типа контакт-центров, следующих противоположным стратегиям. Первые предпочитают отвечать на клиентские запросы как можно быстрее, а вторые выжидают почти по двое суток, прежде чем дать ответ отправителю.  

Хотя встречались и такие центры, которые начинали отвечать на клиентские запросы еще позднее. Это уже более рискованная тактика, грозящая тем, что, не дождавшись ответа на свое письмо, клиент напишет повторное,  что неминуемо увеличит FCR (First Contact Resolutionрешение вопроса при первом обращении) вашего контактного отдела.  Рискованность  такого (да и вообще любого) выжидания заключается в том, что клиент может разочароваться и решить контактировать с центром уже не через email, а через совершенно другой канал, например, телефон, тем самым создавая дубликаты обращений через разные каналы взаимодействия.  Это одинаково плохо как для контакт-центра, так и для самого клиента.

Хотя мы не можем установить SLA-стандарт через изучение необработанных email-обращений, можно попробовать сделать это путем изучения взаимосвязей между уровнем обслуживания, повторными обращениями и клиентской удовлетворенностью.

Лучшие выбирают критерий в 4 часа

Хорошая новость заключается в том, что наш анализ выявил не только плохие, но и множество хороших примеров.  Среди исследуемых нами контакт-центров есть масса таких, которые отвечают на все поступающие к ним email-обращения в течение 4-х часов.

Мы пошли еще дальше и, проанализировав  этот кластер более детально, выяснили, что 13,9% этих организаций обрабатывают электронные письма за один час, а 35,4%  – менее чем за 4 часа.

Если учитывать абсолютно все данные, полученные нами в ходе этого исследования, то получается, что уровень обслуживания через email-канал крайне разнообразен: в то время как одни удалённые контакт-центры предпочитают следовать почти «мгновенному» критерию ответов, другие склоняются к тому, чтобы выжидать по двое суток и более.

Но что еще более интересно, это то, что такое же разнообразие наблюдается не только в email-сфере, но и в некоторых других каналах взаимодействия, например, в живом чате.

Онлайн-чат

Среднестатистический уровень обслуживания по индустрии – 80/20

Онлайн-чат – еще более молодой канал, чем только что рассмотренные нами телефон и электронная почта.  Поэтому разработка четкого SLA-стандарта для него – дело еще более трудное, требующее больше ресурсов, времени,  и серьезного и всестороннего анализа.

Уровень обслуживания, оказанного с помощью живого чата.

График 3:Уровень обслуживания, оказанного с помощью живого чата.

Этот график наглядно демонстрирует, что самый большой кластер образуется в районе отметки 80/20. Это означает, что 80% вопросов, заданных через чат, отвечаются в течение первых 20 секунд. Неудивительно, что многие центры решили ориентироваться именно на этот показатель и предлагать своим клиентам общение через чат как эффективную альтернативу телефонному звонку. Они считают, что живой чат – это прекрасный способ дать всем своим «нетерпеливым» клиентам возможность задать вопрос, и тут же получить на него ответ – вот почему масса центров стремится к показателю 80/20 как к наиболее целесообразному эталону.

И если другие центры и выбирают себе другой эталонный параметр, то он, как правило, имеет совсем незначительное отклонение от значения 80/20.  Следующие два кластера, находящиеся в районе отметок 90/30 и 100/30, – наглядное тому подтверждение.

Более того, если мы совсем немного реорганизуем данные нашего графика, то увидим, что частотность значения  90/30 несущественно отличается от частотности первоначально взятого нами за образец параметра 80/20.

Улучшайте свой эталонный SLA-показатель в чат-канале с осторожностью

В то же самое время, анализ онайн-чата, его SLA и стремления сократить время обработки чат-обращений требует более осторожного и комплексного подхода.

Взаимодействие с клиентами через живой чат – сфера, не настолько глубоко изученная как, скажем, телефон или email, поэтому она больше, чем какой-либо другой канал взаимодействия, подвержена ряду ошибочных предположений и заблуждений.

Взять хотя бы тот факт, который некоторые считают образцовым, и который заключается в том, что консультанты должны уметь (или, по крайней мере, стремиться к этому) обрабатывать несколько чат-запросов одновременно.  На самом же деле, подобный образ действий не всегда оправдан и может привести к быстрому психологическому выгоранию сотрудника и длительным задержкам в ходе общения с клиентом, вызывая его нервозность и раздражение. 

Как выяснилось в ходе исследования, такой параллелизм обычно не приводит ни к чему хорошему и очень редко повышает среднюю скорость обработки обращения (или AHT). На самом деле, ваш AHT-показатель может только ухудшиться, что не только не повысит эффективность работы вашего контакт-центра, а наоборот, будет способствовать его снижению.

Социальные сети

Что касается социальных сетей, то средний показатель уровня SLA в этой сфере все еще не определен.

Почему? Чтобы понять причину, взгляните на графически представленные данные, выявленные в ходе нашего опроса. Одного взгляда на приведенную ниже диаграмму становится достаточно, чтобы увидеть, насколько разнообразна образованная этими данными картина, и  как трудно выявить среди множества полученных нами кластеров хотя бы пару или тройку отчетливых тенденций.

Уровень обслуживания, оказанного с помощью соцсетей

График 4:Уровень обслуживания, оказанного с помощью соцсетей

Такая дисперсия в ответах различных контактных центров связана со специфическими особенностями социальных сетей.  Одни считают, что соцсети созданы для неформального общения, поэтому люди не воспринимают их столь же серьезно, сколько другие каналы взаимодействия с брендом. Другие говорят, что, поскольку социальные сети привлекают внимание больших аудиторий (в том числе и вашей целевой), быстрый ответ на обращение клиента важен, серьезен и необходим.

При всем разнообразии приведенного выше графика мы можем, однако, отметить несколько устойчивых тенденций, одна из которых находится в районе отметки 100% / 60мин. Это наводит на предположение, что именно этот показатель, с небольшой натяжкой,  мог бы быть выбран нами в качестве отраслевого стандарта.  

Если бы это было в действительности так,  то это бы предполагало, что большинство контакт-центров ставят своей целью отвечать в течение часа на все 100% полученных обращений.  Но, видя еще с десяток точно таких же по величине кластеров, мы понимаем, что наше предположение не совсем верно. 

Действительно ли необходим быстрый ответ?

Всё то время, пока вы не отвечаете на пост вашего клиента, опубликованного в соцсетях, ваша целевая аудитория будет находиться под впечатлением этого поста;  и, чем он негативнее, тем рискованнее будет ваша ситуация. Поэтому следует систематически реагировать на посты и вопросы, обращенные к вашему бренду.

Вы можете это сделать, установив строгий SLA-коэффициент. Наше исследование показало, что большинство контакт-центров пекутся не столько  о скорости ответа,  сколько о  100%-ной реакции, или так называемой «отвечаемости».  Если  вы выберете такую же установку, то это поможет вам в том, что ни один «социальный»  комментарий не выпадет из вашего внимания.

Что касается скорости ответа, многим организациям этот показатель  не кажется столь же важным как «отвечаемость».  И хотя мы видим очень большую вариативность этой метрики, мы решили закончить нашу вертикальную ось отметкой в  4 часа (240 мин) – это наиболее оптимальный промежуток времени для того, чтобы успеть отреагировать и защитить (или подтвердить) имидж бренда.

Все зависит от того,  насколько серьезно контакт-центр и весь ваш бренд относится к своему имиджу и к своей целевой аудитории. Чем больше вы дорожите своим именем и к чем более высокому уровню обслуживания вы стремитесь, тем меньшее среднее время на обработку социальных обращений вы для себя выберете. Но если ваша компания рассматривает свою контактную службу не как один из источников завоевания аудитории, а как источник дополнительных затрат, то вполне вероятно, что средняя скорость вашего ответа (или ASA – Average Speed of Answer) может спокойно превысить 4-часовое пороговое значение нашей шкалы.

Хотя многие продолжают считать что в выборе проектного значения SLA издержки, затраты и CSAT играют далеко не последнюю роль, имидж бренда – это ключевой фактор, забывать о котором не следует никогда.

Подводя итоги

Итак, наш анализ различных каналов взаимодействия помог нам выяснить, что  среднестатистические показатели SLA для каждого из них имеют следующие значения:

  • Телефон: 80% звонков начинает обрабатываться в течение первых 20 секунд
  • Электронная почта: 100% писем –  в течение первых 24-х часов
  • Онлайн-чат: 80%  обращений начинают отвечать в первые 20 секунд
  • Социальные сети: точной информации нет

Одновременно с этим замечено, что существует изрядная вариативность показателей, говорящая о том, что большое количество контакт-центров стремится к своему собственному SLA , разработанному ими в ходе своих собственных исследований.

Мы планируем продолжить наши исследования в оставшихся сферах обслуживания, таких как SMS-сообщения и письма, и попробовать найти их уровень SLA.

По имеющимся у нас сейчас неполным данным мы могли бы предположить, что усреднённые SLA-показатели для этих каналов связи с клиентами могут быть примерно следующими:

  • SMS мессенджеры: 20 секунд – для ответа на 80% сообщений
  • Письма: 3 дня – для ответа на 95% писем

Хотя большой разброс ответов, полученных в результате наших последних опросов, не позволяет нам делать абсолютно уверенные предположения.

Поэтому, основной вывод нашего анализа сводится к обнаружению большого разнообразия SLA-показателей по различным каналам взаимодействия с клиентами.

Вот почему мы бы посоветовали вам более тщательно изучить свой уровень необработанных вызовов, свой CSAT и свой ASA для того, чтобы построить свою собственную диаграмму, отражающую взаимосвязь между этими тремя параметрами. Это помогло бы вам разработать тот уровень SLA, на который бы стал ориентироваться ваш контакт-центр для достижения наилучших результатов

Параметры, от которых зависит sla

Один и тот же сервис может предоставляться с разным уровнем качества. Поэтому в соглашении должны быть выделены группы клиентов, на которые будет распространяться конкретные значения метрик.

Должны быть определены критические сервисы, управление качеством которых будет осуществляться без каких-либо задержек. Например, для торговой организации это может быть сервис подключения менеджеров по продажам к CRM-системе, для дата-центра — время восстановления питания или доступа в интернет.

Важно отметить, что при выборе значений метрик необходимо устанавливать реальные нормы качества для SLA с учетом возможностей и целевых показателей. Это позволит гармонизировать предоставление услуги. Эти параметры должны соотноситься с бизнес-целями поставщика услуг и отражать реальные потребности пользователей.

Правильный выбор параметров также помогает реально прогнозировать сроки восстановления доступа к услуге в случае аварий. Критическими параметрами в этом случае могут выступать время реакции на инциденты и время восстановления полноценной работы услуги.

Важно учитывать, от каких процессов зависит качество контролируемых ИТ-сервисов и их метрик. Эти процессы будут служить ограничивающим фактором при установлении параметров в SLA. Например, при отражении сроков создания нового рабочего места необходимо учесть сроки закупки оборудования.

Большая часть показателей в соглашении об уровне обслуживания измеряют качество работы поставщика услуг «в цифрах», однако встречается и такой интегрированный параметр как «удовлетворенность сервисом», который определяется посредством опросов сотрудников компании-клиента, пользующихся соответствующими услугами.

В идеале опросы проводятся незаинтересованной третьей стороной, но, как правило, клиент делает это собственными силами. Несмотря на субъективность такой оценки (особенно в случае самостоятельного опроса), она может помочь в понимании того, правильно ли подобраны и ранжированы по важности измеряемые, «числовые», параметры.

В рамках данной статьи рассмотрим подробнее следующие две метрики SLA:

  • Доступность сервиса
  • Время реакции на инциденты

Параметры, применяемые в соглашении об уровне обслуживания sla

Параметры SLA – это метрики, которые можно измерить, они отвечают за качество предоставляемого сервиса. Физические величины, система единиц, применяемая профессиональная терминология должны быть понятны обычным потребителям, чтобы не возникало разночтений и разногласий в процессе сотрудничества.

Терминологию и цифры SLA договора заказчик должен понимать.

Метрика доступности услуг определяет наименьший промежуток времени, во время которого можно воспользоваться услугой. К примеру, поставщик IT-услуг гарантирует, что за год та или иная опция будет доступна заказчику на Икс процентов, а время простоя за указанный период составит Игрек часов.

Чем надежнее провайдер, тем выше уровень доступности и меньше время простоя сервиса.

Так, дата-центры ведущего российского провайдера Selectel соответствуют стандартам Tier III (уровень надежности) и PCI DSS (стандарт безопасности индустрии платежных карт). Что это значит?

Данный уровень надежности гарантирует доступность веб-ресурса в режиме – 24/7/365. Провайдер обещает процент работоспособности за месяц – 99, 8 % для линейки Chipcore на базе популярных декстопных процессоров Intel®️ Celeron, Intel®️ Core и AMD Ryzen™ и 100 % – для серверов на базе процессоров enterprise-класса Intel®️ Xeon и AMD EPYC™.

Такие серверы выдерживают очень мощные нагрузки, имеют более высокую производительность IOPS, работают на больших скоростях и с большими объемами по сравнению с декстопными серверами. Соответственно, и цена за услугу будет выше, чем для Chipcore.

В SLA договоре указывается не только процент доступности услуги, но и время, когда услуга будет недоступна, а также размер компенсации, если условие соглашения будет нарушено из-за сбоя инфраструктуры исполнителя.

Ниже в таблице можно видеть цифры для линейки серверных процессоров Selectel. Например, если доступность веб-сайта или приложения в течение месяца сохранялась от 99,79 % до 99,58 %, то это значит, что площадка была нерабочей от 1 часа 31 минуты до 3 часов.

Показатели услуги для линейки серверных процессоров Selectel
Показатели услуги для линейки серверных процессоров Selectel

Аварийные и профилактические работы, а также Жесткий грейс период (льготный период для оплаты и продления домена) обычно не засчитываются в часы недоступности услуги.

Обещая 100 % доступность, Selectel, как один из лидеров рынка, может себе это позволить. В распоряжении компании – шесть высокотехнологичных дата-центров, с общей площадью серверных помещений – более 8 тыс. кв.м, совокупной используемой мощностью – 14,4 МВт.


Но не все провайдеры имеют подобные технические возможности. Да и не всякому бизнесу нужен такой уровень доступности интернет-ресурса.

Так, малым предприятиям и ИП, где информационные технологии не являются основополагающим инструментом и нужны лишь для расширения внутренних рабочих процессов – вполне сгодится провайдер с уровнем надежности Tier I (базовым). Tire II подойдет для МП и ИП, где потребность в IT- услугах ограничена и систему можно без последствий отключать в нерабочее время.

Выбирая обслуживающую IT-компанию исходите из реальных потребностей в цифровых услугах. И обращайте внимание на уровень надежности небольших и малоизвестных провайдеров. Нередко, 100-процентные аптаймы серверов, которые они обещают, это просто уловка, чтобы выглядеть лучше конкурентов.

Поэтому заказчики должны понимать, что при выборе исполнителя/поставщика IT-услуг не стоит руководствоваться только этими параметрами. Обращайте внимание, сколько лет компания на рынке, с кем работает, насколько успешно функционируют ресурсы, обслуживаемые данным провайдером.

Вообще, заявленный уровень доступности следует воспринимать не как гарантию бесперебойной работы приложения или сайта, а скорее, как гарантию, что исполнитель приложит максимальные усилия для стабильной работы своей IT-структуры и вашего сервиса. Потому что интернет вылетает всегда и периодически, другой вопрос, что делает IT-компания, чтобы предупредить и минимизировать поломки.

Мотивация традиционная – сохранить и приумножить клиентов, не допустить репутационных потерь и штрафных санкций. Причем, последние, на самом деле, не имеют для крупных заказчиков и IT-исполнителей решающего значения. Компенсация по договору SLA возвращает деньги в рамках тарифа пропорционально простою оборудования.

Партнерам по SLA важно не «запугивать» друг друга штрафными санкциями и перерасчетами тарифов, а добиваться высокого уровня предупреждения, реагирования и устранения недочетов. И ориентироваться на продуктивное долгосрочное сотрудничество.

Задача SLA договора – достичь высокого уровня предупреждения и устранения ошибок.

Временные параметры

Клиенты должны понимать, почему установлены разные временные границы реагирования и ликвидации какой-либо ошибки. Время реакции на произошедший инцидент определяется важностью поломки.

  • Так, если перестал работать один из модулей, это считается низким уровнем критичности.
  • При средней ступени поломки – вылетают два-три и более модулей.
  • Если аварийный случай нарушил работу большого участка сервиса, то это уже высокая степень критичности.

К примеру, если вдруг разом обрушились 20 тонких клиентов (бездисковых компьютеров) из 30, то реакция на инцидент составит 15-30 минут, а время устранения проблемы займет от 1 до 5 часов. При этом на поломку принтера специалист может отреагировать через час, хотя устранение проблемы займет всего 10 минут.

Метрику Время решения проблемы каждый исполнитель/поставщик IT-услуг обозначает, исходя из стандартных рекомендаций SLA договора и с учетом своих технических и физических возможностей. Во избежание будущих конфликтов, метрики стоит указывать не конкурентно привлекательные, а реальные для достижения.

Величина времени простоя складывается из двух значений: продолжительность реакции на проблему и ее решение. Все показатели указываются в минутах и часах, иногда – днях.

Когда сроки нарушаются или не соблюдается уровень оказываемых услуг по качеству, назначаются штрафы.

Штрафные санкции, как и оплата услуг (постоянная абонентская плата/ отдельные тарифы на устранение каждой неполадки), тоже прописываются в SLA договоре с указанием цен и денежной валюты.

Оценить результаты устранения ошибок можно с помощью двух метрик:

  • Сколько проблем было решено вовремя.
  • За какое время (среднее значение) был устранен инцидент.

Подробные рекомендации по оценке KPI (индикаторов эффективности) по SLA договору есть в ITIL и COBIT.

Порядок работы по договору sla

Определяем критично важные сервисы. В первую очередь, необходимо определить, какие программные сервисы наиболее важны для работы заказчика.

  • Для маркетплейсов – это бесперебойная работа CRM – системы, которая управляет взаимоотношениями с клиентами.
  • Провайдерам хостинга и интернета необходимо обеспечить средние значения доступности сервера и способности соединения.
  • Центру обработки данных (ЦОД, или дата-центр) важно, чтобы ему гарантировали непрерывный доступ в сеть и не было проблем с электроэнергией.

Критичные сценарии заказчик и исполнитель определяют совместно.


Первостепенная задача по SLA – определить стратегические направления работы сервиса.

Устанавливаем системы мониторинга. После определения стратегических направлений работы сервиса необходимо выбрать системы мониторинга. Например, если для службы доставки важно, чтобы платежная система работала непрерывно, значит, IT-исполнитель должен настроить автотесты, которые будут постоянно мониторить экран оплаты.

В списке возможных систем мониторинга:

  • Автотесты, которые позволяют круглосуточно отслеживать нагрузку на сервер.
  • Системы логирования помогают обнаружить источник проблемы.
  • Крашлитика сообщает об аварийном прекращении работы приложения.
  • Система сбора и анализов отзывов отыскивает самые редкие ошибки и возможные идеи развития проекта.
  • Подключение уведомлений в мессенджерах, электронной почте или по телефону, которые сигнализируют о сбоях в работе.


Для примера рассмотрим процесс нахождения ошибок и их исправление в энергосбытовой компании, включая 10 филиалов.

Для мониторинга серверов клиента настроен zabbix.

Zabbix – свободная система мониторинга и отслеживания статусов разнообразных сервисов компьютерной сети, серверов и сетевого оборудования.


Функции системы:

  • проверка нагрузки на процессор;
  • проверка нагрузки на оперативную память;
  • проверка нагрузки на жесткий диск;
  • проверка свободного места;
  • проверка свободной оперативной памяти;
  • проверка доступности сервера;
  • проверка доступности страниц сайта;
  • построение графиков нагрузки;
  • уведомление о проблемах на почту, sms, telegram и др.

Подключенные тесты каждые 30 минут в автоматическом режиме совершают примерно 50 запросов по основным этапам пути клиента. Если приходит уведомление о проблеме, то менеджер по договору SLA, отследив ситуацию, проводит дополнительное тестирование, чтобы убедиться в наличии ошибки.

Пример графика по нагрузке процессора
Пример графика по нагрузке процессора

Подключаем систему сбора анализов и отзывов из приложения и сторов.

Данная услуга позволяет отслеживать ошибки в приложении, которые причиняют неудобства пользователям. Отзывы клиентов появляются либо в самом приложении, либо в сторах на App и Google. Ответственный за ваш проект менеджер собирает отзывы в едином окне, чтобы их было удобно читать и сортировать по датам. Feedback (обратная связь) от клиентов помогает разработчикам устранять редкие ошибки и улучшать продукт.

Настройка визуализации инцидентов

Установив системы мониторинга, необходимо также настроить визуализацию, чтобы заказчик и исполнитель могли оперативно получать информацию о возникновении инцидента на почту, в мессенджеры или на телефон.

Координирование проекта SLA менеджером. На каждый проект обычно назначается ответственный менеджер, который координирует работу веб-сервера/приложения. Именно он связывается с разработчиками, отслеживает отзывы клиентов. По итогу составляет еженедельные или ежемесячные отчеты для заказчика об ошибках и проведенных действиях.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *