Disclaimer: я благодарен за эту информацию, своему коллеге-другу Сергею Т., который взял на себя бремя обеспечения инфраструктуры РК на базе DPM 2016. Оригинал текста слегка модифицирую, чтобы сделать более читабельным.
Пытаемся сделать резервную копию сервера ConfigMgr Stand-alone Primary Site Config_Mgr_Name (базы данных установлены отдельно), как виртуальную машину с кластера.
Завершалось все ошибкой:
Affected area: RCT\Config_Mgr_Name
Occurred since: 1/24/2018 8:40:11 AM
Description: The replica of Microsoft Hyper-V RCT\Config_Mgr_Name on SCVMM Config_Mgr_Name Resources. Cluster_Name is inconsistent with the protected data source. All protection activities for data source will fail until the replica is synchronized with consistency check. You can recover data from existing recovery points, but new recovery points cannot be created until the replica is consistent.
For SharePoint farm, recovery points will continue getting created with the databases that are consistent. To backup inconsistent databases, run a consistency check on the farm. (ID 3106)
An unexpected error occurred while the job was running. (ID 104 Details: Unknown error (0x80041069) (0x80041069))
Date inactivated: 1/24/2018 9:03:00 AM
Recommended action: No action is required because this alert is inactive.
Короче DPM говорит, что не может и отвалите от него.
В VMM - тишина.
На хосте, где размещается ВМ, нашел ошибки:
'Config_Mgr_Name' failed to perform the operation. The virtual machine is not in a valid state to perform the operation. (Virtual machine ID 872B50C5-AE1F-4486-A37A-B3A719F4DB52)
The Hyper-V Virtual Machine Management service encountered an unexpected error: Catastrophic failure (0x8000FFFF).
The description for Event ID 3280 from source Microsoft-Windows-Hyper-V-Worker cannot be found. Either the component that raises this event is not installed on your local computer or the installation is corrupted. You can install or repair the component on the local computer.
If the event originated on another computer, the display information had to be saved with the event.
The following information was included with the event:
The locale specific resource for the desired message is not present
Checkpoint operation for 'Config_Mgr_Name' failed. (Virtual machine ID 872B50C5-AE1F-4486-A37A-B3A719F4DB52)
Явная отсылка к чекпойнтам в последнем сообщении.
Поэтому решил проверить создание снепшота вручную из консоли VMM. И опять печаль:
Error (12700)
VMM cannot complete the host operation on the 'host_name' server because of the error:
Unknown error (0x8004)
Recommended Action
Resolve the host issue and then try the operation again.
VMM cannot complete the host operation on the 'host_name' server because of the error:
Unknown error (0x8004)
Recommended Action
Resolve the host issue and then try the operation again.
Катаем виртуалку между хостами – не помогает.
Выключаем ВМ.
Создание снапшота на выключенной виртуальной машине завершается успешно.
Бэкапить только выключенную виртуалку – моветон. Копаем глубже.
Создание Standard Checkpoint вместо стандартного режима по умолчанию ProductionChekpoint (Ответственность за каламбур лежит на MS) завершается успешно.
Переключаемся на него и стартуем задание DPM.
DPM игнорирует наши телодвижения на VMM и продолжает неуспешно завершать задание. Резервное копирование состояния системы тоже завершается с ошибкой.
Осознаем, что что-то не так в гостевой ОС Config_Mgr_Name и это надо решать.
Лезем смотреть ошибки на Config_Mgr_Name
VSS providers и writers в порядке.
Находим ошибку в Event Viewer:
Cryptographic Services failed while processing the OnIdentity() call in the System Writer Object.
AddLegacyDriverFiles: Unable to back up image of binary Microsoft Link-Layer Discovery Protocol.
System Error:
Access is denied.
И предупреждение:
A provider, SMSDPProvider, has been registered in the Windows Management Instrumentation namespace root\SCCMDP to use the LocalSystem account. This account is privileged and the provider may cause a security violation if it does not correctly impersonate user requests.
Исправляем ошибку вот такой страшной командой в CMD из-под администратора:
Пробуем – не работает по-прежнему, но ошибка пропала. Грустим.
Лезем в консоль Configuration Manager и проверяем компоненты (ну есть же предупреждение про SMSDPProvider)
Находим, что компонент SMS_HIERARCHY_MANAGER превысил свои лимиты на ошибки и ушел в Critical.
Лезем в сообщения об ошибках и находим:
Hierarchy Monitoring detected that the Database File Disk (P:\) is running out of space.
Осознаем, что на SCCM нет диска P:, перечитываем сообщения и лезем на кластер SQL серверов.
Находим, что диск P: - это как раз диск базы данных SCCM, и на нем свободно чуть меньше 2 GB, то есть около 20%. Но мы же не первый раз с MS дружим.
Увеличиваем диск до 20GB.
Сбрасываем счетчики в ConfigMgr, перезагружаем Config_Mgr_Name в очередной раз и запускаем резервное копирование.
Оно успешно выполняется, поминаем слонов, зажаренных в карри и идем лечить расшатанные нервы вискарем.
