<div dir="auto">This may have been brought up in the past, but I couldn't find much in my message  archive.<div dir="auto">What are people using for HPC cluster monitoring and metrics lately? I've been low on time to add features to my home grown solution and looking at some OTS products. <div dir="auto">I'm looking for something that can do monitoring, alert on condition, broken hardware, etc.</div><div dir="auto">Also something that does system resource utilization metrics. If it has a plug-in for a scheduling system like PBS where I can correlate a job ID to the metrics of the systems it is currently running on or previously ran on at the time, that would be an amazing plus.</div><div dir="auto">Any of you beowulfers have any suggestions?</div></div></div>