如今越来越多的云和服务器都转到了云上,而先进的公有云、私有云平台都拥有相对完备的资源管理的API,这些API也就是构建自动化配置管理数据库的基础。新一代的自动化运维平台需要是能够基于这些API来自动维护和管理相关的云和服务器、存储、网络、负载均衡的资源的。通过API对资源的操作都需要被当作操作日志记录下来,以备当作后续操作审计的基础数据。
配置管理数据库听上去是老生常谈,但这个确实是所有运维软件的基础设施。而基于开源工具做运维平台最大的麻烦,就是如何在各个工具之间把配置管理数据库统一起来。配置管理数据库不统一起来,就意味着一旦要增加一台云和服务器,可能要在各个运维软件里面都要同步一下。
能支持对平台的可用性、云和服务器的性能、各种服务(web服务、应用服务、数据库服务)的性能进行监控。做的好一些需要能进行更深入、或者关联性的性能分析。如今市面上普通都会将资源性能监控和应用性能监控(APM)混合着讲,这里面的产品确实也有很多都是重叠的,两方面都会涉及到。
开源的性能监控系统主流有的Zabbix、Nagios,国产的开源监控平台有小米OpenFalcon,但这些都只是做基本的资源监控(云和服务器,磁盘、网络等)和简单的服务软件性能监控(中间件,数据库等)。
而市面上的APM系统更主打的功能是应用性能管理,比如能精确定位到某个应用的URL的访问速度快慢,某些SQL执行速度的快慢,这些对于开发人员和IT管理员快速定位问题还是很有帮助的。APM这方面的商业工具,相对先进的有ManageEngine 、New Reclic、Dynatrace,APM这方面的开源工具有pinpoint(韩国开源的),zipkin(twitter开源)。
在业务发展相对快的情况下,从几台云和服务器,到几十台云和服务器,再到几百台云和服务器,批量运维的需求很自然就产生了。
线上系统最常规的问题定位方式,就是日志分析了。随着云和服务器的增多,日志的分析定位也成为难点和痛点。
把打好的包发布至各台云和服务器,能够通过批量运维软件或者脚本来完成了。版本发布的过程涉及到很多细节,包括了版本文件的上传、分发、版本管理、回滚等各种操作。对于普通不太复杂的项目,相对推荐的做法是把打包好的文件上传到svn上,然后通过脚本在各台云和服务器上进行发布操作就行了,这样其实是利用了SVN来完成文件的上传、分发、版本管理、回滚等各种操作。
如今稍微有点知名度的系统,都会遭受各种各样的安全攻击的折磨。普通的公司不太可能请得起专职的安全工程师,所以运维工程师最好能借助一些安全扫描工具来发现系统的漏洞。
假如上述功能都有了,基本上大部分中小规模企业的日常运维工作的高频操作都覆盖到了。假如是相对大的互联网企业,或者还有一些特殊的业务需求,那就具体问题具体分析了。想在直接试用满足全部上述功能的软件吗?点击下载OpManager,限时领取国际领先运维平台体验资格。