大型互联网产品/应用运维职责


一、 代码风险控制和线上服务配置安全控制。1、 通过我们的AOS系统对代码上线进行合理的审核,从研发、测试、产品、总监、运维各个环节增加管控,来实现代码安全性。
2、 通过我们的puppet管控对线上需要修改文件或修改系统配置,需要相关人员审核以便增加线上的安全性。
3、通过我们的puppet管控对线上需要安装软件等,需要相关人员审核以便增加线上的安全性。二、 发现问题1、 通过zabbix收集服务器上各个指标,比如系统负载、业务宕机,业务状态是否良好通过短信和邮件方式进行报警。(第一种报警方式)
2、 通过grafana+ influxdb展现出各个业务的状态是否良好、程序是否宕机、系统负载属于正常等,通过NOC组24小时人员监控进行电话报警。(第二种报警方式)
3、 通过kibana+spark+es收集日志信息,通过日志筛选和过滤展现出出问题的接口以及慢接口。比如5分钟内出现5XX的错误top10的url。通过noc组24小时人员监控进行电话报警。(第三种报警方式)
4、 通过我们的smokeping网络监控,可以检测出公司使用各个机房的网络连接情况。能够判断出是否网络问题导致业务有影响。三、 分析问题1、 通过kibana+es收集日志信息,通过日志的筛选和过滤找出慢接口和关联性以及通过大量数据找出可能将要出现的问题,进行分析问题。
2、 通过kibana+es大量的日志信息以及对整体业务的架构把控,做出合理的业务架构方案。使业务更合理和优越。四、 处理问题1、 收到短信和电话报警后,通过grafana+ influxdb找出问题具体事项,并通过kibana+es快速的查找问题接口以及出现问题的根本原因。
2、 接受到报警后,通过grafana+ influxdb、kibana+spark+es、smokeping、kibana+es综合性的快速查找问题根本原因。
3、 通过grafana+ influxdb观察确定依赖资源是否有问题。五、 事后总结问题1、 做出容灾和应急方案,出现问题能第一时刻恢开发云主机域名复业务,保障业务的稳定运行。
2、 针对每次出现的问题进行问题分析、改进。便于下次同样类型的问题不会再次发生。六、 运维自动化1、 通过我们的puppet进行自动化配置,减少人工的手动操作避免人员的误操作同时增加人员的管控,增加了线上服务器安全性。
2、 通过我们的cmdb能够快速的查询服务器硬件配置、域名归属、服务器管理员等。
3、 通过我们的rt事务追踪管理能够快度的定位最近服务器上进行了那些重要操作信息。
4、 通过我们的sip系统够查看当前管理员负责当前业务下的所有服务器、域名等便于批量授权用户。
5、 通过我们的AOS代码上线,减少人员的操作避免人员的误操作。
6、 通过我们的docker平台,更好的合理运用服务器硬件资源,减少产品成本运算

相关推荐: MySQL-Cluster-7.4 安装centos 6.9 64bit具体方法

下文主要给大家带来MySQL-Cluster-7.4 安装centos 6.9 64bit具体方法,希望这些内容能够带给大家实际用处,这也是我编辑MySQL-Cluster-7.4 安装centos 6.9 64bit具体方法这篇文章的主要目的。好了,废话不多…

免责声明:本站发布的图片视频文字,以转载和分享为主,文章观点不代表本站立场,本站不承担相关法律责任;如果涉及侵权请联系邮箱:360163164@qq.com举报,并提供相关证据,经查实将立刻删除涉嫌侵权内容。

Like (0)
Donate 微信扫一扫 微信扫一扫
Previous 04/02 15:40
Next 04/02 15:52