-
云“战疫”:8天扩容100万核,我们是这样跟踪的
所属栏目:[经验] 日期:2021-06-01 热度:201
常见的监控手段为阈值监控,对业务形态比较熟练的开发、运维人员在指标上设置一个恰当的阈值,一旦偏离阈值,系统即发送告警到开发人员。 然而阈值设置的合理性不易判断。在数千万、上亿用户的场景下,阈值少设或多设 0.01% 都代表数千、上万人的体验受损[详细]
-
遍布全球数十个国家,千亿级的监控体系是这样炼成的
所属栏目:[经验] 日期:2021-06-01 热度:127
首先是游戏架构的变迁,从最开始的单机架构,扩展到分布式架构。也就是说,玩家看到一个游戏服,在后面会有十几台机器,有的甚至多达百台机器,取决于玩法不同。 后来,很多游戏的开发接触到微服务的概念,开始逐渐的把游戏里面比如大厅、聊天服务从游戏的[详细]
-
书本上没有的:万台服务器下运维怎样做好监控?
所属栏目:[经验] 日期:2021-06-01 热度:87
异常检测在运维实践中有着举足轻重的地位,实时、准确的发现异常能够帮助我们及时采取行动,最大限度减少故障的损失。 在监控领域中,其实最重要的一点是要能够通过一些监控指标发现问题,当我们的系统越来越大越来越复杂的时候,想从繁杂的指标当中,几百[详细]
-
轻松解决百万并发的Nginx,你知道它是怎么处理这些网络事件的吗
所属栏目:[经验] 日期:2021-06-01 热度:168
接下来看上面这张图,比如主机 A 就是一台家里的笔记本电脑,那么主机 B 就是一台服务器,上面跑着 Nginx 服务。从主机 A 发送一个 HTTP 的 GET 请求到主机 B,这样的一个过程中主要经历了哪些事件?通过上图数据流部分可以看出: 应用层里发送了一个 GET[详细]
-
从技术运营中台建设到AIOps落地,看着一篇就够了
所属栏目:[经验] 日期:2021-06-01 热度:66
我们就对下一代运维是怎么理解呢?其实当 5G 来了之后,我们理解是有两个新的要求:第一,我们面临的一些场景会变得复杂化,对原有运维能力的要求也更高了。第二,5G 来了之后运维边界也是不断拓展的。 第一点怎么理解呢?大家可以思考一个问题,我们运营[详细]
-
分析 | Nginx为什么快到停不下来?
所属栏目:[经验] 日期:2021-06-01 热度:117
HTTP 连接建立和请求处理过程 Nginx 启动时,Master 进程,加载配置文件 Master 进程,初始化监听的 socket Master 进程,fork 出多个 Worker 进程 Worker 进程,竞争新的连接,获胜方通过三次握手,建立 Socket 连接,并处理请求 Nginx 高性能、高并发 Ngi[详细]
-
运维监控做到什么程度,就达到 BATJ 的水准了?
所属栏目:[经验] 日期:2021-06-01 热度:196
疑问:为什么需要对上报方案有要求呢? 解读:比如腾讯内部的自研日志监控系统CMS,对拥有多种采集方案Agent、SDK、Kafka、ES等,各种不同的采集方案应对不同的场景 Agent:类似filebeat,指定服务器的具体路径,对文件的inode节点进行侦听,发现新增立即[详细]
-
运维真的可以被消灭?“脆弱”的云时代,运维该怎么办?
所属栏目:[经验] 日期:2021-06-01 热度:56
这本书很多专家给了非常高的评价,比如《思考快与慢》的作者丹尼尔卡尼曼这本书改变了他对世界如何运作的看法;樊登带来了心灵和生理上的震撼;逻辑思维罗振宇这是一本未来生存手册。 这个世界充满很多不确定性,前段时间发生的波音 737 事件。为了防止飞机[详细]
-
DevOps已死,NoOps坚挺
所属栏目:[经验] 日期:2021-05-31 热度:93
DevOps和 NoOps的差异 DevOps是开发和运维的融合,是开发和运维工程师共同协作,定义应用从设计到交付全生命周期过程的实践。 NoOp的意思是无须操作。它的理念是去掉所有的平台管理部分,从而降低开发人员与基础设施之间的摩擦。 为何需要DevOps? 随着技术[详细]
-
ping命令的七种用法,看完瞬间变高手
所属栏目:[经验] 日期:2021-05-31 热度:109
TTL值:Time To Live,表示DNS记录在DNS服务器上存在的时间,它是IP协议包的一个值,告诉路由器该数据包何时需要被丢弃。可以通过Ping返回的TTL值大小,粗略地判断目标系统类型是Windows系列还是UNIX/Linux系列。 默认情况下,Linux系统的TTL值为64或255,W[详细]
-
分析!手把手教您用 ELK 分析 Nginx 日志
所属栏目:[经验] 日期:2021-05-31 热度:165
file:使用file 作为输入源 path: 日志的路径,支持/var/log.log,及[ /var/log/messages, /var/log/.log ] 格式 start_position: 从文件的开始读取事件。 另外还有end参数 ignore_older: 忽略早于24小时(默认值86400)的日志,设为0,即关闭该功能,以防[详细]
-
运维收藏:HTTPS 证书是如何为网站正名的
所属栏目:[经验] 日期:2021-05-31 热度:186
加密传输保证客户端和服务器之间的信息不是明文传输,保证信息的机密性 身份认证HTTPS协议能够证明服务端的身份,防止假冒网站冒充自己的身份。 对称加密算法 这一部分需要密码学的基础,本段仅做相关总结。对称加密因为密钥只有一个,存在密钥被枚举出来[详细]
-
重点:IT运维体系与发展新趋势
所属栏目:[经验] 日期:2021-05-31 热度:202
首先说一下我的个人分享,可能也限于个人的经历和水平,能力有限,视野有限,欢迎大家指正,也只是代表我现在当前的一个观点,另外可能引用网络的图片和内容。今天分享的内容大概分成五个方面:首先说一下运维定义,做什么,为什么要这么做,我们应该怎么做[详细]
-
致 IT 运维:这个时代的年轻人,还能怎么逆火重生?
所属栏目:[经验] 日期:2021-05-31 热度:172
为什么呢?去对比一下当时外企里的70后跟80后的境遇就知道了。90年代后期到2000年初的时候,外资大举进入中国、快速扩张,人才一下子变得很稀缺,相较国企和民企,外企的工资常常是四五倍,而那个好时代,被70后们赶上了。 此后几年,外企在华高速发展,那[详细]
-
Linux防火墙入门说明
所属栏目:[经验] 日期:2021-05-31 热度:110
很多 Linux 发行版本已经自带了防火墙,通常是iptables。它很强大并可以自定义,但配置起来有点复杂。幸运的是,有开发者写出了一些前端程序来帮助用户控制防火墙,而不需要写冗长的 iptables 规则。 在 Fedora、CentOS、Red Hat 和一些类似的发行版本上,[详细]
-
一个800万的代价:运维怎样避免面向监狱编程?
所属栏目:[经验] 日期:2021-05-31 热度:110
事件引发了持续的热议,其中也不乏争议,针对关注度较高的问题,包括防止运维人员的骚操作、如何兼顾运维效率与安全、事件中的甲乙两方存有哪些不足、企业等保工作如何开展和有效落地等,dbaplus社群整理并归总观点如下,希望能给大家今后相关工作的展开和[详细]
-
就为了一个原子操作,其他CPU核心不干了
所属栏目:[经验] 日期:2021-05-31 热度:61
接下来,老K把事情的经过告诉了我。原来,我们两个CPU车间各自负责的线程都在执行一个i++的操作,我们都把i的值放到了自己的缓存中,完了之后都没有通知对方,加了两次但结果却只有一次,出现了数据不一致问题。 原子操作 了解清楚事情的原委之后,我向虎[详细]
-
解析VTY Shell配置路由器
所属栏目:[经验] 日期:2021-05-31 热度:127
副标题#e# 由于 RIP 协议使用 UDP 作为传输协议,并被分配了 520 端口,因此我们需要在firewalld配置中允许该端口。 firewall-cmd --add-port=520/udp permanent firewalld-cmd -reload 现在,我们可以使用以下命令启动 FRR 服务: systemctl start frr 使[详细]
-
怎样运用firewall-cmd管理网络服务
所属栏目:[经验] 日期:2021-05-31 热度:142
处理服务、端口和协议 现在,重点关注services、ports和protocols所在行。默认情况下,防火墙将阻止所有端口、服务和协议,而只允许列出的。 在这里,你可以看到允许的服务是非常基本的客户端服务。例如,访问网络上的共享文件夹(samba-client)、与 DNS[详细]
-
万万没想到!智能运维的正确方式:从临场救火到淡然饮茶
所属栏目:[经验] 日期:2021-05-31 热度:125
啥是智能运维?如此神奇? 谈及智能运维的概念,洋气一些可被称为AIOps,正好是人工智能技术与基础运维能力的完美集合,一句话概括,运用机器学习的方法来提升运维效率。 稍微回顾下运维发展我们就能发现,在历经千锤百炼达成的传统自动化运维体系中,重复[详细]
-
运维遇上中台,瞬间阵亡?我是这样理解的
所属栏目:[经验] 日期:2021-05-31 热度:86
从14年底开始,互联网运维理念兴起之后,传统行业也开始日益重视运维平台的建设。甚至按照运维平台的建设情况来划分运维成熟度水平,典型阶段划分如下: 手工运维 以人工作业为主要表现形式的运维,发布、故障处理、巡检等等 脚本化运维 用一些自动化脚本来[详细]
-
老派架构云化后的运维,维护的是什么?
所属栏目:[经验] 日期:2021-05-31 热度:136
一、现状和面临的挑战 传统的IT架构使用了这么多年,所有的监控设备以及网络架构都是基于此打造,那么在传统架构虚拟化、云化后的今天,如何针对虚拟化、云计算的环境如IAAS、PAAS进行运维? 传统监控系统主要是基于传统的环境构建。主要是针对基础的硬件设[详细]
-
互联网大厂的运维都是什么工作内容?30K的总监来告诉你
所属栏目:[经验] 日期:2021-05-31 热度:172
运维人员对公司互联网业务所依赖的基础设施、基础服务、线上业务进行稳定性加强,进行日常巡检发现服务可能存在的隐患,对整体架构进行优化以屏蔽常见的运行故障,多数据中接入提高业务的容灾能力。 通过监控、日志分析等技术手段,及时发现和响应服务故障[详细]
-
DevOps与NoOps现状说明
所属栏目:[经验] 日期:2021-05-31 热度:114
DevOps和 NoOps的差异 DevOps是开发和运维的融合,是开发和运维工程师共同协作,定义应用从设计到交付全生命周期过程的实践。 NoOp的意思是无须操作。它的理念是去掉所有的平台管理部分,从而降低开发人员与基础设施之间的摩擦。 为何需要DevOps? 随着技术[详细]
-
在Fedora命令行下运用防火墙
所属栏目:[经验] 日期:2021-05-31 热度:195
网络防火墙,顾名思义:为了阻止不需要的网络连接而设置的防护性屏障。在与外界建立连接或是提供网络服务时常常会用到。例如,在学校或是咖啡厅里使用笔记本电脑时,你一定不想某个陌生人窥探你的电脑。 每个 Fedora 系统都内置了一款防火墙。这是 Linux[详细]