Posts Tagged ‘意外’

一言以蔽之,诚彼娘的坑爹 早上一大早起来打车捎上穆小迪童鞋跑到原来机房楼下麦当劳吃饭。吃完饭进去发通告切域名停服务下架一切顺利,十点多到了新机房 等布线等到一点多,然后开机,发现超了电,辗转腾挪又耽误半小时,总算是搞定了限电 开始挨个调试,发现线不通返工,又耽误半小时 然后主站起不来了,kernel panic。IBM 服务器诚彼娘的烂,重启一次十分钟,进了四五次 rescue 才终于想到一个 initramfs 里的旮旯配置把它弄好。 然后胡总的转换数据结构程序总是段错误,嗷嗷琢磨了半天最后神奇地主站能跑二站不能跑,现场 gdb 没调试符号真是伤人,缺一堆 debuginfo 包 sohu 源没有,centos 官方源又太慢。唉。 然后都调通就闪人了,六点多了。特地看了下各个线都正常。去吃饭。又是麦当劳。中午把我家兔忽悠了,本来是大概两点多就去港丽的。呜呜我的港丽 吃一半胡总来电话说转好了。 风风火火赶回家开站,突然开始卡了,交换机上联出方向狂丢包,像极了线虚了,赶紧联系运维接口人,人已经走了,只能明天了。。。。。 其实还有好多想说的,不过有些是不方便说的,算了。。。 贵站的维护,少有顺利,基本都是一个接一个的意外。不管是搬一半服务器莫名坏了,还是突然俩盘红灯,还是明明上次还能起来这次 panic 了,还是线不通、口不够、software NMI。。。 还好了。比去唐山强多了,至少有饭吃,不用长途奔袭,不用遭受回来都走到天津界了突然有个什么又坏了被迫折返的杯具。比前几年真是幸福很多了。 ————————感想暨广告———————— 想知道恶劣条件下运维的感受么?想拥有被上万用户指着鼻子骂又不知道该说啥的体验么? 不能分布式的情况下单机故障如何竭力避免?服务器短缺老旧机架资源还有限比如电不够的情况下如何保证运行正常? 如果你恨一个人,那么就让它来贵站当系统维护吧,也就是大家通常所说的技术站务,技站,当然,也有叫站技的,不好听而已 它需要: 具有一定的运维水平,知道网线怎么做,kernel 怎么编,服务器怎么管,怎么监控,费多少电,什么是 iLO/DRAC/IMM,熟悉 Linux 基本操作,偶尔还有 IBM 服务器插 Dell 盘柜需要刷成公版卡 具有一定的开发水平,知道咋写散列表,知道 IE6 所有常见 bug,知道 ajax 是什么玩意儿,能用 Zend API 扩展 PHP,能用一堆垃圾脚本光速完成各位站务老大们的诡异需求,友站出问题能杀出去以大公无私的精神帮助调试解决问题,偶尔还有 gcc 版本和 kernel 版本造成的诡异问题如何规避 […]

Saturday, April 7th, 2012 at 22:02 | 10 comments
Categories: Tech
TOP