1、Aleph系统运行状态监控系统运行状态监控周磊周磊以色列艾利贝斯有限公司以色列艾利贝斯有限公司北京代表处北京代表处2014年年6月月 2提纲提纲 常用unix命令 Aleph系统运行状态监控 常见问题处理 服务器日常维护 3提纲提纲 常用unix命令 Aleph系统运行状态监控 常见问题处理 服务器日常维护常用常用unix命令命令 4 操作系统相关uname -a 操作系统版本w 查看服务器登录信息和负荷top 查看服务器运行状态df -h 查看空间占用情况du -sh 查看当前目录空间占用情况ps -ef 查看进程mpstat/prstat/iostat 查看cpu/进程/io情况常用常用u
2、nix命令命令 5 文件处理cat 查看文件more 分屏查看文件head -n 查看文件的前n行tail -n 查看文件的后n行find 查找文件diff 对比两个文件/目录常用常用unix命令命令 6 行编辑器cut -c10-15 截取第10-15字节grep 过滤出匹配上的行egrep 按正则表达式过滤出匹配上的行sed 行编辑器:过滤、替换、删除等wc -l 查看行数sort 排序uniq 去重 7提纲提纲 常用unix命令 Aleph系统运行状态监控 常见问题处理 服务器日常维护Aleph系统运行状态监控系统运行状态监控 查看license 查看pc_server/www_serv
3、er 运行状态 查看pc_server/www_server日志 查看apache日志 查看aleph常用进程 查看oracle表空间 常用日志文件 8查看查看 license 使用情况使用情况 util y 11 1 9查看查看Aleph server 监控 util w 1 1 10端口服务类型启动时间状态查看查看Aleph server 循环查看服务运行状态:server_monitor -tl WWW/PCctrl c 中断 11查看查看server日志日志 cd $LOGDIR more pc_server_6991.log 12查看查看server日志日志 查出消耗时间超过10秒的
4、进程。 grep ELAPSED-TIME pc_server_6991.log 13查看查看WWW Server日志日志 cd $LOGDIR 14查看查看apache日志日志 apcl 直接进入apache目录。 查看某一天的日志grep 26/Jun/2014 access_log |moregrep 26/Jun/2014 access_log access_log.20140626 查看某一天日志的行数grep 26/Jun/2014 access_log |wc l 查看某一天访问最多的ipgrep 26/Jun/2014 access_log | awk print $1 | s
5、ort | uniq -c | sort -nr | head 15查看查看aleph进程进程 ps -fu aleph 16以下为有效进程pc_serverwww_serversip2_serverncip_serverz39_serverz39_gateue_01ue_11ue_21lib_batchjobdhttpdjavayaz查看查看oracle表空间表空间 util o 14 8 TSnD 数据 TSnX 索引 17常用日志文件常用日志文件类型类型服务服务目录目录日志文件样例日志文件样例服务日志pc_serverwww_serverz39_gatesip2_server$LOGDI
6、Rpc_server_6991.logwww_server_8991.logz39_gate_7991.logsip2_server_5331.logtomcatapsm/apss等$tomcat_logcatalina.out批处理服务$alephe_scratchwhu50_p_ret_adm_01.00163定期作业jobd$alephe_scratchcir_send_mail_9782抽索引ue_01$data_scratchrun_e_01.26637run_e_01_word.26637apacheopac/aims/aoms/apms 等apcl$httpd_root/loge
7、rror_logaccess_logoraclerOracle$ORACLE_BASE/diag/rdbms/aleph20/aleph20/tracealert_aleph20.log 18 19提纲提纲 常用unix命令 Aleph系统运行状态监控 常见问题处理 服务器日常维护查看访问服务器的查看访问服务器的IP last |more 20网络无法访问网络无法访问 测试网络访问是否正常Windows开始菜单,运行,输入cmdtelnet 服务器地址 端口号,如下图,端口都没开放,可能是网络问题,也可能是弄错了ip,或服务没启动如果能链接上,会提示输入信息,可以用ctrl 再quit退出 2
8、1服务器空间查看服务器空间查看 df -h du -sh linux下可以用ls -lS 来按文件大小排序 22查看问题进程的方法查看问题进程的方法 如果工作人员反映服务器响应慢首先查看aleph服务状态(server_monitor),看是busy还是free用w 命令查看服务器负荷top/prstat命令查看最耗资源的进程ps -ef |grep 19725kill 19725 23查看查看oracle进程对应的进程对应的sql 先用前面的方法找出问题进程,如果是oracle相关进程,可以查看这个进程对应的sql,如进程号为29425 具体查看 $lcl_proc/check_oracle
9、_pid.sql 24查看查看oracle锁死进程锁死进程 问题:自定义批处理服务无结果,现象是tmptable表无法访问sqlplus /nologconn aleph_dba/aleph_dba as sysdbaselect b.sid|,|b.serial#,a.OBJECT_ID,a.ORACLE_USERNAME,a.OS_USER_NAME,a.PROCESS,a.LOCKED_MODE,b.process from v$locked_object a,v$session b where a.session_id = b.sid(+);alter system kill sess
10、ion 455,6930; 25查看查看oracle进程数进程数 问题:oracle进程/session数过多,无法登录查看最大进程数定义通过listener访问数据库的进程ps -fu oracle |grep LOCAL |wc -l如有问题,可暂停/重启tomcat和sip2服务 26 27提纲提纲 常用unix命令 Aleph系统运行状态监控 常见问题处理 服务器日常维护系统日常维护系统日常维护 服务器维护 数据备份与数据安全 Aleph应用状况 28服务器日常维护服务器日常维护 服务器硬件设备的维护 操作系统的维护系统日志服务补丁运行状态一些统计 29数据库日常维护数据库日常维护 数
11、据库运行状态警告日志数据表空间连接情况检查数据文件状态 数据备份控制文件备份数据文件备份 : 建议至少每月检查一次恢复测试 : 建议每年至少做两次恢复试验 30Aleph的日常维护的日常维护 进程管理 license监控 服务日志、apache日志中的错误信息 定期作业是否正常完成 邮件通知是否正常 临时文件的清理 服务启停 系统监控日志 31Aleph的日常维护的日常维护 数据备份 参数表、应用程序的备份 不同服务器之间参数程序的同步 重建索引,建议每隔3-6个月,重建书目索引 32系统维护建议系统维护建议项目项目周期周期执行执行服务器重启3-6月人工Oracle 重启3-6月人工aleph重启1月crontab或人工aleph书目索引重建3-6月人工数据备份每天crontab参数表、程序备份每月crontab备份文件的检查每月人工备份文件的异地恢复3-6月人工server重启一周job_list临时文件的清理一周job_list系统监控日志每天job_list 33Thank You! 谢谢!谢谢!