云服务监控

云服务监控概述

云服务监控:云服务监控是云服务资源最详细全面的展示平台,为您提供所有云服务资源对应的各种性能指标及告警规则信息,您可通过云监控更全面、更高效、更清晰地了解您资源的使用情况、业务运行状况。

查看云服务器

操作步骤

  1. 登录云监控控制台。

  2. 在控制台顶部导航栏选择区域。

  3. 点击左侧菜单栏中【云服务监控】>【云服务器】,进入【云服务器】页面。

  4. 点击名称,进入单个云服务器【监控指标】页面,您可以在【监控指标】页面和【告警规则】页面之间相互切换。

  5. 健康状态:当前资源监控状态,实时展示您当前账户下资源的运行情况。

    正常:实例近期未发生异常告警

    异常:实例当前有未恢复告警

    未设置告警:您没有设置告警规则

云服务器

查看监控指标

操作步骤

  1. 点击“查看监控指标”按钮,进入单个云服务器【监控指标】页面。可查看云服务器实例“近1小时、“近24小时”、“近7天”、“近15天”、“近30天”的监控数据趋势图,也可选择自定义时间,查看该段时间内的监控数据趋势图。可设置60s自动刷新数据,实时显示监控数据趋势图。

    云服务器-监控指标

  2. 默认显示全部监控指标,点击“设置监控指标”按钮,设置监控指标。

  3. 点击“确认”按钮,设置成功。

    设置监控指标

  4. 输入指标名称,可以快速搜索指标。

  5. 点击监控指标右上角“ 放大 ”图标,放大该监控指标趋势图,您可以选择“近1小时、“近24小时”、“近7天”、“近15天”、“近30天”的监控数据,也可选择自定义时间,查看该段时间内的监控数据趋势图。默认显示“近1小时”内的监控时长,“近1小时”监控数据采用的聚合算法为“周期:1分钟,方法:平均值”。

  6. 点击“设置”按钮,可以选择不同的聚合数据指标,聚合是云监控系统对原始采样数据按照不同的周期采取平均值、最大值、最小值、求和值计算的过程。

  7. 点击“ 刷新 ”按钮,刷新整个监控指标

  8. 鼠标悬浮到监控项上,会显示监控数据指标名称、数据采集时间、数值等详细信息。

  9. 点击“下载”按钮,弹出弹框,下载服务产品数据指标。

下载数据指标1

  1. 选择时间、统计周期、统计方法、服务类型、资源范围、监控对象、监控指标(可多选),点击“确认”按钮,下载监控指标到本地。
    • 添加服务类型,可添加服务的多个服务类型,最多选择10个。
    • 监控对象可单选和多选,也可全选,最多选择300个。
    • 监控指标可单选和多选,也可全选。
    • 时间选择:最多半年时间。

下载数据指标2

查看告警规则

操作步骤

  1. 点击上导航栏,切换至【告警规则】页面,展示该云服务器实例所用到的所有告警规则。

  2. 点击“名称”,页面跳转至该【告警规则详情】页面。

  3. 在【云服务监控】>【云服务器】页面,点击“新建告警规则”页面,进入【新建告警规则】页面。 云服务器-告警规则

安装云服务器监控插件

Linux

操作步骤

  1. 查看服务状态, 保证服务可以正常运行。各系统命令如下:

     # CentOS 7
     systemctl status qemu-guest-agent
     # CentOS 6
     service qemu-ga status
     # Ubuntu
     service qemu-guest-agent status
    

  2. 点击此处下载qemu-ga获取下载地址。当前版本为2.12.0-4。 将本安装程序下载或从本地上传至云服务器上。

  3. 暂停服务、将上一步下载的安装程序从当前目录复制到服务指定路径下并重启服务,并保证该服务处于运行状态。各系统命令如下:

     # CentOS 7
     systemctl stop qemu-guest-agent
     chmod +x qemu-ga
     sudo cp qemu-ga /usr/bin/qemu-ga
     systemctl start qemu-guest-agent
    
     # CentOS 6
     service qemu-ga stop
     chmod +x qemu-ga
     sudo cp qemu-ga /usr/bin/qemu-ga
     service qemu-ga start
    
     # Ubuntu
     service qemu-guest-agent stop
     chmod +x qemu-ga
     cp qemu-ga /usr/sbin/qemu-ga
     service qemu-guest-agent start
    

注意事项:

1. CentOS 6.5系统需要额外更新依赖glib2。安装命令如下:
    yum install glib2 
2. GPU云服务器GPU相关监控需要安装GPU驱动。

Windows

操作步骤

  1. 卸载原有QEMU-guest-agent。依此进入开始->控制面板->程序->卸载程序。 选择QEMU-guest-agent并卸载。

  2. 点击此处下载qemu-ga-x86_64.msi或获取下载地址。 当前版本为2.12.0-4。将本安装程序下载或从本地上传至云服务器上。

  3. 鼠标左键双击下载的安装包,等待安装成功。

  4. 验证,安装成功后,Win+R 打开运行。输入services.msc,点击确定。

    在服务列表可以看到QEMU Guest Agent正在运行并且启动类型为自动。

注意事项:

1. Windows系统,如果遇到服务未自动启动。请手动启动并将启动类型设置为自动。
2. GPU云服务器GPU相关监控需要安装GPU驱动,Windows请安装在默认位置:C:\Program Files\NVIDIA Corporation。

ARM云服务器

操作步骤

  1. 查看服务状态, 保证服务可以正常运行。各系统命令如下:
     service qemu-guest-agent status
    
  2. ARM云服务器请点击此处下载qemu-ga获取下载地址。当前版本为2.12.0-4。 将本安装程序下载或从本地上传至云服务器上。

  3. 暂停服务、将上一步下载的安装程序从当前目录复制到服务指定路径下并重启服务,并保证该服务处于运行状态。命令如下:

     service qemu-guest-agent stop
     chmod +x qemu-ga
     cp qemu-ga /usr/sbin/qemu-ga
     service qemu-guest-agent start
    

云服务器ECS指标

指标中文名 英文名称 指标含义 单位 Linux适用 Windows适用
CPU利用率 vm_cpu_busy 在用cpu %
CPU空闲率 vm_cpu_idle 空闲cpu %
CPU平均负载_1分钟内 vm_load_1min 1分钟内的平均进程数,监控项数值越高代表系统越繁忙 -
CPU平均负载_5分钟内 vm_load_5min 5分钟内的平均进程数,监控项数值越高代表系统越繁忙 -
CPU平均负载_15分钟内 vm_load_15min 15分钟内的平均进程数,监控项数值越高代表系统越繁忙 -
内存使用量 vm_mem_memused 内存使用量 MB
内存利用率 mvm_mem_memused_percent 内存使用百分比 %
内网入带宽 net_if_in_bytes 网卡的平均每秒入流量 Mbps
内网出带宽 net_if_out_bytes 网卡的平均每秒出流量 Mbps
内网入包量 net_if_in_packets 接口接收的数据包总数 个/s
内网出包量 net_if_out_packets 接口发送的数据包总数 个/s
接收丢包量 net_if_in_dropped_packets 网卡接收丢弃的数据包总数 个/s
发送丢包量 net_if_out_dropped_packets 网卡发送丢弃的数据包总数 个/s
接收错误包数量 net_if_in_errors_packets 设备驱动器检测到的接收错误包的数量 个/s
发送错误包数量 net_if_out_errors_packets 设备驱动器检测到的发送错误包的数量 个/s
磁盘IO使用率 disk_io_util 磁盘IO使用率 %
磁盘IO等待 disk_io_await 每一个IO请求的处理的平均时间 ms
磁盘IO操作 disk_io_svctm 硬盘平均每次I/O操作所花的时间 ms
磁盘使用量 disk_df_bytes_used 磁盘已使用量 Gib
磁盘使用率 disk_df_bytes_used_percent 磁盘已使用量占比 %
磁盘空闲量 disk_df_bytes_free 磁盘可用量 Gib
磁盘空闲率 disk_df_bytes_free_percent 磁盘可用量占比 %
磁盘总量 disk_df_bytes_total 磁盘总量 Gib
磁盘读IOPS disk_read_iops 磁盘每秒的读请求数量 次/秒
磁磁盘写IOPS disk_write_iops 磁盘每秒的写请求数量 次/秒
磁盘IOPS disk_iops 磁盘每秒的输入输出量 次/秒
磁盘读吞吐量 disk_read_throughput 平均每秒把数据从磁盘读到内存的数据量 KB/s
磁盘写吞吐量 disk_write_throughput 平均每秒把数据从磁盘写到内存的数据量 KB/s
可用量 df_bytes_free 磁盘分区可用量 bytes
可用量占比 df_bytes_free_percent 磁盘分区可用量占比 %
总量 df_bytes_total 磁盘分区总量 bytes
已使用量 df_bytes_used 磁盘分区已使用量 bytes
已使用量占比 df_bytes_used_percent 磁盘分区已使用量占比 %
空闲的inodes数 df_inodes_free 空闲的inodes数
空闲inodes占比 df_inodes_free_percent 空闲inodes占比 %
inodes总数 df_inodes_total inodes总数
已使用的inodes数 df_inodes_used 已使用的inodes数
已使用的inodes占比 df_inodes_used_percent 已使用的inodes占比 %

云硬盘EBS指标

指标中文名 英文名称 指标含义 单位 Linux适用 Windows适用
磁盘使用量 disk_df_bytes_used 磁盘已使用量 Gib
磁盘使用率 disk_df_bytes_used_percent 磁盘已使用量占比 %
磁盘读IOPS disk_read_iops 磁盘每秒的读请求数量 次/秒
磁磁盘写IOPS disk_write_iops 磁盘每秒的写请求数量 次/秒
磁盘IOPS disk_iops 磁盘每秒的输入输出量 次/秒
磁盘读吞吐量 disk_read_throughput 平均每秒把数据从磁盘读到内存的数据量 KB/s
磁盘写吞吐量 disk_write_throughput 平均每秒把数据从磁盘写到内存的数据量 KB/s

容器引擎ICE

维度 指标中文名 英文名称 指标含义 单位
容器组 容器组CPU使用量 ice_container_cpu_usage_seconds_total 统计容器组CPU使用量
容器组内存使用量 ice_container_memory_usage_bytes 统计容器组内存使用量 GiB
容器组存储使用量 ice_container_fs_usage_bytes 统计容器组存储使用量 MiB
容器组磁盘读取量 ice_container_fs_reads_bytes_total 统计容器组磁盘读取量 MiB
容器组磁盘写入量 ice_ontainer_fs_writes_bytes_total 统计容器组磁盘写入量 MiB
容器组磁盘I/O读写数 ice_container_fs_io_current 统计容器组当前正在进行的I/O读取、写入数 次/秒
容器组网络接收包总数 ice_container_network_receive_bytes_total 统计容器组网络接收包总数 MiB
容器组网络发送包总数 ice_container_network_transmit_bytes_total 统计容器组网络发送包总数 MiB
节点 节点CPU使用量 ice_node_cpu_usage_seconds_total 统计节点CPU使用量
节点内存使用量 ice_node_memory_usage_bytes 统计节点内存使用量 GiB
节点存储使用量 ice_node_fs_usage_bytes 统计节点存储使用量 GiB
节点磁盘读取量 ice_node_fs_reads_bytes_total 统计容器组磁盘读取量 GiB
节点磁盘写入量 ice_node_fs_writes_bytes_total 统计容器组磁盘写入量 GiB
节点磁盘I/O读写数 ice_node_fs_io_current 统计节点当前正在进行的I/O读取、写入数 次/秒
节点网络接收包总数 ice_node_network_receive_bytes_total 统计节点网络接收包总数 GiB
节点网络发送包总数 ice_node_network_transmit_bytes_total 统计节点网络发送包总数 GiB
集群 集群CPU使用量 ice_cluster_cpu_usage_seconds_total 统计集群CPU使用量
集群CPU使用率 ice_cluster_cpu_usage_rate 统计集群CPU使用率 %
集群内存使用量 ice_cluster_memory_usage_bytes 统计集群内存使用量 GiB
集群内存使用率 ice_cluster_memory_usage_rate 统计集群内存使用率 %
集群存储使用量 ice_cluster_fs_usage_bytes 统计集群存储使用量 GiB
集群容器组总数 icd_cluster_pods_num 统计集群容器组总数 int
集群健康容器组数 icd_cluster_pods_available_num 统计集群健康容器组数 int
集群健康节点数 ice_cluster_ready_node 统计集群健康节点数 int

函数计算FCS

维度 指标中文名 英文名称 指标含义 单位
函数 函数平均运行时间 fcs_duration 统计函数平均运行时间
函数平均内存使用量 fcs_avg_memory 统计函数平均内存使用量 MB
函数最大内存使用量 fcs_max_memory 统计函数最大内存使用量 MB
函数总请求次数 fcs_total_invocations 统计函数总请求次数
函数调用成功总次数 fcs_billable_invocations 统计函数调用成功总次数
函数调用失败总次数 fcs_error_invocations 统计函数调用失败总次数
函数调用成功次数占比 fcs_billable_invocations_percent 统计函数调用成功次数占比 %
函数调用失败次数占比 fcs_error_invocations_percent 统计函数调用失败次数占比 %
函数资源使用总量 fcs_function_usage 统计函数资源使用总量 GB*s
区域 函数平均运行时间 fcs_region_duration 统计当前区域下所有函数平均运行时间
函数平均内存使用量 fcs_region_avg_memory 统计当前区域下所有函数平均内存使用量 MB
函数最大内存使用量 fcs_region_max_memory 统计当前区域下所有函数最大内存使用量 MB
函数总请求次数 fcs_region_total_invocations 统计当前区域下所有函数总请求次数
函数调用成功总次数 fcs_region_billable_invocations 统计当前区域下所有函数调用成功总次数
函数调用失败总次数 fcs_region_error_invocations 统计当前区域下所有函数调用失败总次数
函数调用成功次数占比 fcs_region_billable_invocations_percent 统计当前区域下所有函数调用成功次数占比 %
函数调用失败次数占比 fcs_region_error_invocations_percent 统计当前区域下所有函数调用失败次数占比 %
函数资源使用总量 fcs_region_function_usage 统计当前区域下所有函数资源使用总量 GB*s

负载均衡SLB指标

指标中文名 英文名称 指标含义 单位
网络出流量 slb_instance_out_bytes SLB实例网络出流量 bytes
网络入流量 slb_instance_in_bytes SLB实例网络入流量 bytes
请求总数 slb_instance_request_counter SLB实例请求总数
失败请求数 slb_instance_fail_request SLB实例失败请求数
当前连接数 slb_instance_concurrent_connections SLB实例当前连接数

对象存储OSS指标

指标中文名 英文名称 指标含义 单位
桶读写请求总数 oss_bucket_api_req 某个桶里产生的请求数 千次
桶下载流量 oss_bucket_download_flow 某个桶产生的下载流量 GB
桶存储容量 oss_bucket_storage_used 某个桶里总存储容量,桶存储容量数据指标比较特殊(桶存储容量数据指标可能会造成业务响应变慢,为了减少对正常业务的影响),故1小时统计1次数据指标。 GB
桶写请求成功数 oss_bucket_write_success_req 桶写请求成功数 千次
桶读请求成功数 oss_bucket_read_success_req 桶读请求成功数 千次

云备份CBS指标

指标中文名 英文名称 指标含义 单位
成功备份次数 cbs_user_succ_backup 租户成功备份次数
失败备份次数 cbs_user_fail_backup 租户失败备份次数
备份包使用率 cbs_user_space_used 租户备份包使用量占比 %

云数据库MySQL指标

指标中文名 英文名称 指标含义 单位
CPU使用率 rds_mssql_node_cpu_ratio CPU使用率 %
磁盘使用率 rds_mssql_node_used_disk_ratio 磁盘使用率 %
磁盘IOPS rds_mssql_node_disk_iops 磁盘IOPS 次/秒
平均每秒事务数 rds_mssql_node_transactions_per_sec 平均每秒事务数 -
当前用户连接数 rds_mssql_node_user_connections 当前用户连接数 -
QPS rds_mysql_instance_qps RDS-MySQL服务实例QPS指标 -
TPS rds_mysql_instance_tps RDS-MySQL服务实例TPS指标 -
数据库连接数 rds_mysql_instance_connects 获取RDS-MySQL服务实例数据库连接数

云数据库 Redis指标

指标中文名 指标英文名 指标定义 单位
CPU使用率 cdr_redis_node_cpu_ratio CPU已使用占比 %
内存使用率 cdr_redis_node_used_memory_ratio 内存已使用占比 %
内存使用量 cdr_redis_node_used_memory 内存已使用量 bytes
KEY总个数 cdr_redis_node_total_keys KEY的总个数
连接数 cdr_redis_node_connected_clients 实例的连接数
瞬时入流量 cdr_redis_node_instantaneous_net_input 网络的瞬时入流量 Kbps
瞬时出流量 cdr_redis_node_instantaneous_net_output 网络的瞬时流出量 Kbps
缓存命中率 cdr_redis_node_hit_ratio 缓存命中占比 %
命令最大时延 cdr_redis_node_max_latency 命令最大的时延 ms
已用内存RSS cdr_redis_node_used_memory_rss 已用内存RSS bytes
内存碎片率 cdr_redis_node_memory_frag_ratio 内存碎片占比 %
已过期的键值数 cdr_redis_node_expired_keys 已过期的键值数
已逐出的键值数 cdr_redis_node_evicted_keys 已逐出的键值数
查询命中数 cdr_redis_node_keyspace_hits 查询命中数
查询未命中数 cdr_redis_node_keyspace_misses 查询未命中数
每秒并发操作数量 cdr_redis_node_operations_per_second 每秒并发操作数量
网络入流量合计 cdr_redis_node_total_net_input 实例总的网络入流量合计 bytes
网络出流量合计 cdr_redis_node_total_net_output 实例总的网络出流量合计 bytes
总共收到的连接数 cdr_redis_node_total_conn_received 总共收到的连接数

云数据库SQL Sever指标

指标中文名 英文名称 指标含义 单位
CPU使用率 rds_mssql_node_cpu_ratio CPU使用率 %
磁盘使用率 rds_mssql_node_used_disk_ratio 磁盘使用率 %
磁盘IOPS rds_mssql_node_disk_iops 磁盘IOPS 次/秒
平均每秒事务数 rds_mssql_node_transactions_per_sec 平均每秒事务数 -
当前用户连接数 rds_mssql_node_user_connections 当前用户连接数 -
缓存命中率 rds_mssql_node_hit_ratio 缓存命中率 %
瞬时入流量 rds_mssql_node_instantaneous_net_input 瞬时入流量 KiB/秒
瞬时出流量 rds_mssql_node_instantaneous_net_output 瞬时出流量 KiB/秒
每秒登录次数 rds_mssql_node_logins_per_sec 每秒登录次数 次/秒
每秒登出次数 rds_mssql_node_logouts_per_sec 每秒登出次数 次/秒
平均每秒SQL编译次数 rds_mssql_node_sql_compilations_per_sec 平均每秒SQL编译次数 -
平均每秒SQL重编译次数 rds_mssql_node_sql_recompilations_per_sec 平均每秒SQL重编译次数 -
每秒检查点写入Page数 rds_mssql_node_checkpoint_pages_per_sec 每秒检查点写入Page数 -
平均每秒全表扫描数 rds_mssql_node_full_scans_per_sec 平均每秒全表扫描数 次/秒
每秒死锁次数 rds_mssql_node_dead_locks_per_sec 每秒死锁次数 次/秒
每秒锁超时次数 rds_mssql_node_lock_timeouts_per_sec 每秒锁超时次数 次/秒
磁盘使用量 rds_mssql_node_used_disk 磁盘使用量 %

智能边缘服务IIES

指标中文名 英文名称 指标含义 单位
边缘节点CPU使用率 iies_node_cpu_rate 统计边缘节点CPU使用率 %
边缘节点内存使用率 iies_node_memory_rate 统计边缘节点内存使用率 %
边缘节点磁盘使用率 iies_node_disk_rate 统计边缘节点磁盘使用率 %

微服务引擎 IMSE

指标中文名 英文名称 指标含义 单位
微服务请求量 mse_service_request_num 微服务请求量
微服务2xx状态码数量 mse_service_resquest_2xx_num 微服务2xx状态码数量
微服务4xx状态码数量 mse_service_resquest_4xx_num 微服务4xx状态码数量
微服务5xx状态码数量 mse_service_resquest_5xx_num 微服务5xx状态码数量
实例请求量 mse_instance_request_num 实例请求量
实例2xx状态码数量 mse_instance_resquest_2xx_num 实例2xx状态码数量
实例4xx状态码数量 mse_instance_resquest_4xx_num 实例4xx状态码数量
实例5xx状态码数量 mse_instance_resquest_5xx_num 实例5xx状态码数量

API网关指标

指标中文名 英文名称 指标含义 单位
请求次数 apig_requests 经过API网关的请求数量
2xx请求次数 apig_2xx_count 监控周期内某API有效调用请求数量
4xx异常次数 apig_4xx_count 监控周期内某API异常调用请求数量
5xx异常次数 apig_5xx_count 监控周期内某API异常调用请求数量
响应时间 apig_response_time 监控周期内某API经网关发起调用后端服务到收到后端返回结果的时间差 ms
请求流量 apig_inbound_traffic 监控周期内某API request流量之和 Byte
返回流量 apig_outbound_traffic 监控周期内某API response流量之和 Byte
总的错误次数 apig_sum_error 监控周期内某API响应 4XX、5XX状态码请求次数