已知问题

1. 日志规则过多导致秘钥 logger-fluentd-app 超长无法更新配置

此问题记录在 kubegems/issues/295, 由于 Kubernetes Secret 资源 annotation 最大支持 262144 个字符串，当集群内存在大量配置时，导致 banzaicloud.com/last-applied 记录超长 operator 无法提交最新配置。

解决方法： 删除 logger-fluentd-app这个秘钥，由 operator 重新提交即可恢复

$ kubectl delete secret logging-operator-logging-fluentd-app -n kubegems-logging

此外，由于 kubernetes secret 的 data 部分最大空间为 3MB，如果集群内规则过多也会导致规则无法更新。

目前此问题无解，上游正在探讨效仿prometheus-operator将配置压缩成 tar.gz 格式写入 secret，然后在config-reloader容器中解压重载配置。这个进度在这里查看 logging-operator/pull/1108

2. 插件 eventer 服务运行一段时间后无事件输出

此问题进度在此处跟进kubegems/issues/247，此问题在于client go的限流策略，在 config 中调大 eveter 的 qos即可。上游跟进 kubernetes-event-exporter/issues/16

info

由于用户的集群规模不通，复现这个问题的条件也不一样，遇见此问题，再根据实际情况修改配置

3. MongoDB Exporter 无法连接部分 MongoDB 数据库，报错 "Unable to decode message length"

KubeGems v1.22 版本引入的 mongodb-exporter 是由 prometheus-community 社区基于ssheehy/mongodb-exporter构建的。当前这个项目以停止维护，且对 MongoDB 4.2 版本以上服务支持有限。prometheus-community 社区已经将新的 mongodb-exporter 切换成由 percona 提供。

但存在部分 metrics 变化导致 KubeGems 监控模板不再使用。我们计划在 KubeGems v1.23 版本中跟进社区替换此 exporter。

4. Nacos 插件在集群 (embedded) 模式下，重启所有 nacos 容器后集群无法正常恢复

Nacos 集群所有容器都重启的场景下（可能是计算节点宕机、或例行维护），新的 nacos-0 启动时无法解析其它 pod 或连接其它 pod 失败（因为其它nacos pod 还没启动）导致集群无法正常恢复。

由于 Kubernetes Statefulset 默认的容器创建规则是有序的（OrderReady），这会影响 nacos 集群启动时之间的通信。

StatefulSet 的容器管理策略 pod-management-policies

修复此问题，只需需将 nacos 的 statefulset 中的容器管理规则修改为 Parallel 即可

info

StatefulSet 不允许直接修改.spec.podManagementPolicy，需将 StatefulSet 资源导出来修改后重新提交

其它问题

如果您仍有其他问题无法解决，可以通过以下渠道联系我们：

GitHub 上查询或提交是否有相关的 Issue
加入微信群寻求帮助
获取官方支持, 我们会尽快联系你

已知问题​

1. 日志规则过多导致秘钥 logger-fluentd-app 超长无法更新配置​

2. 插件 eventer 服务运行一段时间后无事件输出​

info

3. MongoDB Exporter 无法连接部分 MongoDB 数据库，报错 "Unable to decode message length"​

4. Nacos 插件在集群 (embedded) 模式下，重启所有 nacos 容器后集群无法正常恢复​

StatefulSet 的容器管理策略 pod-management-policies

info

其它问题​

已知问题

1. 日志规则过多导致秘钥 logger-fluentd-app 超长无法更新配置

2. 插件 eventer 服务运行一段时间后无事件输出

3. MongoDB Exporter 无法连接部分 MongoDB 数据库，报错 "Unable to decode message length"

4. Nacos 插件在集群 (embedded) 模式下，重启所有 nacos 容器后集群无法正常恢复

其它问题