宣布推出 Prometheus 3.0

2024年11月14日作者 Prometheus 团队

继最近在柏林 PromCon 大会上发布 Prometheus 3.0 beta 之后,Prometheus 团队很高兴地宣布 Prometheus 3.0 版本正式发布!

这个最新版本标志着一个重要的里程碑,因为这是 7 年来的第一个主版本发布。在这段时间里,Prometheus 取得了长足的进步,从一个早期采用者的项目发展成为云原生监控堆栈的标准组成部分。Prometheus 3.0 旨在延续这一发展历程,增加一些激动人心的新功能,同时在很大程度上保持与先前版本的稳定性和兼容性。

完整的 3.0 版本在 beta 版的基础上增加了一些新功能,并引入了一些额外的破坏性变更,我们将在本文中进行描述。

新功能

以下是作为 beta 版本发布的一部分以及此后新增的激动人心变化的摘要

全新 UI

Prometheus 3.0 的亮点之一是默认启用的全新 UI

New UI query page

该 UI 经过完全重写,界面更简洁,外观和体验更现代化,并增加了类似 PromLens 风格的树状视图等新功能,同时通过使用更现代的技术栈,使未来的维护变得更加容易。

要了解更多关于新 UI 的信息,请阅读 Julius 在 PromLabs 博客上发表的详细文章 。用户可以通过使用 old-ui 功能标志来临时启用旧 UI。

由于新 UI 尚未经过实战检验,很有可能仍存在错误。如果您发现任何错误,请在 GitHub 上报告 

自 beta 版以来,用户界面已更新以支持 UTF-8 指标和标签名称。

New UTF-8 UI

远程写入 2.0

Remote-Write 2.0 在之前的协议版本上进行了迭代,增加了对元数据、exemplar、创建时间戳和原生直方图等一系列新元素的原生支持。它还使用字符串驻留技术来减少压缩和解压时的负载大小和 CPU 使用率。对于部分写入的处理也得到了改进,在发生这种情况时能向客户端提供更多细节。更多详情可在此处找到。

UTF-8 支持

Prometheus 现在默认允许在指标和标签名称以及标签值中使用所有有效的 UTF-8 字符,这与 2.x 版本中的情况一致。

用户需要确保其指标生成器已配置为传递 UTF-8 名称,如果任何一方不支持 UTF-8,指标名称将使用传统的下划线替换方法进行转义。PromQL 查询可以使用新的引用语法来检索 UTF-8 指标,或者用户可以手动指定 __name__ 标签名称。

目前只有 Go 客户端库已更新以支持 UTF-8,但对其他语言的支持将很快添加。

OTLP 支持

为了与我们对 OpenTelemetry 的承诺保持一致,Prometheus 3.0 引入了多项新功能以提高与 OpenTelemetry 的互操作性。

OTLP 摄取

Prometheus 可以配置为 OTLP 指标协议的原生接收器,在 /api/v1/otlp/v1/metrics 端点接收 OTLP 指标。

请参阅我们的指南,了解将 OTLP 指标流量消费到 Prometheus 中的最佳实践。

UTF-8 规范化

借助 Prometheus 3.0,得益于UTF-8 支持,用户可以存储和查询 OpenTelemetry 指标,而无需对指标和标签名称进行烦人的更改,例如将点号更改为下划线 

值得注意的是,这减少了用户和工具在 OpenTelemetry 语义约定或 SDK 中定义的内容与实际可查询内容之间差异所带来的困惑

为了实现 OTLP 摄取的这一目标,Prometheus 3.0 实验性地支持不同的转换策略。有关详细信息,请参阅 Prometheus 配置中的 otlp 部分

注意虽然“NoUTF8EscapingWithSuffixes”策略允许特殊字符,但它仍然会添加必需的后缀以获得最佳体验。请参阅关于未来工作中启用无后缀的提案 

原生直方图

原生直方图是一种 Prometheus 指标类型,它提供了一种比经典直方图更高效、成本更低的替代方案。原生直方图无需根据数据集选择(并可能需要更新)存储桶边界,而是具有基于指数增长的预设存储桶边界。

原生直方图仍处于实验阶段,尚未默认启用,可以通过传递 --enable-feature=native-histograms 来开启。原生直方图的某些方面,如文本格式和访问器函数/运算符仍在积极设计中。

破坏性变更

Prometheus 社区致力于在一个主版本内不破坏现有功能。随着新的主版本发布,我们借此机会清理了一些长期存在的小问题。换句话说,Prometheus 3.0 包含一些破坏性变更。这包括对功能标志、配置文件、PromQL 和抓取协议的更改。

请阅读迁移指南,以了解您的设置是否受到影响以及应采取何种措施。

性能

自 Prometheus 2.0 以来,我们在社区中取得的成就令人印象深刻。我们都喜欢数字,所以让我们来庆祝一下我们在 TSDB 模式下对 CPU 和内存使用效率的改进。下面您可以看到 3 个 Prometheus 版本在一台拥有 8 CPU 和 49 GB 可分配内存的节点上的性能数据。

  • 2.0.0 (7 年前)
  • 2.18.0 (4 年前)
  • 3.0.0 (现在)

Memory bytes

CPU seconds

更令人印象深刻的是,这些数据是使用我们的 prombench 宏基准测试  获取的,该测试使用了相同的 PromQL 查询、配置和环境——这突显了核心功能的向后兼容性和稳定性,即使是在 3.0 版本中也是如此。

未来展望

在 Prometheus 及其生态系统中,我们仍然可以进行大量激动人心的功能开发和改进。以下是一个不详尽的列表,希望能让您感到兴奋……并希望能激励您做出贡献并加入我们!

  • 新的、更具包容性的治理
  • 更多 OpenTelemetry 兼容性和功能
  • OpenMetrics 2.0,现在由 Prometheus 治理!
  • 原生直方图的稳定性(并支持自定义存储桶!)
  • 更多优化!
  • 在更多 SDK 和工具中支持 UTF-8

立即尝试!

您可以通过我们的官方二进制文件容器镜像 下载并试用 Prometheus 3.0。

如果您从 Prometheus 2.x 升级,请查看迁移指南以获取有关需要进行的任何调整的更多信息。请注意,我们强烈建议在升级到 v3.0 之前先升级到 v2.55。可以从 v3.0 回滚到 v2.55,但不能回滚到更早的版本。

一如既往,我们欢迎社区的反馈和贡献!