Litefuse 开源发布:一行命令部署 Agent 可观测与评估平台,单机版比 Langfuse 快 5.5 倍
在前一篇文章 Litefuse 正式发布Agent 可观测与效果评估 比 Langfuse 成本低 88% 中我们介绍了为什么 Agent 时代需要新的方法论 EDDEvaluation Driven Development通过 “观测-评估-优化” 闭环来应对大模型幻觉、路径规划走偏、工具调用失败、上下文腐化等 Agent 特有的不确定性问题Litefuse 如何把 Trace 采集、可视化分析、数据集管理、实验运行与评估这一整套实践 EDD 方法论的能力产品化。在过去一个月中Litefuse SaaS 服务 litefuse.cloud 受到了很多 Agent 开发者欢迎注册用户超过 200 人Litefuse 被应用到 Agent 评估优化、大模型网关观测与成本分析、RAG Pipeline 调优等场景中。今天我们将 Litefuse 开源并推出业界第一个极致轻量的单机单进程模式。如果你已经迫不及待想要尝试运行下面一条命令大约 25 秒就能完成 Litefuse 单机版下载、安装和部署。curl -fsSL https://litefuse.ai/install.sh | sh为什么要做单机版相信大家在体验 Agent 可观测平台的时候都有类似的经历在私有化环境中基本上所有产品都需要用 Docker 来启动看起来很简单实际却很麻烦如果没有现成的 Docker 环境要先下载安装 Docker然后拉取对应产品的 Docker image 一般都是几个 GB默认从 docker hub 下载就得按小时计想办法配置好国内镜像站点然后再下载也得好几分钟起来之后发现好家伙一堆容器看着就很笨重。这还只是第一次体验后续的维护更是问题数据都存在哪里端口怎可开映射等等一系列 Docker 和多进程的问题接踵而至。而如果你要把这个套系统部署在你的用户或者客户环境中笨重的代价则更加明显用户可能没有 Docker 环境、网络可能是隔离的没法拉取镜像等等。有些场景中用户只需要一个单机就能跑的系统却不得不与 Docker 和 5-6 个进程打交道复杂度甚至比被观测的系统还高。这就是 Litefuse 推出一个极致轻量的单进程模式的原因在单机场景下让用户用最简单的方式把 Agent 可观测与评估跑起来。下面这个视频中左边 Litefuse 单进程版本只用 curl 和 sh 命令、25 秒从零开始已完成部署12 秒下载完 358MB 安装包、11 秒解压安装而右边 Langfuse 基于 Docker 花了 2 分 18 秒慢了 5.5 倍这还是在提前准备好 Docker 环境、配置好国内镜像的前提下否则会慢几十倍。点击观看litefuse_install_demo3.mp4Litefuse 单进程版支持 macOS (Apple silicon) 和 Linux (x64) 它的架构和特点如下一个二进制包体积不到 400MB里面包括了 Litefuse 本身的程序、Node.js 和 JVM 运行时环境PGlite 嵌入式 PostgresDorisLite 嵌入式 Doris 。没有其他运行时依赖只依赖内置的 Node.js 和 JVM 运行时无需外部依赖无需 Docker 环境。运行起来只有一个进程数据库 PGlite 和 DorisLite 以库的方式加载而不需要额外的进程。为什么选择 Apache Doris 作为存储分析引擎Agent 可观测的核心数据也是 Trace那它与传统可观测到底有什么区别本质的区别是几个量变引起了质变MB 长文本Agent 依赖的 LLM 能生成长文本特别是最新的模型支持百万 token 上下文一次请求的输入和输出可能有 MB 级别的长文本传统可观测中一般只有百字节或者 KB 级别的文本。长文本一方面检索 Trace 带来了很大挑战用户反馈问题时很可能没有 Trace ID 只有一个截图需要根据截图中的关键字到可观测系统中搜索对应的 Trace文本越长传统的 LIKE 等字符串硬匹配就越慢。另一方面长文本给查询时的内存消耗带来挑战10000 行 MB 级别的长文本全部加载到内存就需要 10GBAgent Trace 分析时涉及的数据行数还不止这么多。跨度几天、GB 大小的超长 Trace复杂的 Agent 任务可能会运行数小时甚至数天由几百甚至几万个步骤组成一个步骤产生一个 Span由于上面的长文本原因可能高达 MB一个 Trace 可能有几万个 Span 加起来高达几百 MB 甚至 GB。这个特点导致了分析 Agent 轨迹时获取一个 Trace 的所有 Span 很慢因为需要从很多文件中读取相关的 Span。大量半结构化数据传统的 Trace 中灵活的半结构化数据如 JSON 一般用于元数据而 Agent Trace 中不仅元数据中有 JSON主数据如 input output 中也有大量 JSON这是因为 Agent 和大模型的输入输出大多都是 JSON 格式。这个变化导致了如果没有对半结构化 JSON 的 Native 支持和优化Trace 分析将会很慢因为读取和解析 JSON 是很消耗资源的。数据量提升一个量级由于单个 Span 变大、一个 Trace 中的 Span 变多数据总量也有数量级的变化这就带来存储成本的大幅增加。过去几年我们在与 MiniMax、阶跃星辰等大模型公司构建可观测系统的过程中不断探索和扩展 Doris 的能力边界现在发现正好匹配上了 Agent 可观测的技术挑战。1、成熟的倒排索引加速全文检索 10xApache Doris 早在 2023 年开始支持了倒排索引被 MiniMax、阶跃星辰、字节、快手、腾讯、阿里、百度、网易等数百家公司大规模应用于生产环境。功能方面不仅支持基础的关键词检索 MATCH还支持多关键词检索 MATCH_ALL、短语检索 MATCH_PHRASE、前缀检索 MATCH_PHRASE_PREFIX、短语词距 SLOP、正则检索 MATCH_REGEXP、多字段检索 MULTI_MATCH 等。支持英文、中文、中英文混合 IK、UNICODE ICU 等多语言分词器。支持 BM25 相关性打分和排序支持 SQL 和 Lucene 风格的两种检索方式。在性能方面Doris 倒排索引支持 PB 级别存储、百 GB/s 实时写入、秒级检索。经过多年生产环境的打磨和验证Doris 倒排索引能够轻松应对 Agent 可观测中的长文本检索挑战。2、延迟物化等解决降低长文本查询时内存占用在 MiniMax、阶跃星辰等可观测场景中已经遇到过 MB 甚至百 MB 的长文本Doris 在存储、检索、查询等环节为长文本进行了大量优化。比如可观测场景中常见的 TOPN 查询按照日志的时间排序取最新 N 条Doris 的延迟物化技术在排序阶段只读取时间字段、获取最终 N 条数据时才读取完整的数据避免了大量的 IO、CPU、内存资源消耗查询响应快且稳定。3、分桶、排序、索引机制将 Trace 聚簇存储解决超长 Trace 分析问题Apache Doris 最初就为面向用户的实时分析设计了分区分桶、数据排序等机制将数据按照 user id hash 分桶分散到不同的服务器数据文件内部再按照 user id 排序让一个用户的数据尽量存储在一个服务器、数据文件相邻的区域用户查询时它的数据局部性很好、很快得到满足而且全局的并发很高。对应到 Agent 可观测领域这套机制正好可以用于优化基于超长 Trace。将 trace 数据按照 trace id hash 分桶分散到不同的服务器数据文件内部再按照 trace id 排序并对 trace id 建立前缀索引。Agent 轨迹分析时获取一个超长 Trace 的所有数据不用在很多分散的服务器和文件中读取数据而是很快找到对应 hash 的服务器在数据文件中定位到 trace id 的范围通过范围 scan 就能快速拿到结果。4、VARIANT 数据类型 Native 支持和优化半结构化 JSON 数据存储分析Apache Doris 为半结构化 JSON 数据设计了一个专用的数据类型 VARIANT。VARIANT 在写入时自动识别 JSON 数据中的字段名和类型将它们拆分成子列采用列式存储。这种机制一方面提升压缩率降低存储空间另一方面查询时只需读取相关字段的子列大幅降低读取的数据量而且不需要耗时的 JSON 解析过程查询速度通常能提升 10 倍。对于 Agent 可观测中 input output 字段大量的 JSON 数据VARIANT 的效果更加明显因为 input output 比 metadata 更长采用行存还是列存的差别更大。5、存算分离架构、列式存储降低存储空间和成本 75% ~ 80% 以上Apache Doris 在过去几年做了很多优化来降低存储空间和成本。列式存储、ZSTD 压缩可以降低存储空间同样的数据使用更少的存储空间。存算分离架构不需要在本地磁盘存储多个副本而是将数据存储在对象存储中只需要存储 1 份而不是 2-3 份存储空间降低 50% 以上同时由于对象存储成本仅为本地磁盘的 25% ~ 50%整体成本则降低 75% 到 88%。同时存算分离架构也会降低数据写入的成本因为数据只写 1 份不需要多个副本同时消耗计算和 IO 资源。值得注意的是Langfuse 背后的 Clickhouse 开源版本是不支持存算分离架构的用户需要用本地磁盘多副本来保证可靠性代价是多份的存储成本。而ApacheDoris 开源就支持存算分离架构用户可以免费享受到 75% 到 88% 的成本降低。现在就加入社区基于上面的一些原因Litefuse 基于 Langfuse 和 Apache Doris 构建在 Langfuse 丰富的功能基础之上利用 Doris 优化存储成本和分析性能并推出极简的单进程模式简化架构和维护成本。Litefuse 已经在 GitHub 开源采用非常宽松的 MIT 协议如果觉得这个项目有价值欢迎给我们一个 StarGitHubGitHub - litefuse/litefuse: Litefuse - Agent Observability and Evaluation Platform · GitHub官网https://litefuse.ai在你自己的 macOS (Apple Silicon) 或 Linux (x64) 服务器上一行命令、约 25 秒即可跑起来curl -fsSL https://litefuse.ai/install.sh | sh如果你不想自己部署也可以直接使用云端服务SaaShttps://litefuse.cloud 提供免费额度注册即用阿里云 SelectDB 云数据库SelectDB - Apache Doris - 实时数仓 - 数据分析 - 阿里云可开启独享的 Litefuse 实例 开启 AI 可观测服务-云数据库 SelectDB 版(SelectDB)-阿里云帮助中心。Litefuse 开源只是一个新的起点接下来 Litefuse 一方面会继续在架构层面发力进一步提升性能和降低成本另一方面会在 Agent 评估层面增强产品能力帮助开发者更高效评估和迭代 Agent。

相关新闻