SheepNav
新上线1个月前176 投票

开源工作场所搜索与聊天平台 Omni:基于 Postgres 的 AI 助手

在当今企业数据日益分散、信息孤岛问题凸显的背景下,如何高效整合并利用这些数据成为许多组织面临的挑战。近日,一个名为 Omni 的开源项目在 Hacker News 上亮相,它旨在为企业提供一个完全自托管的工作场所搜索与聊天平台,连接 Google Drive、Gmail、Slack、Confluence 等常用应用,帮助员工快速查找信息并完成工作。

核心功能:搜索、AI 代理与数据安全

Omni 的核心功能围绕三个关键点展开:

  • 统一搜索:它支持连接 Google Workspace(Drive、Gmail)、Slack、Confluence、Jira 等多种数据源,并提供 全文搜索(BM25)语义搜索(pgvector) 能力。这意味着用户不仅能通过关键词查找,还能基于语义相似性发现相关文档,大大提升了信息检索的准确性和广度。
  • AI 代理:平台内置一个聊天界面,AI 助手不仅能理解自然语言查询、搜索已连接的应用程序并读取文档,还具备 工具使用能力。一个值得注意的特性是,它可以在一个沙盒化的容器中执行 Python 或 Bash 代码来分析数据,这为数据探索和自动化任务提供了可能,同时通过严格的隔离措施(如隔离的 Docker 网络、Landlock 文件系统限制、资源限制和只读根文件系统)确保安全。
  • 完全自托管与权限继承:Omni 设计为完全运行在用户自己的基础设施上,所有数据都不会离开内部网络,这对于注重数据隐私和合规性的企业至关重要。此外,它继承源系统的权限,用户只能访问他们已有权查看的数据,无缝整合了现有安全策略。

技术架构:Postgres 为核心,多语言微服务

Omni 的一个显著技术特点是其 “一切基于 Postgres” 的架构。它利用 ParadeDB(一个基于 Postgres 的扩展)来处理 BM25 全文搜索、pgvector 语义搜索以及所有应用数据,无需 Elasticsearch 或专用的向量数据库。这种设计简化了运维,只需维护、调优和备份一个数据库系统,降低了技术栈的复杂性。

在服务层面,核心组件采用多语言开发:

  • Rust:用于高性能的搜索器(searcher)、索引器(indexer)和连接器管理器(connector-manager)。
  • Python:负责 AI 和 LLM 的编排逻辑。
  • SvelteKit:构建现代化的 Web 前端。

数据源连接器以独立的轻量级容器运行,允许使用不同的编程语言和依赖,互不干扰,提高了系统的模块化和可扩展性。

部署与集成灵活性

Omni 提供了灵活的部署选项,以适应不同规模和环境的需求:

  • 简单部署:对于单服务器场景,可以使用 Docker Compose 快速启动。
  • 生产部署:对于 AWS 或 GCP 等云环境,提供了 Terraform 配置,便于自动化和管理生产级部署。

在模型支持上,Omni 遵循 “自带模型” 原则,兼容 Anthropic、OpenAI、Gemini 等主流商业 API,也支持通过 vLLM 使用开源模型,给予企业在成本、性能和隐私之间的选择自由。

目前支持的集成包括 Google Workspace、Slack、Confluence、Jira、公共网站、Fireflies(会议转录)、HubSpot 以及本地文件系统索引,覆盖了常见的办公和协作场景。

行业背景与潜在影响

Omni 的出现,直接对标了 Glean 等商业工作场所搜索平台,但以 开源和自托管 作为核心差异点。在 AI 助手和智能搜索领域,企业越来越寻求在提升效率与保障数据安全之间取得平衡。Omni 通过将 AI 能力(如语义搜索、代码执行分析)与严格的数据控制(自托管、权限继承)相结合,可能吸引那些对云服务数据出境有顾虑、或希望深度定制和审计内部工具的组织。

其基于 Postgres 的统一存储和搜索架构,也反映了当前数据库技术融合向量搜索能力的趋势,为开发者提供了一个简化技术栈的实践案例。

小结

总体而言,Omni 是一个功能全面、注重安全与可控性的开源工作场所智能平台。它将统一搜索、AI 代理对话、安全代码执行完全自托管、权限继承等特性打包在一起,为企业提供了一个可替代商业解决方案的选择。其基于 Postgres 的简洁架构和灵活的部署选项,降低了采用门槛。对于正在寻找既能提升团队信息检索效率,又能完全掌控数据流向的 AI 工具的企业技术团队来说,Omni 值得关注和评估。项目采用 Apache License 2.0 开源,社区可通过其文档、Discord 和讨论区参与贡献或获取支持。

延伸阅读

  1. 微软服务条款警示:Copilot 仅供娱乐,用户需自行承担风险
  2. Suno成音乐版权噩梦:AI平台轻易生成碧昂丝等明星歌曲仿制品
  3. Codex 定价调整:从按消息计费转向与 API 令牌使用量挂钩
查看原文