Amazon QuickSight 推出 Dataset Q&A:用自然语言直接查询结构化数据集
商业智能(BI)团队常常面临一个瓶颈:业务用户的问题超出了现有仪表盘的范围,于是提交工单,分析师编写查询、验证结果并交付——整个过程可能需要数小时甚至数天。如果每月有数百个临时请求,积压的工作就会成为数据团队生产力的最大制约。Amazon QuickSight 新增的自然语言查询功能 Dataset Q&A 旨在消除这一瓶颈。用户的问题会被自动翻译为 SQL,针对完整数据集运行,并在数秒内返回结果——无需行采样、主题策划或预配置的计算字段。
QuickSight 此前已提供两种自然语言查询模式:Dashboard Q&A 针对已发布仪表盘中的可视化数据,依赖作者构建的业务上下文;Topic Q&A 更进一步,作者通过业务友好的字段名称和同义词丰富数据模型,使用户能以日常语言查询策划好的字段集。Dataset Q&A 则补齐了最后一块拼图:用户可以直接探索任何数据集,突破作者预配置的限制,同时企业级的安全、权限和治理策略仍然得到完全执行。
尽管业界竞相推出文本转 SQL 的演示,但企业 BI 的真正挑战从来不是生成 SQL,而是将模糊的业务语言映射到复杂的数据模式,在每一步执行安全策略,并解释系统做了什么以及为什么这么做。QuickSight 的代理系统正是为此而设计。模型必须解决词汇歧义——例如“volume”是指行数、收入还是出货量?——并将口语化的业务术语映射到数据集中精确的列名和计算上,而无需预定义字典。
在运行任何查询之前,系统会通过一个语义图搜索所有结构化资产(仪表盘、数据集和主题),该图理解资产之间的关联关系。这样,即使你的问题没有使用数据集或列的确切名称,系统也能找到正确的数据源。确定数据源后,系统会查看数据样本值和分布等上下文信息,并结合作者提供的字段描述和业务背景来消除歧义,然后调用三种能力之一来生成查询。
实战用例与能力展示
自动发现所有数据资产:当用户提出“上季度各产品线的收入情况”时,系统会自动搜索整个 QuickSight 环境,找到包含收入字段和产品线信息的数据集或仪表盘,无需用户手动导航。
多数据集交叉查询:在单次对话中,用户可以询问“比较上个月和本月的客户流失率”,系统会识别需要连接两个不同数据集(客户表和流失事件表),自动生成跨数据集的 JOIN 查询。
安全与治理不妥协:所有查询都遵循数据集的行级安全策略和列权限。用户只能看到其有权访问的数据,管理员无需为自然语言查询单独配置安全规则。
技术架构亮点
QuickSight 的文本转 SQL 引擎并非简单的 LLM 调用,而是一个包含多个步骤的代理系统:
- 意图理解与资产发现:分析用户问题,通过语义图定位最相关的数据资产。
- 模式探索与消歧:采样数据值,读取字段描述,识别同义词,将模糊术语映射到具体列。
- SQL 生成与优化:根据映射结果生成正确的 SQL,包括聚合、过滤、连接等操作。
- 结果解释:返回结果时附带自然语言解释,说明查询了什么数据以及如何计算的。
这一架构确保了高准确性和可解释性,避免了“黑箱”查询带来的信任问题。
对 BI 行业的影响
Dataset Q&A 的推出标志着 BI 工具从“可视化驱动”向“对话式分析”迈出了重要一步。过去,自然语言查询往往需要精心策划的语义层或受限于预定义字段,而 Dataset Q&A 允许用户直接探索原始数据集,大幅降低了分析门槛。对于企业而言,这意味着:
- 业务人员可以自助获取答案,减少对分析师的依赖。
- 分析师可以专注于更复杂的分析任务,而非重复性的临时查询。
- 数据驱动的决策速度显著提升。
目前该功能已可用,用户可以在 QuickSight 控制台中启用 Dataset Q&A,并开始用自然语言提问。

