Gemini API 文件搜索升级多模态，支持文本/图像/音频/视频

Google 宣布其 Gemini API 的文件搜索功能正式升级为多模态。这意味着开发者现在可以在文件搜索中同时处理文本、图像、音频和视频内容，而不再局限于纯文本。

这一更新使得 Gemini API 能够更全面地理解和检索文件中的信息，例如在 PDF 中搜索包含特定图表和文字说明的页面，或从视频中定位某个关键对话片段。

对于企业应用而言，多模态文件搜索可显著提升知识库管理、客户支持、内容审核等场景的效率。开发者只需通过 API 调用即可实现跨模态的语义搜索，无需自行构建多模态索引。

Google 强调，该功能基于 Gemini 模型的底层多模态理解能力，能够将不同模态的信息统一映射到语义空间，从而实现更精准的检索。

目前，该功能已面向 Gemini API 用户开放，支持包括 PDF、图片、音频、视频在内的多种文件格式。开发者可以通过简单的 API 参数配置启用多模态搜索。

此次更新是 Google 在 AI 多模态领域持续发力的最新一步，此前 Gemini 模型已支持多模态输入和理解，如今将这一能力延伸到文件搜索环节，进一步拓宽了应用边界。

Gemini API 文件搜索现已支持多模态