新上线今天69 投票
Gemini API 文件搜索现已支持多模态
Google 宣布其 Gemini API 的文件搜索功能正式升级为多模态。这意味着开发者现在可以在文件搜索中同时处理文本、图像、音频和视频内容,而不再局限于纯文本。
这一更新使得 Gemini API 能够更全面地理解和检索文件中的信息,例如在 PDF 中搜索包含特定图表和文字说明的页面,或从视频中定位某个关键对话片段。
对于企业应用而言,多模态文件搜索可显著提升知识库管理、客户支持、内容审核等场景的效率。开发者只需通过 API 调用即可实现跨模态的语义搜索,无需自行构建多模态索引。
Google 强调,该功能基于 Gemini 模型的底层多模态理解能力,能够将不同模态的信息统一映射到语义空间,从而实现更精准的检索。
目前,该功能已面向 Gemini API 用户开放,支持包括 PDF、图片、音频、视频在内的多种文件格式。开发者可以通过简单的 API 参数配置启用多模态搜索。
此次更新是 Google 在 AI 多模态领域持续发力的最新一步,此前 Gemini 模型已支持多模态输入和理解,如今将这一能力延伸到文件搜索环节,进一步拓宽了应用边界。
