MiniCPM-V 4.6

producthunt.com

超高效1.3B视觉语言模型，赋能移动端

2个月前制作者：Zac Zuo

关于 MiniCPM-V 4.6

MiniCPM-V 4.6 是一款专为手机和消费级硬件设计的开源多模态大语言模型（MLLM），能够高效完成图像和视频理解任务。它采用创新的混合4x/16x视觉令牌压缩技术，在保持高精度的同时大幅降低计算开销，使得在移动设备上流畅运行成为可能。

核心功能

多模态理解：支持图像和视频输入，可进行物体识别、场景描述、问答等复杂视觉任务。
混合视觉令牌压缩：通过4x和16x两种压缩策略的智能组合，在推理速度和准确性之间取得最佳平衡。
跨平台部署：提供iOS、Android和HarmonyOS的演示应用，方便开发者快速集成和测试。
主流框架兼容：完美支持vLLM、SGLang、llama.cpp和Ollama等推理框架，降低使用门槛。

主要特性

极致轻量：仅1.3B参数，模型体积小巧，适合移动端和边缘设备。
高效推理：混合压缩技术使推理速度提升数倍，同时保持高精度。
开源免费：完全开源，无商业限制，社区活跃，持续更新。
多平台支持：覆盖主流移动操作系统，并提供详细的部署指南。
易于集成：支持多种推理框架，开发者可快速接入现有应用。

适用场景

移动应用：为手机拍照、视频分析等场景提供实时AI能力。
物联网设备：在智能家居、安防摄像头等资源受限设备上运行。
教育与研究：作为教学工具或研究基线，探索多模态模型的轻量化技术。
边缘计算：在边缘服务器或嵌入式系统上实现本地化AI推理。

所属分类

人工智能开源 GitHub

相关工具

Brila

用真实谷歌地图评论生成单页网站

Fundraisly

AI融资代理，精准匹配投资人并安排会议

ClawTeams

首个目标驱动的主动式电商AI团队

Pazi

用AI团队落地你的商业想法

Brew

专为邮件营销设计的Claude

Osaurus

在Mac上本地运行的开源AI代理