SheepNav
精选今天0 投票

Soro:专为塔吉克语打造的轻量级基础模型与聊天机器人

快讯:Soro——塔吉克语大模型轻装上阵

在大型语言模型(LLM)竞赛中,绝大多数资源都集中在英语、中文等主流语言上。然而,一项新研究为资源匮乏的语言带来了突破。研究人员发布了 Soro,一系列专为塔吉克语优化的轻量级对话LLM,旨在应对塔吉克斯坦严苛的算力与网络限制。

从Gemma 3起步,定向训练

Soro 基于开源的 Gemma 3 检查点,通过两个关键步骤实现专业化:

  • 持续预训练:使用一个精心筛选的 19亿词符 塔吉克语语料库,涵盖网页文本、PDF文档及与课程对齐的教育材料。
  • 监督指令微调:在 4万条 塔吉克语教师风格的示例上进行训练,提升对话能力。

填补评估空白

由于标准基准测试中塔吉克语覆盖有限,团队专门推出了配套的塔吉克语基准测试集,涵盖常识、语言能力和学校/大学入学考试领域,并已在 Hugging Face 开源。

性能与部署优势

在塔吉克语基准上,Soro 显著优于同等规模的 Gemma 3 模型,同时保留了在英语标准数据集上的强大性能。更重要的是,通过 FP8 和 INT4 量化,Soro 在保持塔吉克语能力的同时,大幅降低了内存需求,使其能够部署在边缘设备上。目前,该模型已在教育领域试点,并计划推广至塔吉克斯坦的学校。

Soro 的发布标志着低资源语言AI发展的重要一步,展示了如何通过针对性的预训练和轻量化技术,让先进语言模型惠及更多语言社区。

延伸阅读

  1. 从文本中识别人类价值观:一种可定制的大模型架构
  2. 合成信息的起源:用隐写术为AI生成内容刻上“遗传印记”
  3. DynaSchedBench:校准的动态调度基准与LLM调度智能体的可观测性悖论
查看原文