MistralAI推出24B开源模型能运行于32GBRAM苹果MacBook

内容摘要  同样面对 AI 大模型领域的“鲶鱼”DeepSeek,不同于美国 AI 公司 Anthropic CEO 达里奥·阿莫迪(Dario Amodei)用“万字檄文”施压白宫加强管制的敌对态度,法国明星 AI 公司 Mistral AI 则在发布自家新模型的同时在其技术博文中两次“致敬”DeepSeek。  当地时间 1 月 30 日,Mistral AI 发布一款名为 Mistral Smal

  同样面对 AI 大模型领域的“鲶鱼”DeepSeek,不同于美国 AI 公司 Anthropic CEO 达里奥·阿莫迪(Dario Amodei)用“万字檄文”施压白宫加强管制的敌对态度,法国明星 AI 公司 Mistral AI 则在发布自家新模型的同时在其技术博文中两次“致敬”DeepSeek。

  当地时间 1 月 30 日,Mistral AI 发布一款名为 Mistral Small 3 的开源模型。与此同时,其发表了一篇技术博文针对该模型加以详细介绍。

  Mistral AI 在博文中表示:“Mistral Small 3 既没有经过强化学习训练,也没有经过合成数据训练,因此比 Deepseek R1(一项伟大而互补的开源技术!)等模型更早进入模型生产流程。”

  其还写道:“对于开源社区来说,这是激动人心的日子!和最近发布的 DeepSeek 一样,Mistral Small 3 为大型开源推理模型带来了补充,作为一款强大的基础模型,其推理能力得到了更进一步的发展。”言辞之间,似乎流露着 Mistral AI 对于 DeepSeek 的惺惺相惜。

  值得一提的是,Mistral Small 3 的层数远少于同类模型,大大减少了每次前向传播的时间。

  在评估该模型的性能时,Mistral AI 与外部第三方供应商一起针对 1k 多个专有编码和通才提示进行并排评估。这项评估任务旨在从 Mistral Small 3 与从另一个匿名模型生成的内容中,挑选出来更受欢迎的模型响应。

  Mistral AI 在博文中写道:“我们意识到在某些情况下,人类判断的基准与公开可用的基准截然不同,但在核实公平评估时我们格外谨慎。因此我们相信,上述基准是有效的。”

  评估结果显示,相比三倍于其大小的开源权重模型和专有 GPT4o-mini 模型,Mistral Small 3 的指令调优模型在代码、数学、常识和指令遵循基准测试上更加出色。

  由于所有基准测试的性能准确性,均是通过相同的内部评估流程获得。因此,测试结果可能与 Qwen2.5-32B-Instruct、Llama-3.3-70B-Instruct、Gemma-2-27B-IT 这几款模型之前报告的性能略有不同。

  Mistral AI 表示,Mistral Small 3 是目前同类产品中最有效的模型,它很好地补全了大型开源推理模型,其还称 Mistral Small 3 极大降低了计算成本,并表示这可能会重塑先进 AI 部署的经济性。

  Mistral AI 的联合创始人兼首席科学官纪尧姆·兰普莱(Guillaume Lample)也告诉媒体:“我们认为,它在所有参数小于 700 亿的模型中是最好的。”“我们估计它基本上与几个月前发布的 meta Llama 3.3 70B 相当,而 Mistral Small 3 却比它小了近三倍。”

  据介绍,Mistral AI 之所研发这款新模型,是为了在适合本地部署的规模上拉满模型性能。Mistral AI 的技术方法侧重于效率而非规模,其主要通过迭代模型训练技术来提高模型性能,这样一来无需再投入更多的计算能力。

  事实上,不仅 Mistral AI 的模型训练方式有所不同,其模型优化的方式也有所不同。据介绍,Mistral Small 3 在 8 万亿个 tokens 上进行训练,而同类模型的训练量为 15 万亿,这让那些重视计算成本的企业更容易获得先进的 AI 功能。

  据该公司称,Mistral Small 3 可以在单个图形处理器(GPU,graphics processing unit)上运行,并能处理 80-90% 的典型业务,这些业务往往需要严格的语言和指令遵循表现、以及对于延迟要求非常低。与此同时,Mistral AI 在 Apache 2.0 协议下发布了预训练和指令调优的检查点。

  Mistral Small 3 允许企业自由修改和部署它,因此 Mistral AI 表示它非常期待开源社区来采用 Mistral Small 3 以及基于定制其进行模型性质,并表示非常欢迎开发者通过破解 Mistral Small 3 来使其变得更好。

  同时,Mistral AI 还在官网预告称,预计未来几周内 Mistral AI 的小模型和大模型将具有更强的推理能力。

  随着 AI 行业的成熟,Mistral AI 对更小、更高效模型的关注,可能会被证明是一种具有先见之明的做法。目前,OpenAI 和 Anthropic 等公司更专注于开发越来越大、越来越昂贵的模型,而 Mistral AI 的做法则和其形成鲜明对比。

  该公司的联合创始人兼首席科学官纪尧姆·兰普莱(Guillaume Lample)也预测称:“很多开源模型都可能带有非常宽松的许可证。我们认为,这种‘条件型(conditional)’模型很可能会成为一种商品。”

  另据悉,Mistral AI 成立于 2023 年 4 月,一共有三位创始人。他们分别是:担任联合创始人兼 CEO 的阿瑟·曼斯(Arthur Mensch)、担任联合创始人兼首席科学家的纪尧姆·兰普莱(Guillaume Lample)以及担任联合创始人兼 CTO 的蒂莫西·拉克鲁瓦(Timothée Lacroix)。

  联合创始人兼 CEO 阿瑟·曼斯(Arthur Mensch)此前曾在 DeepMind 的法国工作室担任研究员。其本科毕业于法国巴黎综合理工学院,硕士毕业于法国巴黎萨克雷高等师范学校,博士毕业于法国巴黎萨克雷大学。

  联合创始人兼首席科学家纪尧姆·兰普莱(Guillaume Lample)此前曾在 meta 法国分公司工作过六年多之久。早年其先后在法国巴黎综合理工学院和美国卡内基梅隆大学获得两个硕士学位,并在法国巴黎第六大学获得博士学位。

  联合创始人兼 CTO 蒂莫西·拉克鲁瓦(Timothée Lacroix)此前也在 meta 法国分公司工作过数年之久,早年其在法国巴黎高等师范学院获得了本科学位。

  2024 年夏,Mistral AI 获得 6 亿欧元的融资,投资者中包含微软和英伟达。目前,Mistral AI 公司估值约为 60 亿美元,其将自己定位为全球 AI 竞赛中的“欧洲领头羊”。

  2025 年 1 月,Mistral AI 与法新社签署了一项协议,这让用户使用 Mistral AI 的产品能够访问法新社以六种语言发布的新闻。

  最近,该公司的联合创始人兼 CEO 阿瑟·曼斯(Arthur Mensch)在参加达沃斯世界经济论坛时,接受了彭博社的采访。采访中其表示,Mistral AI 正在为最终的首次公开募股(IPO,Initial Public Offering)做准备。

  在全球 AI 领域,“法国 AI”是一股不可忽视的力量。图灵奖得主&meta 首席科学家杨立昆(Yann LeCun)、“Keras 之父”& 前谷歌高级工程师弗朗索瓦·肖莱(François Chollet)均出生于法国。

  法国现任法国总统马克龙也曾表示希望将法国变为欧洲的一个创业国家,此前马克龙还亲自出席过巴黎一家孵化器的落成典礼。

  尽管如此,作为一家 AI 公司要想在全世界都能“吃得开”那就必须拥抱美国市场,此前有报道称 Mistral AI 将在美国加州旧金山湾区帕洛阿托建立办事处。

  与此同时,该公司还计划在新加坡开设一个办事处,以便更好地拓展亚太地区业务。总之,Mistral AI 早已不满足于在法国发展而是志在全球。

 
举报 收藏 打赏 评论 0
24小时热闻
今日推荐
浙ICP备19001410号-1