4个月搓出3款大模型，王小川偷了大厂的“家”

‍‍‍‍‍‍作者|小满

声明|题图来源于网络。惊蛰研究所原创文章，如需转载请留言申请开白。

今年4月，沉寂一年多的王小川宣布进入AI大模型领域再次创业，与COO茹立云联合成立大语言模型公司百川智能。在媒体沟通会上，王小川发布了未来20年借助语言AI要完成的目标，包括构建中国最好的大模型底座，在搜索、多模态、教育和医疗等方面增强，帮助大众轻松、普惠地获取世界知识和专业服务。

令人意想不到的是，仅仅过了4个月，百川智能就接连推出Baichuan-7B、Baichuan-13B系列、Baichuan-53B三款大模型。其中8月8日发布的Baichuan-53B参数量级达到530亿，如期完成了王小川“在今年三季度发布一款参数量级在500亿以上的大规模产品”的KPI。

从离开大众视野到重回创业舞台，以及选择大模型这一时下最热门的风口赛道，王小川的复出很难不吸引人们的关注。而眼下随着百川智能以惊人的效率不断进行产品迭代与更新，人们在大厂云集的大模型赛场上，也开始多了一些与众不同的期待。

“迟到”的百川智能

作为曾经的天才少年以及大众印象中典型的“理工男”，王小川做事向来审慎，而在选择大模型创业这件事情上，他却罕见地表现出狂热的情绪。

今年2月，美团联合创始人王慧文在朋友圈发布了自己的“人工智能宣言”，宣布个人出资5000万美元设立北京光年之外科技有限公司，将打造中国Open AI。而据极客公园媒体报道，王小川在看到王慧文的高调宣言后，也曾准备对外宣布入局大模型领域。

王小川的激动不无道理。科技创业赛道通常存在时间窗口，特别是对于大模型这类新兴技术而言，越早公开项目越容易争夺到有限的技术人才和资金资源。而且大模型对数据和训练量有着极大的需求，抢先发布产品能够吸引合作机构和用户参与内测，为大模型提供充足的数据并不断训练模型，推动算法迭代和产品更新。

所以当王慧文拿出5000万美元，并宣布已有顶级VC以2.3亿美元认购下轮融资的“英雄帖”时，无疑加剧了大模型创业团队的人才争夺。颇为有趣的是，在王慧文宣布大模型创业一个月后，被称为“搜狗输入法之父”的马占凯随即在社交平台上宣布加入光年之外。而百川智能在筹备阶段，也吸引了搜狗原有班底以及其他大厂领军人物的加入。

尽管情绪上有些激动，4月份官宣的百川智能还是比光年之外晚了将近2个月，相比光年之外的2.3亿美金融资，百川智能5000万美元的启动资金也显得有些单薄。但“迟到”并不意味着落后，相反这2个月让王小川想清楚了很多事情。

从Open AI的发展历程中可以看到，虽然前后融资超过了100亿美金，但Open AI真正开始“烧钱”也是在GPT-3正式发布开始大规模训练之后。据国盛证券估算，GPT-3的单次训练成本高达140万美元，一些更大的LLM（大型语言模型）的训练成本则介于200万美元至1200万美元之间。因此，对于刚刚起步的百川智能来说，5000万美元足以完成项目初期从0到1的产品设计。

其实在资金之外，大模型项目更关键的还是人才积累问题。Open AI的736名员工中，就有123名来自于谷歌、Meta以及苹果公司的核心人才，半数以上员工曾在硬件或软件公司工作。技术人才的积累，是Open AI在研发方面保持着一流水平的主要原因。而百川智能在最近4个月里，已经将团队规模翻倍。

4月份接受采访时，王小川透露到月底团队成员将达到50人。而截至目前，百川智能的员工规模已经达到113人左右。其中，技术人员的比例占70%-80%。作为一家成立不到半年的创业公司，百川智能的官宣或许有些“迟到”，但从结果来看，一切都在按照王小川的计划进行。

王小川的自信从何而来？

虽然起步晚，但百川智能4个月发布3款大模型的惊人效率，表现出了后发制人的竞争意识，并且每一款产品的体验方面也呈现出了差异化的优势。

早前Baichuan-7B和Baichuan-13B的跑分成绩就曾令圈内人士眼前一亮。在清华大学、上海交大、爱丁堡大学联合创建的评测标准C-Eval 中，Baichuan-7B经过52 个学科的测评，最终获评34.4 分，在同量级产品中排名第一。

国际中/英文权威评测数据集(2023年6月15日)

Baichuan-13B则在自然科学、医学、艺术、数学等领域大幅领先LLaMA-13B等同量级的大语言模型，在社会科学、人文科学等领域超过了ChatGPT。而在MMLU基准上，Baichuan-13B超过了所有同量级开源模型。

对于最新发布的Baichuan-53B，王小川给出的评价是文科能力更好，也就是说Baichuan-53B能够很好地理解语言泛化背后的含义，具备理解古诗、生成风格化文章的能力。对此，惊蛰研究所使用Baichuan-53B内测版进行了测试。

在连续面对“请写一首以夏天为主题的五言绝句”的要求时，Baichuan-53B给出的4 首诗文存在明显的重复。其中，4首绝句的最后一句都是“荷花盛开满池塘”，3首的前两句都是“夏日炎炎列日照，绿树成荫鸟儿叫。”并且每首诗相同的段落描写的都是相同的意象，似乎是按照同一个模板排列组合而成。类似的现象，惊蛰研究所在使用百度的文心一言进行对比测试时，并没有发生。

对于生成风格化文章的能力，惊蛰研究所要求Baichuan-53B分别以徐志摩、卡夫卡和柯南·道尔的风格“写一条朋友圈，讲述我今天吃了肯德基这件事”。从结果来看，虽然内容结构上也非常相似，但Baichuan-53B很好地抓住了三位作家的写作风格。

最令人惊喜的是，在“扮演”柯南·道尔写作的文案中，Baichuan-53B还提到作者的代表《福尔摩斯探案集》以及其中的贝克街，让人感觉到AI不是在单纯地模仿作家风格生成内容，而是在生成作家自己的“朋友圈”。

由此看来，Baichuan-53B在内容生成方面不仅仅具备一定的理解能力，能够模仿不同的文学风格，在表述上也更像是人，而不是基于大数据和算法对现有数据进行排列组合。这也难怪王小川会自信地表示，“我们这个模型在文科领域走前列。”

“百模大战”刚刚开场

ChatGPT问世以来，大模型风口吸引了越来越多的玩家，从科技大厂到创业公司都开始将大模型作为自身的最大亮点，竭力追逐行业热点。基于这一行业背景，王小川在官宣以创业的形式入局大模型时遭到了质疑，不少网友都表示当前大模型赛道大厂林立，独立团队很难有机会。坦白说，截至目前，整个行业都还停留在“外行看热闹”的阶段，这也反映了国产大模型团队仍然游离在B端和C端市场之间的现状。

一个典型的现象是，OpenAI借助ChatGPT成为全球顶尖AI公司后，国内一众科技公司纷纷宣布推出类似ChatGPT的“聊天机器人”“图片生成器”，并且学习Meta等科技大厂将大模型开源免费商用。但从实际效果来看，这种“百模大战”更像是为了抢关注、挣流量。

大模型开放免费商用之后，给谁用、怎么用，谁又真的会用？这一连串的问题没有人问，真正使用了免费大模型的企业也不会主动宣扬。“聊天机器人”的出现，很大程度上只是为了证明科技公司具备一定的技术能力，而现阶段大模型的商业化手段，仍然以B端市场为主。

例如百度的文心大模型涵盖基础大模型、任务大模型、行业大模型的三级体系，广泛应用于电力、燃气、金融等产业领域；腾讯的混元大模型，则主要是帮助腾讯生态实现降本增效，在广告领域可以自动生成广告文案和视频；阿里的通义大模型，能够跟人类进行多轮的交互，拥有文案创作能力，能够续写小说、编写邮件等；华为盘古大模型则基于其训练出的2000 亿参数以中文为核心的预训练生成语言模型，发布了盘古气象大模型、盘古矿山大模型、盘古OCR等多个行业大模型。

透过上述大模型的功能可以看到，科技大厂的大模型体现的是其背后在算法、算力、深度学习方面的技术实力，而这些技术能力服务的首要对象，自然是B端客户。此前，华为昇腾计算业务总裁张迪煊就曾表示，华为已经帮助孵化了 20 多个基础大模型，“中国大模型中约一半由昇腾 AI 支撑”。而B端市场用户可以在通用大模型的基础上，定向开发出符合自己需求的专用大模型辅助企业经营，也可以针对C端市场开发大模型应用产品。

在王小川选择大模型创业被质疑机会渺茫这件事情上，大厂在行业赛道抢先卡位，并不代表其已经掌握行业竞争的决胜权。过去因为对B端市场以及自身业务的过度关注，使得大厂在技术创新方面缺乏一些主动性。比如2016年开始就将AI作为战略重心的百度，本就拥有开发ChatGPT类语言模型的底层技术，甚至还具备绝无仅有的中文搜索场景，但直到ChatGPT爆火之后，百度才在今年3月份推出文心一言。

如同王小川对5000万美元启动资金的判断一样，大模型的决胜盘在于训练阶段。在给大模型投喂数据这一关键性的成长环节，高素质训练人才提供的高质量数据集是大模型快速成熟、迭代的关键。比如ChatGPT早期就利用菲律宾的大学教授进行数据标注，而国内进行数据标注的人才数量和水平均未能满足行业所需。