小米大模式,不要搞“chatgpt

日期:2023-06-25 09:41:50 / 人气:251


不要加入“百款大战”。
ChatGPT上线半年后,一场模特大追逐继续在太平洋两岸上演。
OpenAI、微软、英伟达组成的联盟正在太平洋东岸艰难奔跑。今年3月起,中科公司紧急跟进。百度、阿里、商汤和科大讯飞相继推出了“类ChatGPT”产品。腾讯、华为、JD.COM都公开表示在跟进大模式,都想抓住这个比互联网时代“大十倍”的机会。
目前,小米作为国内大型科技企业,显得格外淡定。
小米掌门人雷军说,小米正在研发一些技术和产品,打磨好了会给大家演示。小米集团总裁卢表示,小米目前拥有1200多人的AI团队,会积极拥抱大模型,与业务深度融合,但不会做OpenAI那样的通用大模型。
这些信息都加深了外界的疑问:小米会加入“百款大战”吗?
小米集团AI实验室主任王斌博士对深展表示,小米会自己开发一个通用的大模型,但不会单独发布一个类似ChatGPT的产品。“我们不会发布PPT或展示几个例子,所以我们会说我们有一个大型模型。”相反,自研的大型号最终会被产品带出来。
这是小米官方首次公布大机型的路线和进度。今年4月14日,小米宣布大模型团队由栾建领导,向王斌汇报。王斌在中科院从事NLP(自然语言处理)相关研发工作20多年。2018年加入小米,2019年起负责AI实验室。AI lab是小米AI战略的核心部门。
曾经做过对话模型的小米,是通用预训语言模型中为数不多的理性主义者。王斌透露,目前有30多个全职大模特团队,不会马上快速扩张;这个团队的目标仍然是通用语言模型。第一步目标基座模型的参数是几百亿,然后根据之前的爬坡结果决定下一步的投入。
“从开发大型号到落地还有很长的路要走。能否找到合适的重要场景,是很多大模特公司的痛点。”在王斌看来,小米的优势在于有足够多现成的大模型落地场景,包括萧艾同学、loT、自动驾驶、机器人等,丰富的应用场景也可以反哺大模型的能力。
小米不缺场景,但要培养一个大的模型,数据、计算能力、人才的积累缺一不可。王斌表示,小米有一定的人才储备,在计算能力和数据量上有很大的挑战。一方面,计算能力需要克服系统级的挑战,训练成本要可控;另一方面,获取和清洗高质量的数据需要花费大量的时间和成本。
在新一波AI大模型中,小米AI团队为什么不发布“类ChatGPT产品”?小米如何判断大机型的技术路线和技术难度?前几天,申展主编何书龙和小米技术委员会AI实验室主任王斌进行了一次对话。以下是核心内容:
01小米大模式:团队30人,无“ChatGPT式”
深燃:4月14日,小米任命栾建为大模型团队负责人向大家汇报。能告诉我们小米大模型团队是怎么诞生的吗?
王斌:大模型团队是4月份宣布的,但是在那之前就已经在运作了。
去年11月30日,OpenAI发布ChatGPT后,我们一群人迅速注册了账号,开始在上面玩。ChatGPT真的很颠覆。我们做人工智能已经这么多年了,它的许多能力超出了我们R&D人员的预期。
很快,我们组织了多个内部大模型交流群,讨论大模型的技术及其对机器翻译、人机对话、智能问答、客户服务的颠覆性影响。很多早期参加研讨班的人,后来都成了专职大型模型团队的重要成员。
深燃:小米的大模型团队会不会来的有点晚?
王斌:对于大的模型,我们属于理性派。
在ChatGPT诞生之前,小米已经做了大模型相关的研发和应用,主要是前期训练和下游任务监督微调的形式,模型的参数都在百亿量级。当然这种型号不是现在一般的大型号。
我们很清楚,通用大模型的开发和应用是一项长期的工作,不是一朝一夕的事情。我们按照自己的时间计划和步骤走着。当时我们觉得时间到了,做了团队发布。
深燃:大模型团队有多少人?有进一步扩张的计划吗?
王斌:目前主要团队有30多人。目前正在根据人才、数据、模型、算力、测评、产品进行准备,到一定阶段再逐步调整或扩充。
目前不会马上扩大人数,比如一下子招100人。因为在积累能力的爬坡阶段,招那么多不知道怎么安排的人可能是浪费。
随着大模特信息的不断披露,资本和人才的涌入,大模特这个领域发展非常迅速,大家的看法也发生了很大的变化。不久前ChatGPT刚出来的时候,大家都觉得基本不可能实现类似的大模型,但是慢慢的,很多人觉得可能性很大,也有人觉得很多产品不需要这么大规模的模型就可以满足。每个人的投资强度也大不相同。有些人可能认为团队至少应该有几百人,而有些人却不这样认为。
深燃:有没有阶段性的计划,什么时候内测,对外发布?
王斌:和其他公司不一样,小米天生就有产品的属性。我相信小米的大模式一出来,就是产品带出来的。
我们可能会在第三季度之前进行内部测试。然而,这并不是一个必然的节点。
深燃:换句话说,小米不会发布类似ChatGPT的产品?
王斌:是的,我们不会发布一个PPT,也不会展示我们有一个大模型。丰富的应用场景是我们最大的优势。小米模式会和场景结合的更紧密,一定要根据产品的节奏做出相应的发布计划。
深燃:除了人力,在计算能力方面,小米做一个大模型的成本是多少?
王斌:我们属于中等规模的投资,会根据之前爬坡的结果来决定下一步的投资。
我们的基本判断是,适合小米产品和业务的模型可能有几百亿的参数,会低于1000亿的规模,训练机的投入大概是几千万人民币。
深燃:之前小米做的百亿参数的模型怎么了?
王斌:去年发布的ChatGPT就是其中一个大模型,被称为通用预训练语言大模型。但是大模式本身很早就出现了,每个人的路线和做法都不一样。
我们更早开始跟进大模型,当时做了一个对话专用模型,大概是28亿到30亿的参数。基于预训练基模型,通过对对话数据进行微调来实现。它不是目前通用的大型模型,而是专用于人机对话的。比如可以提高萧艾对话的流畅性和多样性,让它继续下去。后来,这一模式在萧艾上线,并进行了小规模测试。
所以萧艾同学已经在用AIGC了,但是在产品层面,我们并不是都用这个大模型,而是利用传统模型和对话大模型的互补性,把两者混合起来。
小米的通用大模式在产品落地时很可能就是这种混合模式。传统模式处理得很好的问题就交给传统模式。大模型解决的是自己擅长的问题,比如一些小概率事件或者长尾对话。
在对话层面,现在的通用大模型明显高于之前的对话专用大模型,所以这部分团队已经全部转向通用大模型。团队贯穿了对话模型的整个训练过程,爬过一些坑,积累了数据,有一定优势。
02小米大模型:场景占优,数据是问题。
深燃:这段时间技术进步非常迅速,国产大机型正在密集发布。会因为进度慢而焦虑吗?
王斌:以前有一段时间比较焦虑,因为不上班会有点心慌。你会想“别人怎么进步那么快,一下子就做到了?”既然我们要出发了,我们就不焦虑了。
据说中国现在是“百款大战”,发布了80多个大款,有的提供内测,有的只是PPT发布。有些机型的效果还是不错的。从发表的水平来看,我们现有的自研大机型的水平看起来并不比很多机型差。但是我们并不急于公开宣布。第一,对于小米这样的公司来说,意义不大。第二,还是希望围绕产品把自研的模型做得更好,一起发布。
深燃:你觉得国内公司的大机型有机会赶上OpenAI吗?差距有多大?他们喜欢用三个月或六个月来形容。
王斌:目前OpenAI肯定是走在前列的。它投资早,在人才、数据、算力、工程、产品等方面都有很强的积累。从国内情况来看,感觉和OpenAI还是有一定差距的。有人说是三个月或半年,有人说是一年或两年。时间,很难说。
因为如何评价大模型本身就是一个很难的问题。现在有各种大模特排行榜,但目前还没有得到大家的一致认可。没有真正的评价标准,所以谈三个月或半年的赶超,只是九牛一毛。
至于中国是否有可能赶上OpenAI,我早期比较悲观,认为几乎不可能,但随着各种开源方案、各种团队、资本的涌入,我的判断更加乐观了。我认为中国有机会拉近与OpenAI的距离,在很多场景上接近甚至超越它。
大型号看起来没有芯片高。通过人才、数据、计算能力的不断积累和优化,可以不断缩小差距。
深燃:国内哪几类公司做大模型更有优势?小米的机会在哪里?
王斌:无论是大公司还是中小创业公司,都有自己的生存空间。大模式是一个生态,不是垄断。生态里所有的公司,包括做计算、数据、应用的,真正做大模型的,都有自己的机会。
像小米的大模式,有应用场景的优势。我们相信大模型和场景的结合会是一个很好的机会。
因为如果只发布了一个大的模型,没人用,可能无法通过滚动快速发展。而我们可以立刻落地场景,通过不断的迭代,在这些场景中充分发挥大模型的威力。
虽然我们目前只整合了一个30多人的主力团队,但外面其实有很多人。整个AI实验室有100多人有NLP背景,在做具体的应用,包括知识图谱、机器翻译、人机对话、智能客服、智能问答。都是具备大模型基本思维和相关技术的人,都在从各自应用的角度推动大模型的探索。
深燃:小米在NLP研究上的积累对大模型有多大价值?
王斌:业内有两种意见。一种说法是,我们可能丢掉了工作,AI丢掉了生活,尤其是那些NLP的人。还有一种说法是,毕竟大模型是NLP做出来的,做NLP的人有先天优势。
这两种说法都有一定道理,但毕竟涉及到我的工作,我更倾向于后一种说法。
大模型最初是在各个领域探索的,包括视觉、语音、NLP。但为什么是NLP领域的首次突破?我相信有本质原因。我理解至少有两点:一是语言数据的丰富性和可访问性,二是语言数据背后有丰富的反映人类思维过程的知识。
所以我相信在NLP有多年积累的人,在理解和转化大模型方面有一定的先天优势。小米的大模型团队很多成员本来就是NLP方向的。几个国内模式非常好的创业公司也是NLP领域的。
深燃:小米目前克服大模式的困难有哪些?怎么克服?
王斌:首先我还是想说,大模式本身就有很大的挑战。
一个巨大的挑战是技术上的不确定性。我们看过一些报道,甚至OpenAI团队自己也不是很清楚大模型背后的真实原理。如果再做一次,我们不确定是否能出现同样的“新兴”结果。我相信OpenAI在这一点上说的是实话。因为技术上的不确定性很大,不能保证一个大的模型可以通过投资训练达到预期。
高质量数据的积累也是一个挑战。一般认为大规模模型需要极其大规模和高质量的训练数据。互联网上公开可用的数据质量普遍较差,因此获取和清理这些数据是一个很大的挑战。
另一个挑战当然是计算能力。首先,并不是说有那么多牌可以练。如何用好这些卡,是一个系统层面的挑战。其次,因为你在培训过程中可能会出错,可能会把钱烧光,什么都没有,所以要看你有没有能力培养出成本可控的大模型。
实事求是地说,数据和计算能力的挑战还是比较大的,尤其是大规模的高质量数据。经过前段时间的攀登,我们现在基本有信心了。只要数据到位,利用现有的计算能力,大概就能知道多少天可以训练出一个可以接受的基础模型。
深燃:现在大规模的模特培训成本降低了吗?
王斌:一方面,试错成本比以前低了。因为大模训练很可能会走弯路失败,但是随着各种信息的披露,也许很快就能找到正确的训练方向。另一方面,云计算、芯片等很多公司,以及很多创业公司,都在提供更低成本的大规模模型训练和推理服务。随着整个生态的进一步发展,我相信培训的成本会不断降低。
03模式对小米的业务有什么影响?
深燃:能详细介绍一下你负责的小米AI实验室吗?
王斌:2016年“AlphaGo”诞生后,雷老师立即推动AI团队建设。2016年AI Lab正式成立,2019年开始由我负责。
原来AI实验室是属于人工智能部门的。后来人工智能部门并入集团技术委员会,现在AI Lab是技术委员会的直属部门。
AI Lab目前团队规模在350人左右,分属于六个方向,分别是机器学习、自然语言处理(NLP)、计算机视觉、声学、发音和知识图谱。
大模型出来后,AI Lab成立了专职大模型团队。现在我们的重点是语言大模型,但我们也在关注跨模态大模型。
深燃:总经理陆(小米集团总裁陆)表示,小米AI团队目前有1200多人。除了AI实验室,小米内部还有哪些部门与AI有很强的关联?
王斌:除了AI lab,还有萧艾同学团队,都在技术委员会下面。
除了技术委员会,还有很多部门有比较大的AI团队,包括汽车部门的自动驾驶部门,摄像头部门,手机的软件部门。另外,互联网事业部的用户增长和广告推荐都和AI有关。
简而言之,AI相关的团队,有的在业务部门,有的在技术委员会,总共1200人左右。如果考虑一些小团队,我个人认为这个数字更大。
深燃:小米AI实验室在小米AI战略中的作用是什么?
王斌:人工智能实验室是集团层面的人工智能技术R&D和出口部门。通俗地说,就是向全公司输出AI技术。
我们曾经把AI实验室比作AI技术在集团层面的“试验田”和“弹药库”。因为AI的快速发展,AI Lab会开发一些中长期的前沿技术,围绕小米业务做储备,在集团需要的时候输出“弹药”。
在AI技术层面,我们必须拥有公司最完备的储备,在行业内非常强大。
深燃:小米AI实验室有哪些重要的研究成果?
王斌:我们AI实验室的理念强调技术和场景的结合,目前发表论文还没有被认为是OKR。所以我从中科院(中科院)来到小米后,觉得自己最大的成就是不是单点的技术进步,而是技术和产品的巧妙融合。
小米是一家to C的公司,我们的AI能力输出暂时不是直接输出,而是通过公司的产品。我们已经取得了很多成果,包括小米手机中的很多照片和相册处理算法,萧艾同学涉及的语音和NLP算法,小米商城的推荐、搜索和客服系统中的AI算法。
我给你举个例子。我们开发了手机离线翻译功能。比如出国后,很多时候,网络就不那么好了。此时小米手机的翻译功能开启,不上云。离线状态下,实时性、私密性、翻译效果更好。这个功能的实现和应用并不容易,我们做了大量的工作来优化翻译效果和性能。
在小米内部,不是我们自己的技术,所以会先用。内部技术也要和外部技术去公平PK。只有赢了,才能活下来,才能应用到产品上。

深燃:小米的哪些业务会受到以ChatGPT为代表的大模型技术的影响?
王斌:大模型最强的能力简单来说就是它更懂人,它能明显优化人机交互的方式。小米的小爱同学,手机操作系统MIUI,汽车驾驶舱,物联网,机器人,都是应用大模型的典型场景。
深度燃烧:你能以萧艾为例吗?
王斌:应用到萧艾,你可以同时做两件事。一种是把不可能变成可能,相当于有了新的功能。例如,我要求萧艾制定一个旅行计划或订购食物等等。原来的技术能力没有达到,换个说法用户会很困惑。但是在大模型的支持下,它对人类的语音有了更深入的理解,从而可以完成复杂的任务,这种应用是可行的。
还有对原有功能的增强,相当于锦上添花。因为人类表达的跳跃性和多样性,原来在和萧艾同学的人机交互过程中,最大的问题就是遇到小概率事件。我们的名字叫Corner Case,我们通常采取保守策略让萧艾说“我无法回答”和“我还在学习”。这种底答也可以进行对话,但是体验不好。而大规模模型技术可以让对话更长,大大提高用户满意度。
深燃:大模型对智能家居影响大吗?
王斌:以我个人的理解,大模型至少在交互能力上可以提升智能家居的体验。
虽然现在很多设备被称为“智能”,但往往表现得像“智障”,导致利用率低。例如,如果您打开空调或调节空调的温度,如果语句与标准指令不同,您可能无法控制物联网设备。
但是大模型到来后,对人类语言的理解加深了。很多情况下,有各种各样的表达方式。大模型可以把用户的表达翻译成机器能理解的指令。这会带动更多人使用智能设备,让整个生态更快成长。
深燃:除了现有业务的提升,还有哪些事情小米以前做不到,但有了大机型后有可能做到的?
王斌:我们会让大模型和这些业务深度合作。当然,除此之外,我们也在寻找更多的可能性。
我们团队写了很多文章在公司内部推广大模型,包括大模型的概念和技术发展,教大家如何使用ChatGPT解决业务问题。雷老师要求每个部门都要学习大模型,要求每个人都要有基本的大模型思维,思考如何与业务结合。"

作者:高德娱乐




现在致电 5243865 OR 查看更多联系方式 →

COPYRIGHT 高德娱乐 版权所有