这两天的事再次证明,有些群体抹黑华为无所不用其极。拿着一个模棱两可的东西硬生生把华为抄袭推上了热搜。说白了,就是要用一盆脏水否定华为所有科技研发的努力,只有华为的黑料才能压低一些企业越来越泛滥的负面舆情。

那今天我们就来聊一聊两边的大模型之间的事,我在之前的视频有说过,大模型这个东西靠技术、靠数据、靠训练,日积月累才能做成优秀的大模型,这种叫底座型大模型。所有一蹴而就、或者忽然横空出世的大模型绝大多数都是所谓的蒸馏型大模型。说白了,就是把一些底座型大模型的某些能力优化了,变成偏科学生,某个能力很强,其他能力很弱。
从有大模型开始,我们国内真正有做底座型大模型的都是有钱、有技术,而且愿意长期投入的公司,就那么几个,分别是百度文心大模型、阿里的通义大模型、华为的盘古大模型、腾讯的混元大模型、科大讯飞的星火大模型,还有现在互联网行业新秀字节跳动的云雀大模型发展十分迅猛。其他的大模型,包括DeepSeek还有某个公司吹了一波牛逼以后一点动静都没有的大模型基本都是蒸馏型大模型。

今天的主角是华为的盘古大模型和阿里的通义大模型。现在一些帖子拿了一些云里雾里的数据就说盘古大模型抄袭。首先,盘古大模型早在2021年就推出了初代盘古大模型,但是一直都是闭源的,也就是前几天才宣布部分开源。但是一些研究者只用了几天就得出这样的结论,说明研究的过程本身就是十分草率的。
另一方面,阿里也是最早进行大模型研发的企业,阿里的大模型是2023年8月才宣布开源的。大模型开源是什么意思呢?就是源代码、参数权重、训练数据等核心资源完全公开,允许开发者自由使用、修改和再分发。
所以,当一个大模型开源以后,很多没有那么强的资金和技术的企业或者个人,就可以进行借鉴、蒸馏或者本地部署。所以,在2023年8月以后,华为的盘古大模型借鉴通义大模型的一些训练技术或者大模型思路是完全没问题。

至于说完全抄袭,这从本质上就做不到。因为两个大模型的方向就不一样,盘古大模型更多是工业大模型,它聚焦政务、金融、工业等垂直领域。反正在一些高精尖的工业领域,在军工、在宇宙探测等方面其实都有华为盘古大模型的身影。至少在这一块,阿里的通义大模型是不具备的,这种能力在中国,只有盘古大模型有。
因为阿里的通义大模型更注重数学能力、代码能力、语言能力和工具调动的能力。因为阿里通义大模型是比较早开源的底座型大模型,所以当前市面上绝大多数主流的大模型都可以看到通义大模型的身影,这都很正常,这就是开源大模型的意义。

开源大模型能促进行业进步,但是对开源公司来说,它吸引全球开发者参与改进,加速技术迭代,帮助企业实现技术领先。但是呢,像DeepSeek这些蒸馏型大模型开源,由于它很多低频关联的知识都被过滤了,所以知识库比较单一,就很容易被污染而陷入思维混乱。所以,总的来说,蒸馏型大模型在未来仍然能还是很难和底座型大模型竞争的。
说了这么多,大家应该心里有个底了。大家应该也知道在互联网上到底是谁一直在抹黑华为,因为技术不行,就需要用舆论的方式来进行企业段位的强行平权。怎么说呢,假大空不会因为给别人破假大空的脏水而变得高大上。
充电宝事件已经实锤了,大量的客观数据也已经说明了手机真实的销量,未来或许某些保险公司的员工也会泄露一些车真正的保费和出险率数据,那时候一些车的真实销量也会实锤。总之,互联网是一滩浑水,但是未来一次又一次潮水褪去,大家就会慢慢知道,谁在裸泳。