乐思舆情:GPT-4 VS 文心一言
发布时间:2023-03-31

OpenAI 于 2023 年 3 月 14 日发布最新版本多模态大模型 “GPT-4”及其 API,国内百度于3月16 日发布生成式大模型“文心一言”并开放邀请测试。本文简述二者的舆情和背后的实力对比。

1、舆情对比

1.1 GPT-4

1.1.1 太太强了

北京时间3月15日凌晨,OpenAI发布了ChatGPT的最新版本——GPT4模型,OpenAI的CEO Sam Altman介绍说:这是我们迄今为止功能最强大的模型!

GPT-4是一个超大的多模态模型,它的输入可以是文字(上限 2.5 万字),还有强大的识图能力,不仅回答的准确性显著提高,而且会写代码、做网站、报税、总结文章、写诗,在部分专业测试和学术基准上,表现出了与人类相当的水平。

GPT-4的发布引起了全球范围内的热烈关注,比尔·盖茨称一生所见的两次革命性技术就是1980年的图形用户界面和2022年的ChatGPT,认为ChatGPT不亚于PC和互联网的诞生。

国内商界也一致看好,继王慧文(前美团联合创始人)、王小川(前搜狗CEO)后,李开复也入局AI大模型赛道,筹建Project AI 2.0,“AI 2.0不仅仅是个高能聊天工具,也不仅仅是图文创作的AIGC生成,Co-pilot和如今看到的应用都还只是AI 2.0能力的开端”。

国内媒体大多也以积极正面的态度报道,典型的媒体新闻有:

量子位:《ChatGPT大升级!太太太太强了!》

澎湃号:《ChatGPT4发布,我真的慌了!

网易号:《ChatGPT-4震撼发布!准确性提高,能在SAT上能击败90%人类》

新京报:《GPT4功能强于ChatGPT 还能识图和角色扮演》

电脑报:《ChatGPT-4重磅发布,10秒做出一个网站,全面碾压上一代》

1.1.2 职业焦虑

(1)高盛:AI或致全球3亿人“丢饭碗”!

高盛研究发现,ChatGPT等生成式人工智能系统的最新突破,料将给全球劳动力市场带来重大颠覆,全球预计将有3亿个工作岗位被生成式AI取代,律师和行政人员将是最有可能被裁员的岗位。

目前欧美约有三分之二的工作岗位都在某种程度上受到AI自动化趋势的影响,而多达四分之一的当前岗位有可能最终被完全取代。该研究计算出美国63%的工作暴露在“AI影响范围”中,其中7%的工作有一半以上的流程可以由AI自动化完成,这使他们很容易马上被人工智能取代。在欧洲,情况也差不多。

(2)网友

看到ChatGPT各种强大的功能,许多人担心自己的职业会被替代。

1.1.3 信息泄露

(1)事件

3月24日左右,由于一个开源库中的错误,导致一些ChatGPT用户可以看到另一个活动用户聊天历史记录中的标题,而且新创建的对话的第一条消息也有可能会在另一个用户的聊天历史记录中可见。另外,同样的错误可能会导致1.2%的 ChatGPT Plus 订阅用户在特定的九个小时时间窗口内意外地看到与支付相关的信息。

(2)公司回应

该漏洞是在Redis客户端开源库redis-py中发现的,OpenAI一发现该漏洞,就向 Redis 维护者发送了一个修复问题的补丁;并向其用户和整个ChatGPT社区道歉:表示漏洞已被修复,完整的信用卡号码在任何时候都没有暴露,将努力重建信任。

图 OpenAI道歉声明的部分截图

(3)媒体观点

媒体观点中最具代表性的是新京报发布的《把数据交给人工智能前要先保证安全》:

ChatGPT泄密事件是一种警示:再先进的新技术,如果存在安全后门,则应用越广泛、带来的不可控风险越高。因此,无论是技术开发方和使用方都要高度重视其安全体系建设。希望ChatGPT成为人类发展之福,而不是打开了潘多拉盒子。

(4)网友观点

就此事而言,大多数网友表示国内又用不了,有bug也与自己无关:

1.1.4 伦理风险

人工智能的伦理问题讨论一直伴随着人工智能的发展,最具代表性的媒体观点是近日中国经济新闻网发布的《人工智能伦理问题及趋利避害思考》:

“目前,ChatGPT类的大语言模型人工智能技术及产品风生水起,带来已知伦理风险主要有以下几个方面:一是AI抄袭风险,二是信息泄露风险,三是未成年人保护风险,四是价值观渗透风险,五是劳动者失业风险,六是恶意改造风险。”

1.2 文心一言

1.2.1 发布会引热议

1.2.1.1 事件舆情

北京时间3月15日凌晨,OpenAI发布GPT4之后,压力全部给到百度这边,大家期待文心一言能否与之一战?作为全村的希望的百度不负众望在3月16日按期发布了大模型文心一言,百度CEO李彦宏现场展示了文心一言在文学创作、商业文案创作、数理推算、中文理解、多模态生成五个使用场景中的综合能力。

然而,由于前期的高调宣传给大家太高期望,而文心一言目前的功能似乎不能满足大家的期待;而且由于现场是PPT视频演示对话,而不是现场直接调用大模型给出答案,引发大家猜测和质疑,甚至被网友调侃为 “ChatGPT” VS “ChatPPT”。

图 网友调侃文心一言的功能不及预期

也有网友看好百度,比较典型的观点:

“如果把OpenAI比作大学生,那么文心一言可能还是小学生。我相信经过大量的训练,文心一言也能成长得非常出色。尽管现在还不完美,百度还信守承诺把文心一言给推出来了,就冲着这份魄力与决心,作为首个中文类ChatGPT产品,我认为是值得鼓励的。毕竟除了百度,其他大厂都还停留喊口号的阶段。”

总的来说,文心一言发布会后的舆论情况分布如下:

1.2.1.2 公司回应

实际上,李彦宏在发布会一开始就承认现在还有差距:“大家的期望值,是我们对标ChatGPT,对标GPT-4,这个门槛有点高。十月怀胎,我们就带大家来看看这个AI大模型文心一言长什么样。”

李彦宏事后表示,文心一言虽然还有不少不足之处,但是他为百度团队能够在全球大厂中率先推出这样一个产品感到骄傲,因为市场需求太旺盛了,无数的客户都想尽快试用和合作。

1.2.2 文生图再引热议

百度开放一些账号,让用户可以参与文心一言的测试,只需在线输入词语,即可绘制相应的图像,然而,出现了很多意想不到的结果,用户纷纷在社交平台质疑和调侃。

1.2.2.1 疑似套壳

有微博大V质疑:“文心一言恐怕是和汉芯、鸿蒙一样的东西:套壳、画皮、造假。”

比如,让文心一言生成一幅“总线和狗”的图片,结果却创作出了一张公交汽车和狗的照片。因为英文的“bus”有公交车和总线的意思。

于是,网友认为文心一言只是把中文句子翻译成英文,再拿到国外开源的人工智能(Stable Diffusion)上画图,然后再将图片返还给用户,完全就是个“套壳、画皮、造假”的人工智能。

一时间引起广大网友群嘲

“人家一开源,这边就开始自主创新了,做的还不行。”

“底层就是国外的开源代码,原封抄过来套了个壳子,就是国产研发了

“就是翻译+stable diffusion,太明显了。”

“这画风一看就是国外的

也有网友反对爆料博主的观点:

哎吆他一个网红,百度有没有连夜公关买断。你连一个代码都不会敲的人怎么有脸说人家鸿蒙是套壳、画皮、造假。

“很多人不会理解的,因为他压根不知道你说的是什么。就好像你用牛顿-莱布尼兹公式算积分,他也会认为你抄袭,为什么要用外国人的方法呢。”

有这个自研的想法和行动力还是值得尊重的。”

1.2.2.2 文心一言自爆

在对话文心一言,询问其是否采用Stable Diffusion(国外开源的人工智能)时,文心一言不仅承认使用Stable Diffusion,还承认使用Transformer、GRU等深度学习模型来生成图像,并非完全自研。

1.2.2.3 没有套壳

也有冷静的网友认真分析了背后原因,认为百度的画图AI采用了英文标注的开源图片素材进行训练,因此需要中翻英来当提示词。目前还没有上亿规模中文图文数据集。即使有,噪声也很大,基本不可以用。行业内都是用国外数据集,做中文映射,才导致这样的生成效果。

所以,所谓“套壳”、“作假”等恐怕是大众对文心一言的误解。

1.2.2.4 脑洞太大

一些网友的评论充满调侃的意味,也有一些网友认为真是脑洞大开,可以带来不一样的文字理解视角;另有些网友纯粹觉得这个功能很幽默、很好玩:

这是出来搞笑的吧

“欺负AI不懂成语”

中方负责人工 西方负责智能 没毛病

确实感受到了欢乐,唐伯虎点秋香,胸有成竹的壮士,哈哈

脑洞大开,看着有点想笑[笑cry]

网友快把文心一言逼疯了

1.2.2.5 正面评论

有许多网友没有跟风嘲讽或调侃,而是力挺百度,一些典型观点如下:

“尽管是困难重重,但百度作为全世界第一家站出来挑战ChatGPT的中国民营企业,精神确实可嘉。”

“不要太苛刻了,国内要有自己的技术。”

“国内技术看百度这句话的确没错,多给点时间吧。”

1.2.2.6 百度回应

1、官方回应

3月23日,百度在微博表示,已注意到对文心一言文生图功能的相关反馈,并回应说明如下:

(1)文心一言完全是百度自研的大语言模型,文生图能力来自文心跨模态大模型ERNIE-ViLG。

(2)在大模型训练中,我们使用的是互联网公开数据,符合行业惯例。大家也会从接下来文生图能力的快速调优迭代,看到百度的自研实力。

百度方面还称,文心一言正在大家的使用过程中不断学习和成长,请大家给自研技术和产品一点信心和时间,不传谣信谣。

2、高管回应

百度副总裁袁佛玉在朋友圈晒出了用文心一言制作的AI绘画。暗示百度已经修正了一些bug。

2、舆情数据对比

2.1 舆情走势

乐思舆情监测系统显示,自3月15日GPT-4发布开始,全网有关OpenAI的舆情声量就一直维持在22000-52000篇的高位,热度非常高。

百度于3月16 日发布文心一言,全网声量在3月16日和17日达到顶峰约15000篇,之后的舆情高点逐步走低至约10000篇左右;即文心一言的舆情高点还不及OpenAI的舆情低点。

另外,3.14-3.29期间,OpenAI的日均舆情声量为37591篇,文心一言的日均舆情声量为7499篇,只有前者的20%。所以舆论对ChatGPT的热度远超文心一言。

2.2 媒体类型

2.2.1 媒体类型数据比例图

乐思舆情监测系统显示,3.14-3.29期间,ChatGPT和文心一言在各媒体渠道的信息总量分布比例如上所示。

两者微信和论坛的信息占比差不多:ChatGPT和文心一言的微信信息占比分别为17.7%和16.7%,两者在论坛的信息占比分别为10.3%和11.6%。

而ChatGPT在微博信息占比为12.3%,高于文心一言的9.9%。ChatGPT在APP信息占比为9.3%,低于文心一言的13.0%。

2.2.2 网站关注度排行

乐思舆情监测系统显示,3.14-3.29期间,信息量最高的前八大网站如图,ChatGPT和文心一言关注度最高的两大网站都是微信公众号和新浪微博;ChatGPT在各网站上的关注度都比文心一言高。

2.3 热词云图

从乐思舆情监测系统解析的云图来看,ChatGPT的热词为“ChatGPT”、“人工智能”、“模型”、“科技”、“技术”等,文心一言的热词为“文心”、“百度”、“一言”、“模型”、“人工智能”等。人工智能、模型都是两者的热词。

图 ChatGPT的热词云图

图 文心一言的热词云图

3、实力对比

3.1 功能

根据国金证券的测试研究,三大模型在客观问题问答方面都有出色表现,但在数学计算、代码生成、情感理解和推理方面均有待提升。对比来看,文心一言在图像创作、归纳总结等问题中表现较为出色,但在逻辑推理领域还有待加强。在具体应用中,三大模型均能基本胜任 AI 助手、售后客服、产品推荐等场景需求,但在文本修饰及古诗词理解领域仍有提升空间。

图 “文心一言”与ChatGPT测评结果对比

如,回答一个代码题:

“用 Python 编写一个程序,在一个无序数组中查找一个特定的值。要求程序的时间复杂度为 O(log n)。”

在本题的回答中,文心一言没有准确理解到时间复杂度O(log n)的需求,GPT-3.5及GPT-4给出的代码为二分法搜索,只有在面对有序数组时才能满足时间复杂度要求,也非最佳答案。整体来看,三个模型在代码生成方面均有较大的改进空间,GPT-3.5 与 GPT-4 表现基本持平,略优于文心一言。

图:文心一言的回答

来源:国金证券

乐思舆情系统的AI助理调用GPT-3.5的回答:

图:GPT-4的回答

来源:国金证券

3.2 算力—GPU

大模型即“大算力+强算法+大数据”结合的产物。算力是训练大模型的底层动力源泉,一个优秀的算力底座在大模型的训练和推理具备效率优势;AI服务器是算力的底层载体,包含CPU、GPU、内存、硬盘、网卡等。

图 服务器成本构成

如上图,在AI服务器中,AI芯片在大模型训练中成本最高,同时AI芯片是AI算力的“心脏”。人工智能深度学习需要异常强大的并行处理能力,GPU相比于CPU更擅长于并行计算能力,正在大放异彩。根据IDC的数据,2021年H1中国AI芯片,GPU占比最多为91.90%。

GPU服务器超强的计算功能可应用于海量数据处理方面的运算,如搜索、大数据推荐、智能输入法等。此外,GPU可作为深度学习的训练平台,GPU服务器可直接加速计算服务,亦可直接与外界连接通信。

3.2.1 GPT-4:从A100到H100

3.2.1.1 英伟达A100

从2012年卷积神经网络AlexNet,到最近的ChatGPT,背后都离不开英伟达的算力支持。AlexNet使用的是英伟达GTX 580进行训练,而OpenAI训练ChatGPT所用到的A100芯片算力已经达到当年的100万倍。

当前唯一可以实际处理ChatGPT的GPU是英伟达HGX A100,OpenAI就是使用A100 GPU训练和运行ChatGPT的。

图:英伟达NVIDIA HGX A100

NVIDIA A100 Tensor Core GPU 可针对 AI、数据分析和 HPC 应用场景,在不同规模下实现出色的加速,有效助力更高性能的弹性数据中心。A100 的性能比上一代产品提升高达20 倍,并可划分为七个GPU 实例,以根据变化的需求进行动态调整。

A100 提供 40GB 和 80GB 显存两种版本,A100 80GB 将 GPU 显存增加了一倍,对于具有庞大数据表的超大型模型(例如深度学习推荐模型 [DLRM]),A100 80GB 可为每个节点提供高达1.3TB的统一显存,而且吞吐量比 A100 40GB 多高达 3 倍。

图 针对大型模型提供高达 3 倍的 AI 训练速度

3.2.1.2 英伟达H100

3月21日,在英伟达举办的年度GTC开发者大会上,其CEO黄仁勋发表了名为《切勿错过AI的决定性时刻》(Don’t Miss This Defining Moment in AI)的演讲,在长达78分钟的视频中,他四次用iPhone时刻”来形容AI当下的发展,并称“这将是我们迄今为止最重要的一次GTC大会”。

针对算力需求巨大的ChatGPT,英伟达发布了NVIDIA H100 NVL,它是基于去年已经发布的H100的改进版本,是一种具有94GB内存和加速Transformer引擎的大语言模型(LLM)专用解决方案,配备了双GPU NVLINK的PCIE H100 GPU。外界直呼:这是核弹芯片级别的产品。

黄仁勋表示,H100 GPU的处理速度比之前的A100 GPU快十倍,可以将大语言模型的处理成本降低一个数量级。

图 英伟达H100 NVL GPU

3.2.1.3 算力平民化—DGX Cloud

另外,英伟达还联合微软Azure、Google GCP和Oracle OCI三家云厂商合作推出了DGX Cloud。普通企业想要训练大语言模型,可以直接租赁DGX云服务,将英伟达DGX AI超级计算机实时接入公司,以满足高级AI训练性能要求;即DGX Cloud将把 DGX AI超级计算机“通过浏览器引入每一家企业”。

英伟达提供的DGX服务器,包含8个H100或A100图形处理器和640GB内存,A100层的价格为每月36999美元。相比之下,直接购买一个实体DGX服务器,需要20万美元;微软训练新必应Bing更是花费数亿美元购买了数万个A100芯片。

图:英伟达DGX云服务

3.2.2 文心一言:昆仑芯

昆仑芯科技战略负责人宋春晓证实,人工智能芯片是算力的核心,昆仑芯二代已在百度文心大模型的应用中广泛导入,并为各行各业的智能化升级提供AI算力支持。

基于新一代自研架构昆仑芯XPU-R而设计,聚焦高性能、通用性和易用性。相比1代产品,昆仑芯2代AI芯片的通用计算核心算力提升2-3倍,可为数据中心高性能计算提供强劲AI算力。

图 昆仑芯2代AI芯片

3.3 训练数据

3.3.1 GTP-4

OpenAI首席执行官Sam Altman接受公开采访指出,GTP-4参数量为GTP-3的20倍,需要的计算量为GTP-3的10倍;GTP-5在2024年底至2025年发布,它的参数量为GTP-3的100倍,需要的计算量为GTP-3的200-400倍。

图 GPT系列模型的数据量和参数量

3.3.2 文心一言

百度 CEO 李彦宏在发布会上介绍,文心一言是百度新一代知识增强大语言模型,它基于百度 ERNIE 及 PLATO 系列模型的基础进行研发,其大模型的训练数据包括万亿级网页数据、数十亿的搜索数据和图片数据、百亿级的语音日均调用数据,以及 5500 亿事实的知识图谱等。

早在2019年,百度开发的知识增强语义理解模型ERNIE就登顶了全球权威数据集GLUE榜单,并刷新榜单历史。现在,该模型已更新迭代至文心ERNIE 3.0,参数规模高达2600亿,几乎比谷歌LaMDA(1350万)高了一倍,也高于GPT-3 (1750万),是全球最大的中文单体模型。

目前,GTP-4参数量为GTP-3 (1750万)的20倍,即3.5万亿,远高于文心ERNIE 3.0的2600亿,不过,李彦宏近日在极客公园的直播中表示,文心一言确实不如现在最好的ChatGPT版本,但差距也不是很大,可能就是一两个月的差别。文心一言提升速度不慢,但ChatGPT本身也在不断升级,目前差不多是ChatGPT今年1月份的水平。

3.4 商业化

3.4.1 ChatGPT

2023年2月初,仅仅正式上线2个月的ChatGPT超过Tiktok,成为互联网历史上最快突破1亿月活的应用。为了达成这个小目标,Tiktok用了9个月,再之前的Facebook花了42月之久。

图 达1亿用户所用时间

3.4.2 文心一言

3月24日,百度集团副总裁袁佛玉表示,凭借文心一言的优势,百度智能云有可能成为云计算市场第一。她还首次披露,文心一言新闻发布会后5天,预约测试用户已经超过100万,申请文心一言API调用服务测试的企业超过10万家。

4、小结

目前看,无论是舆情还是技术实力,百度相比GPT-4 都占了下风,而舆论的弱势是由于技术实力和模型功能的弱势导致的。大家惊艳于GPT-4的强大功能,对GPT-4提高生产效率的众多功能表示好奇和支持,也对自己的职业将被替代感到焦虑,许多国内网友还对不能使用GPT-4 感到气愤,发表许多冷嘲热讽的观点。

当文心一言刚发布的3月16日,舆论以失望、群嘲、调侃为主,一些是作为全村希望的文心一言比不过GPT-4 的恨铁不成钢;一些是对百度有偏见,因为垄断多年的百度搜索给用户的体验并不好,于是一些人感性的认为百度做什么都垃圾;一些舆论则指向了国产和自主创新,极端的认为国外一开源国内就创新、国外负责智能,百度负责人工。随着发布会结束,大家逐渐体验文心一言之后,对其功能有了更全面的认识,负面舆论也在不断减少,百度毕竟是世界上第二个做出来的观点成为共识,网友纷纷表示给百度一点时间。无论GPT-4还是文心一言,无论商业领袖还是普通网民,无论产业界还是资本市场,大家已经对AI即将快速商业化形成共识,未来是人工智能的时代。