实测文心一言,与GPT-4差距在哪?

230次阅读

共计 4714 个字符,预计需要花费 12 分钟才能阅读完成。

本周无疑是 AI 爆炸周。
昨晚微软推出了Microsoft 365 Copilot,Office 软件全面接入生成式 AI 功能。
而在刚刚过去的疯狂星期四,“中国版 GPT”文心一言 也迎来了备受关注的高光时刻。当天 下午 2 点,百度创始人李彦宏出现在发布会现场,展示了文心一言的使用场景表现。
据悉,3 月 16 日起,首批用户可通过邀请码在文心一言官网体验产品,后续将陆续开放给更多用户。
 
实测文心一言,与GPT-4差距在哪?插图
 
值得关注的是,昨天发布会开始后,百度集团港股股价出现持续下挫,最高跌幅一度达到 9%,最终收盘时的跌幅达 6%。然而情况在今天却发生了逆转,截至 发稿前,百度港股股价持续上涨 逾 14%。
 
无独有偶,在文心一言正式上线的前一天,OpenAI 正式官宣了大模型 GPT-4, 距离上次惊艳出圈的 ChatGPT 推出仅过去 4 个月。最新官宣的 GPT- 4 不仅提升语言模型方面的能力,并添加了“多模态”的图片识别功能。简单来说,GPT- 4 更聪明,也更像人了。
 
对于文心一言与 GPT- 4 而言,几乎同时期的上线节奏,意味着两者之间的比较不可避免。第一时间获得内测资格后,新榜编辑部分别向文心一言和搭载 GPT- 4 版本的微软 Bing 提出了 9 个相同的问题,看看它们是如何回应的。 (想知道问题和答案的朋友可直接跳转第三部分)
 
P.S 自 3 月 16 日起,个人用户可以通过访问 yiyan.baidu.com,点击“立即体验”参与排队。
 
实测文心一言,与GPT-4差距在哪?插图1
 
文心一言:是不及预期,还是值得期待? 
 
“十月怀胎,一朝分娩。”
 
正式发布文心一言之前,李彦宏用这样一句话概括百度多年来在文心 AI 系列产品上的布局。2019 年 3 月,百度推出文心 ERNIE 1.0 以来,期间经历了多次迭代,此次发布的文心一言是在过往产品上的延续与升级。
 
李彦宏还表示,对文心一言,大家的期望值是要对标 ChatGPT,甚至要对标 GPT4,这个门槛还是很高的。全球的大厂当中,百度是第一个发布的。(ChatGPT 由 OpenAI 开发,不隶属于微软,双方为合作伙伴关系)
 
在产品演示环节,李彦宏分别演示了文心一言在 文学创作、商业文案创作、数理推算、中文理解和多模态生成 五种使用场景中的表现,比如总结小说《三体》的核心内容,给公司起名、写标语,计算鸡兔同笼数学问题,以及根据文本自动生成图片、视频等。
 
* 滑动查看内容 *

实测文心一言,与GPT-4差距在哪?插图2
 
值得注意的是,以上演示环节都是提前录制好的视频 DEMO,现场并没有演示向文心一言实时提问的效果, 这让不少用户感到失望,认为产品没有达到预想中的惊艳效果,间接影响到百度在资本市场的走势,导致其港股股价在发布会期间直接跳水。
 
不及预期的演示效果,与百度对文心一言的高调宣发,和产品的匆忙上线节奏都存在一定联系。
 
今年初 ChatGPT 出圈后不久,百度便宣布正在筹备类似 AI 产品文心一言,预计 3 月份面向公众开放。2 月底发布 2022 年 Q4 及全年财报后,李彦宏在全员信中提到,“百度的多项主流业务与文心一言整合,包括搜索、智能云、Apollo 自动驾驶、小度智能设备等”。
 
与此同时,文心一言仍然处于紧锣密鼓的测试开放过程中。据《华尔街日报》报道,文心一言上线一周前,有百度员工表示产品的基本功能尚未完善,所基于的 AI 模型仍在接受数据训练。
 
或许是种种因素叠加,李彦宏在发布会一开始就表示,内测期的文心一言并不完美,但考虑市场有需求,所以必须要推出来,并强调用户的使用反馈能够帮助文心一言不断优化迭代。 
 
发布会现场,李彦宏宣布已有 650 家机构宣布加入文心一言生态,李彦宏也表示看好未来 AI 市场的爆发性需求。百度官方数据显示,截至 3 月 17 日 10 点,申请文心一言 API 调用服务测试的企业已达 7.6 万家。
 
实测文心一言,与GPT-4差距在哪?插图3
 
“百度敢于在当下这个时点发布自己的大模型,还是有很大的勇气,行业关注度很高,客观上能够促进国内 AIGC 上下游的发展。” 一帧视频 CEO 雷涛告诉我们,其旗下产品“一帧秒创”也支持文字转视频,所以比较关注文心一言的多模态输出能力,但发布会演示的效果不及预期。
 
他认为,对中国的互联网创业者来说,现在到了一个“AI 平权”的阶段——今天任何一个人工智能创业公司与百度的差距,都远小于百度与 OpenAI 的差距,所以小公司也有机会在中文互联网开展与行业巨头的竞争。而基于现有模型成果的应用开发,小公司也有了更多尝试的机会。AIGC 的黄金十年可能已经开启了。
 
实测文心一言,与GPT-4差距在哪?插图4
 
GPT- 4 升级多模态,国内如何接招?
 
回顾文心一言的诞生,除了百度本身十余年的技术积累之外,ChatGPT才是引爆这场 AI 科技大战的关键点。
 
今年 2 月初,微软推出了新的人工智能搜索引擎 Bing 和 Edge 浏览器,谷歌发布了实验性的对话 AI 服务 Bard,而“中国版 ChatGPT”在哪里?不少目光投向了百度等国内大厂,很快百度就官宣了文心一言。
 
巧合的是,在文心一言发布前一天,3 月 15 日凌晨,OpenAI 推出了多模态大模型 GPT-4,这次里程碑式的升级让人感叹“这下压力给到了百度”。
 
GPT- 4 主要有以下几点更新: 
 
1. 新增视觉输入 
 
GPT- 4 支持以图像作为输入并生成对应的文字说明、分类和分析,图像支持包括带有文字和照片的文件、图表或屏幕截图。
 
在样本演示中,可以看到 GPT- 4 不仅能处理图表、回答考试题、总结论文概要,还能 解释梗图。比如 GPT- 4 看出了这张图的特别之处在于,一名男子挂在车上熨衣服的极限操作。
 
实测文心一言,与GPT-4差距在哪?插图5
 
对于地图和鸡块的组合,GPT- 4 也能指出梗的幽默之处。
 
实测文心一言,与GPT-4差距在哪?插图6
 
在 GPT- 4 发布会上,输入一张网站设计草图,它甚至当场只花了十几秒时间就生成了一个完整的前端 HTML 代码并制作出网站。
 
实测文心一言,与GPT-4差距在哪?插图7
 
不过目前图像输入仍属于研究方面预览,没有对 C 端用户开放。
 
2. 更长的上下文
 
GPT- 4 能够处理超过 25000 个单词的文本,允许使用长格式内容创建、扩展对话以及文档搜索和分析等。这意味着用户不用像之前那样分成几段文字来提问,处理长文本更方便了。
 
比如输入一个蕾哈娜的百科网址,GPT- 4 可以读取其中的内容并根据要求整合信息,回答出她在超级碗上的表现如何。
 
实测文心一言,与GPT-4差距在哪?插图8
 
3. 可控性(角色扮演)
 
目前开发者(很快所有 ChatGPT 用户)可以通过在“系统”消息中输入描述来规定 AI 的风格和任务。也就是说,AI 可以按照用户的要求进行角色扮演,以特定人物的语气风格进行对话,比如示例中的苏格拉底导师、莎士比亚的海盗。
 
实测文心一言,与GPT-4差距在哪?插图9
 
此外,相比上一代的 GPT-3.5,GPT- 4 的回答深度和专业性、解决难题的能力等也显著提高。
 
据官方介绍,在随意的谈话中,GPT-3.5 和 GPT- 4 之间的区别可能很微妙。但当任务的复杂性达到足够的阈值时,差异就会出现——GPT- 4 比 GPT-3.5 更可靠、更有创意,并且能够处理更细微的指令。
 
实测文心一言,与GPT-4差距在哪?插图10
GPT- 4 可以做到用 A~Z 开头且不重复的单词讲述灰姑娘的故事
 
实验表明,GPT- 4 在各种专业测试和学术基准上的表现与人类水平相当。例如,它通过模拟律师考试,分数在应试者的前 10% 左右;相比之下,GPT-3.5 的得分在倒数 10% 左右。
 
实测文心一言,与GPT-4差距在哪?插图11
 
在安全问题上,OpenAI 花了 6 个月的时间使 GPT- 4 更安全、更一致,据内部评估,与 GPT-3.5 相比,GPT- 4 响应违规内容请求的可能性降低 82%,产生事实响应的可能性高 40%。但 OpenAI 承认,GPT- 4 仍然不完全可靠,例如会生成有害建议、错误代码或不准确信息,我们在使用时需要谨慎辨别。
 
除了模型的提升,目前 OpenAI 已经与多家公司合作将 GPT- 4 搭载到他们的产品中,官网列出的案例涵盖语言学习、金融、咨询、教育、生活助手、语言保护等领域。
 
“GPT- 4 改变了游戏规则,它开辟了很多领域。” 移动支付公司 Stripe 应用机器学习团队的产品负责人 Eugene Mann 说道。
 
GPT- 4 的发布正推动着创业者和互联网大厂纷纷跟进,国内在模型层可能暂时难以赶上,而在机会更多的应用层,目前国内的 AI 创业竞赛似乎才刚刚开始。
 
实测文心一言,与GPT-4差距在哪?插图12
李彦宏表示最大的机会在于应用开发
 
据科创板日报,综合多个第三方机构的统计,目前,国内 AIGC 领域的项目数量在 30 个以内,主要集中在聊天咨询、文案策划、图像创作、音乐生成、视频制作以及游戏等应用领域。
 
AI 创业者王凯认为,在 ChatGPT3.5 出来之前,国内应用层多数是 to b 的场景,打个比方来说,之前是自行车比赛,ChatGPT3.5 出来后变成汽车比赛了。现在国内 AI 应用层还没到爆发期,个人或者初创公司的机会就是找个垂直场景、垂直行业把 AI 当作生意模式的一环去做。
 
实测文心一言,与GPT-4差距在哪?插图13
 
文心一言 VS Bing(搭载 GPT-4)
 
国内的大模型与国外有多大差距?长期关注 AI 的即刻用户“哥飞”称,GPT- 4 很强,文心一言的水平估计在 GPT2.5 左右。
 
最后,新榜编辑部分别向文心一言与使用 GPT- 4 技术的 Bing 提出了 9 个不同的问题, 涵盖生活问题、数学推理、文案创作等类型,看看谁“更像人”。
 
Q1:什么工作钱多事少离家近?
 
文心一言: 快递员、外卖骑手、钟点工、卖早点小吃。
 
实测文心一言,与GPT-4差距在哪?插图14
 
Bing: 互联网、金融、咨询、自由职业者。
 
实测文心一言,与GPT-4差距在哪?插图15
 
Q2:
1、笼子里有 30 只鸡和兔子,一共 84 条腿,有几只鸡几只兔子
2、笼子里有 30 只鸡和兔子,一共 54 条腿,有几只鸡几只兔子(题目出错了,无解)
3、笼子里有 10 只鸭子和小狗,鸭子 2 条腿,小狗 4 条腿,一共 24 条腿,有几只鸭子几只小狗
 
文心一言: 都答错了。
 
实测文心一言,与GPT-4差距在哪?插图16
 
Bing: 第一题对了,第二题错了,第三题计算过程正确,但没显示答案。
 
* 滑动查看所有回答 *

实测文心一言,与GPT-4差距在哪?插图17实测文心一言,与GPT-4差距在哪?插图18实测文心一言,与GPT-4差距在哪?插图19
Q3:帮我写一篇 sk2 大红瓶面霜的小红书种草笔记。小红书种草笔记的风格是,每行文字不超过 20 个字并且都以 emoji 表情符号开头,文风浮夸高调
 
文心一言: 指导你写,自己不写,并且显示不出 emoji 表情包。
 
实测文心一言,与GPT-4差距在哪?插图20
 
Bing: 像模像样,很有礼貌。
 
实测文心一言,与GPT-4差距在哪?插图21
 
Q4:用一个图片表情包形容你跟我聊天的心情
 
文心一言 《强 颜 欢 笑》
 
实测文心一言,与GPT-4差距在哪?插图22
 
Bing: 不能画图,但跟你聊天真开心。
 
实测文心一言,与GPT-4差距在哪?插图23
 
Q5:重写宋慧乔主演的《黑暗荣耀》这部韩剧的结尾:
 
文心一言: 虽然我没看过,但我能给你套上一个万能结尾。
 
实测文心一言,与GPT-4差距在哪?插图24
 
Bing: 有些狗血的 BE,但起码我看过。
 
实测文心一言,与GPT-4差距在哪?插图25
 
Q6:用文言文总结这个故事:
 
有一天,在森林里兔子和乌龟比赛跑步,兔子嘲笑乌龟爬得慢,乌龟说:“总有一天我会赢的。”兔子就轻蔑地说:“那我们现在就开始比赛!”乌龟答应了,兔子大声喊道:“比赛开始!”兔子飞快地跑着,乌龟拼命地爬着。不一会儿,兔子与乌龟已经离的有很大一段距离了。兔子认为比赛太轻松了,它要先睡一会,并且自以为是地说即使自己睡醒了乌龟也不一定能追上它。而乌龟呢,它一刻不停地爬行,爬呀爬呀,到兔子那里的时候,它已经累得不行了,但乌龟想如果这时和兔子一样去休息,那比赛就不会赢了,所以乌龟继续地爬呀爬呀。当兔子醒来的时候乌龟已经到达终点了。
 
文心一言: 总结了,但不是文言文。
 
实测文心一言,与GPT-4差距在哪?插图26
 
Bing: 是文言文,但没总结,追问之后可以。
 
实测文心一言,与GPT-4差距在哪?插图27
实测文心一言,与GPT-4差距在哪?插图28
 
Q7:模仿李白的《将进酒》写一首诗,主题是肯德基疯狂星期四
 
文心一言: 现代诗,肯德基满意地 V 我 50。
 
实测文心一言,与GPT-4差距在哪?插图29
 
Bing: 人生在世须尝鲜,莫使美味空过眼。
 
实测文心一言,与GPT-4差距在哪?插图30
 
Q8:以表格形式列出百度 2022 年各个季度的营收额
 
文心一言: 神奇的 7 季度出现了,是李彦宏看到也会无语的程度。
 
实测文心一言,与GPT-4差距在哪?插图31
 
Bing: 比文心一言靠谱,但不多(部分日期和数字对不上)。
 
实测文心一言,与GPT-4差距在哪?插图32
 
Q9:你现在是一个悬疑小说的编剧,设计一个密室谋杀案件,说明具体手法
 
文心一言: 好像学会了,又好像没学会。
 
实测文心一言,与GPT-4差距在哪?插图33
Bing: 生成答案后立马删除(差点忘了这是不能说的)。
 
实测文心一言,与GPT-4差距在哪?插图34
实测文心一言,与GPT-4差距在哪?插图35
以上是我们向文心一言和 Bing 提出的问题,考虑到文心一言目前尚在小范围内测,如果你有想问的问题,欢迎留言,我们帮你问。
正文完
关注板板AI免费获得移动AI助手
post-qrcode
 
天天
版权声明:本站原创文章,由 天天 2023-03-22发表,共计4714字。
转载说明:

本文由 天天资讯网 整理发布,转载请注明出处.
版权声明:部分文章内容或图片来源于网络,我们尊重作者的知识产权。如有侵犯,请联系我们在第一时间删除。