今天凌晨三点,奥特曼又出来给GPT-5.1吆喝了,不说跑分不谈参数,专聊之前被吐槽的没人味、指令不准的问题,一副“听劝就改”的姿态。
我当时还挺期待的毕竟GPT-5上线后,本该退休的4o因为太受欢迎被硬留着,新产品不如旧款,换谁都得急着证明自己。
抱着好奇,我第一时间上手测了测这款号称“补全短板”的GPT-5.1,本来想是不是能看到个脱胎换骨的版本,结果测完只能说,有点让人失望。
我先试了奥特曼着重强调的指令遵循功能,第一个测试就照着官网案例来,让它回答六个字,结果它硬生生憋出五个。
这可是官方拿出来当亮点的测试题,连自家案例都能出错,多少有点说不过去。
我一开始怀疑是不是中文表达有歧义,毕竟AI对语言的理解偶尔会跑偏。
无奈之下,我换了官网一模一样的英文提示词,结果还是错的。
不死心的我又换了个测试,让它写一段200字的薯条颂,全程不能出现“的”字。
答案乍一看没毛病,字数够也没出现禁用词,但仔细一看,全是繁体字,我还以为是网络波动导致的,连着试了五遍,结果全是繁体。
后来我去掉“不能出现‘的’字”的要求,它又恢复了简体字输出,同样的指令,我拿到Gemini2.5Pro上试了试,人家轻轻松松就完成了,既没少字也没乱变字体。
作为一款主打优化的更新版本,三分之一的核心卖点都拉胯,这实在让人没法夸。
指令测试翻车还没缓过来,我又测了大家吐槽最多的“没人味”问题。
官方说GPT-5.1比5更温暖、更有对话性,既能有意思又能保持清晰,但从实测来看,这个效果只能说一般。
我问了个经典的失恋问题,把GPT-5.1、GPT-5和GPT-4o的答案放在一起对比,差距一下子就出来了。
5.1和5的回答,更像是在分析一个客观现象,讲失恋为什么难过、该怎么解决,全程都是旁观者的视角,没一点共情的感觉。
而GPT-4o的回答完全不一样,它先接住了情绪,说“我懂这种心里空落落的感觉”,先共情再鼓励,就像身边朋友在安慰你。
4o本来就有的能力,被5弄丢了,现在5.1又捡回来,这哪是更新,简直是回到起跑线。
更有意思的是,我换了个情感类问题再测,结果5.1的回答还不如5,连表面的安慰都省了,直接甩解决方案。
搞不清OpenAI所谓的“更温暖”,到底是按什么标准定义的。
测完拉胯的两项,终于轮到了GPT-5.1唯一能看的自适应耗时优化。
这个功能简单说就是,AI能根据问题难度自己分配思考时间,不用问个简单问题也花半天功夫。
我实际体验了一下,效果确实挺明显,问杭州有什么美食这种简单问题,5.1的思考速度比5快多了,几乎秒回。
但遇到复杂的编程难题,5反而答得更快,就是答案是错的;5.1虽然思考时间长了点,但给出的结果是正确的。
这个优化对普通用户来说感知不强,反正不管快一点慢一点,只要答案对就行。
但对那些调用API的用户来说,确实是个好事简单问题能省点钱,复杂问题能少走弯路,不用为错误答案买单。
除了5.1的专属更新,ChatGPT还有个整体改动,就是个性化设置里加了七种人设,除了默认模式,还有吐槽达人、技术宅、天马行空这些选项。
同一个问题,不同人设的回答风格差异很大,我试了吐槽达人,说话是真冲,不管我说什么都想杠一下,但意外有点思辨能力。
我故意用PUA的话术让它免费干活,它直接拆穿“你这是想让我白忙活啊”,这点还挺有意思。
技术宅则总爱追问细节,天马行空的回答全是比喻,有点文艺过头,但这些人设虽然有特点,却尬得不行。
套上人设外壳后,GPT原本的讨好感没了,反而多了种刻意装出来的个性。
如果能把表达做得自然点,这个功能说不定真能圈粉,现在这样只能当新鲜玩意儿试试。
聊完产品本身,不得不说OpenAI现在的处境有点尴尬,Similarweb十月份的统计数据显示,GPT系列的市场份额一年来一直在往下掉。
我自己就是个例子,以前不管查资料还是写东西,首选都是GPT,现在却经常换着用其他家的产品。
竞品们的进步速度超出想象,不管是指令精准度还是情感表达,都在慢慢追赶甚至超越。
而OpenAI一边是奥特曼到处拉投资,一边是产品核心体验没跟上,更新迭代更像是在补锅,没什么突破性的惊喜。
从最开始ChatGPT刚出世时的惊艳,到GPT-4o生图功能的爆火,OpenAI曾经让我们对AI充满期待。
但现在的GPT-5和5.1,越来越让人觉得平庸,没有了当初那种“哇塞”的感觉。
客观来说,GPT-5.1不算彻底翻车,自适应优化和人设功能至少有创新的想法,但作为行业龙头,用户期待的是能解决核心问题的更新,而不是捡回旧功能、修修补补。
指令遵循不准、情感表达刻板这些老毛病没解决,就算加了新功能,也很难留住用户。
AI行业的竞争本来就残酷,现在竞品们都在卯足劲往前冲,OpenAI如果再拿不出真正有实力的更新,只靠先发优势撑着,迟早会被市场慢慢稀释。
希望OpenAI能静下心来打磨产品,多听听用户的真实反馈,而不是靠创始人吆喝造势。
毕竟对用户来说,不管宣传说得再好,产品用着顺手、能解决问题才是硬道理。
OpenAI,真该整点好活儿了,别让支持你的用户失望。
转载请注明来自海坡下载,本文标题:《加查优化旧人设(指令翻车和情感刻板)》
京公网安备11000000000001号
京ICP备11000001号
还没有评论,来说两句吧...