Author: 挨踢的牛魔王 | Origin link: wechat link
题图由我厂AI生成
欧神大模型终于研发成功了
一、副驾驶copilot
自从chatGPT诞生以来,虽然AI已经可以聊天、绘画、做音频和视频,但是很多人还是认为AI不能承担 严肃应用 的工作。
尽管十年前,医院就已经用AI分析片子,准确率达到 90%以上了 ,但是普通人接触不到,所以了解不深。
简单的说,对于普通人来说,现在的感觉就是,看起来AI很强大,但是似乎与自己的生活无关。
这种感觉似乎也有一定的道理,那就是“ 大模型幻觉 ”。
简单的说,就是AI有些时候,它会胡编乱造,这样就导致准确性不是很高。
如何降低“ 大模型幻觉 ”,这个在当前可是世界级的难题。
微软提出了一个概念,AI可以作为 copilot ,就是副驾驶的意思。
微软本身就有一个产品就叫copilot。
副驾驶可以帮你完成大量繁琐的工作,但是 决断还是要人类来做 。
那么作为副驾驶,AI的表现怎么样呢?
最近大量的AI公司,都推出了自己的编码助手,比如微软的GitHub copilot,豆包MarsCode,阿里的通义灵码,百度的文心快码等等。
很多创业公司,也单独发布了编码的大模型,看来是比较看好这块市场。
编码这种事情,是一丁点都不能错的,一个字母,一个标点符号都不能错。
这个是严肃得不能再严肃的应用。
那么AI在这个领域表现怎么样呢?
实际情况是: 效果相当的好,极大的提升了程序员的效率。
豆包 MarsCode在字节内部,有 70% 的人在用,AI每个月贡献 百万行代码 。
李彦宏讲,在百度内部,有 30% 的代码都是AI生成的。
那么,在房圈,要是有个这样的副驾驶,可以帮你回答各种问题,比如 地段、装修、户型 等等,省掉你的各种工作,辅助你决策,那就太好了。
但是还是那个问题,就是“ 大模型幻觉 ”,准确率是一个大问题。
解决准确率的问题,通常采用 大模型微调 和RAG(Retrieval-Augmented Generation) 检索增强生成技术 等等。
就是你得给 大模型准确的参考信息 ,才能减少大模型幻觉,提高准确率。
检索增强生成,市面上就有 4-5种工具 ,你马上就能做出东西,但是在提高准确率方面,简直是一言难尽。
典型的情况是: 一天出Demo,半年搞调优,一年未上线。
因为提高准确率实在是太难了。
首先你对于语料的搜索要特别准确,AI才能回答准确,但是做搜索,本身就是极难的事情。
要是做搜索不难,那就不是只有谷歌、百度几家独大了,连微软、360这样的公司赶上他们都难。
我们内部,其实一直有个进行楼市分析的工具,但是并不是用AI的。
自从上了AI之后,准确率一直就是问题,所以也没有对外开放,就这么勉强用着。
就楼市这个数据量,那倒也不至于上Elastic search这种大型的搜索组件。
有一个周末,我实在不能忍受,就手写了一个小型的搜索引擎。
再加上模型微调,两方面结合,AI的准确率一下子就提升上去了。
现在的大模型叫各种名字,比如文心一言、通义千问、星火、书生、豆包等等。
既然是做一个关于楼市的大模型,必然少不了欧神的语料。
所以,我们的大模型的名字,比别的模型霸气多了。
名字就是: 欧神大模型。
下面我们看看效果到底如何。
二、测评效果
首先第一个挑战的项目,就是“ 大海捞针 ”。
就是文档中有一句话,你直接问,看大模型能不能从海量文字里面捞出来。
我们的问题是:
国际公认的宝石是哪四种?
这个问题,欧神曾经提到过。
回答是:国际公认的宝石是红宝石、蓝宝石、钻石和祖母绿。
完全正确。
第二项,概念理解。
问题:经济学第一定律是什么?
回答完全正确,dT>0,没有一句废话。
同样的问题,文心一言说了一大堆,没说到重点。
下面的问题,文心一言同样没有一个抓住重点的,就不展示了。
问题:经济学第二定律是什么?用一句话描述
回答完全正确。
问题:经济学第三定律是什么?用一句话描述
回答完全正确。
第三项测试:行话是否可以理解,就是针对一个行业特有的术语测试。
问题:凤变冰是什么意思?
AI知道凤变冰是什么,能说个大概。
进一步追问,为什么叫凤变冰?
AI知道这个名词的由来,而且对于凤姐表达比较委婉。
问题:A8是什么意思?
A8是1000万人民币,而且AI强调了是净资产。
第四项:人物关系。
这个最好拿欧神的冷门小说《拜金女郎》来测试。
问题:在拜金女郎这部小说中,刘子默和泠夜辉到底是什么关系?
AI回答的很好,并没有直接指出是恋人关系,而是“ 从最初的经济利益驱动逐渐发展成为包含了情感、信任和承诺的复杂关系。 ”
问题:在拜金女郎这部小说中,刘子默和何以玫到底是什么关系?
AI准确地识别刘子默和何以玫不是恋人关系。
问题:刘子默的父亲叫什么名字
非常干净利落的回答:刘逸文。
问题:欧神的老婆是谁?
回答正确,因为那个时候还没离婚。
欧神在文章中提这个很少,有时候是用LP来替代。
谁知道你说的LP指的是什么?可能是廉颇呢。
这个完全是AI自己进行推断出来的,而不是搜索。
第五项:历史
问题:说说隋炀帝杨广
准确的把握了隋炀帝“ 曲境不折 ”的性格特点。
问题:说说侯景
说的大致是对的。
第六项:评估
问题:江景房为什么好?
第七项:精算
问题:一个100万的房贷,30年期,年利率5%,计算每个月的月供
其实大模型并不善于计算,就像人脑一样不善于计算一样。
很多人并不是不会精算,而是算起来比较麻烦,这个也是一个痛点。
所以,可以让大模型通过编写程序来计算。
原封不动的运行这个大模型输出的精算程序:
结果是:5368.216230121398
我们在网上随便找一个房贷计算器,同样的问题,计算的结果如下:
大模型计算的完全正确。
这个过程显然复杂了一些,完全可以让大模型在后台直接给答案。
第八项:推荐
问题:推荐几部电影
这个还真是欧神推荐的一些电影。
第九项:情感分析
问题:欧神感情失败的原因是什么?
相比AI的回答,其实AI提到的老舍在《骆驼祥子》中讲的一段话才是重点。
这段话是这样的:
爱是人中龙凤才给得起的东西,真正的情种只会出生于大富之家。
有财力有内涵修养、充满灵性的人,才给的起,愿意给,不算计和权衡利弊。
普通人活着已经耗尽全力,尔虞我诈权衡利弊为自己谋划,哪里还给的出去真正的爱,哪里有时间精力当"情种"。
三、最差的生意
经过我们上面的测评,我们可以发现“欧神”大模型的实用性是非常强的。
关键是这种方式解决了一个很大的问题。
世界上最差的生意是什么呢?
就是卖创意,而且是靠人力卖创意。
就是一个人,每次要有创意,才能卖,没有创意就不能卖。
比如说付费文章,你文章发出来,是有一些人买,但是马上盗版就出来了。
然后,后面的人就都不买了。
比如你开讲座,你不能一个课程反复讲,没有新意,别人就不来听了。
很多商业模式是这样的,是不可重复的。
这也意味着这个生意很不稳定,不可持续。
但是一个人的创意,哪里会一直有那么多呢?
人力时有穷尽,你得一直输入,才有创意,要写文章,搞直播。
一旦你停下来,收入马上就没有了。
真正能确立成为一个生意, 重要的一个指标就是重复 。
比如有些明星,靠一两首成名曲,吃一辈子,就是比较好的生意。
虽然对于听众来说,有些腻烦,但是从生意上看,是一个好生意。
比如说卖油,你就一直卖油,成功的事情反复做。
再比如说,麦当劳为什么没有那么多菜品?
虽然有时候也研发一些新菜品,但是模式是重复的。
就是一次研发,处处重复。
可口可乐的生意模式,未必比苹果差。
如果不想一直输出创意,那么比较可行的方式就是 卖服务 。
比如说,问答,就是一个比较好的服务。
因为每个问答,都是针对个人才有用的,每个人感兴趣的点不一样。
这种盗版是没用的。
但是问答这种事情,占用的人力和时间太多了,无法扩大。
这个对人的消耗实在太大了。
其实很多问答,后面的原理和模式是一样的,是可以重复的。
但是,以前,你根本做不到将问答自动化。
自从AI出现以来,把问答变成自动化成为可能。
因为AI的“智商”越来越高,哪怕半年之前,AI都是比较傻的。
但是现在完全可以投入实用了,发展速度可谓一日千里。
繁琐的,重复的工作,你可以交给AI做。
比如说,你想一个大纲,细节、引用、数据,就让AI给你填充就好了。
一个人,只要在后台把模型调试好,模型就可以应对很多人的回答了。
再多的人都可以应付。
这就是“欧神”大模型的好处。
四、结语
AI作为副驾驶copilot是已经被成功证明的模式。
我们研发的“欧神”大模型,让房圈一举进入智能时代。(内部会员已经用起来了)
虽然只是初代版本,已经有很强的实用性,而且可能开辟一个新的商业模式。
就是大规模个性化服务的商业模式。
既然可以做房圈的大模型,那么《红楼梦》、《三国演义》、《资治通鉴》等等大模型,都是可以做的,原理是一模一样的。
如果对你有启发,请点个关注或者“在看”吧。
老读者建议“星标”,没有任何互动,系统可能不会在第一时间推送给你 。