第379章 实验室里的深夜对话 (第1/2页)
2024年3月15日,星期五,晚上十一点。
深圳,默石资本,技术部。
整层办公楼只剩下技术部的灯还亮着。陆方坐在工位上,面前是三块屏幕,每块都显示着密密麻麻的AI论文。他正在读一篇关于大模型在金融领域应用的论文,题目是《Can Large Language Models Replace Financial Analysts?》。作者是几个不知名的欧洲学者,论文还没发表,只是挂在arXiv上。但内容让陆方坐立不安。
论文的结论是:大模型在财报分析、新闻解读、情绪识别等任务上,已经接近甚至超过了人类分析师的平均水平。在某些特定任务上,比如提取财务数据、计算财务比率,大模型的准确率甚至超过了90%。而人类分析师的平均准确率,大约是85%。这不是他第一次读这类论文了。过去一年,他读了上百篇,越读越焦虑。
周寻从隔壁工位探出头,手里端着一杯已经凉透的咖啡。“还在看论文?”
陆方头也没回。“嗯。这篇说大模型在财报分析上超过人类了。”
周寻走过来,站在他身后,看了一眼屏幕。“所以呢?”
“所以,我们会不会被淘汰?”
周寻拉过一把椅子,坐下来。“淘汰我们的不是技术,是我们不会用技术。”
陆方转过身,看着周寻。“什么意思?”
周寻喝了一口凉咖啡,皱了皱眉,放下杯子。“陈总当年从技术分析转到基本面,再从基本面转到量化。每一次,都在学新东西。技术是工具,不是主人。大模型也是工具。如果我们会用,它就是我们手里的利器;如果我们不会用,它就是淘汰我们的刀。”
陆方沉默了几秒。“可是,以前的工具,都是我们控制它。大模型,是它控制我们。它给出一个结论,我们不知道为什么。黑箱越来越黑。”
周寻笑了。“2015年,星海刚上线的时候,也是黑箱。你忘了?陆方当时也问过同样的问题——‘我们会不会被量化模型淘汰?’后来呢?”
陆方想了想。“后来,我们学会了和模型共存。模型负责快,人负责准。”
“现在也一样。大模型负责快,人负责准。它黑箱,我们就用工具打开它。LIME、SHAP,都是解释黑箱的方法。虽然不完美,但比没有强。”
陆方若有所思。“你说得对。但我还是怕。”
“怕什么?”
“怕有一天,大模型连解释都不需要了。它说什么,人就信什么。”
周寻站起来,拍了拍陆方的肩膀。“那一天不会来。因为人可以不信。”
陆方抬起头。“你怎么知道?”
周寻笑了。“因为我是人。”
凌晨一点,陆方还在工位上。他没有再读论文,而是在看星海大模型模块的测试报告。准确率85%,比上个月提高了2个百分点。但离90%的目标,还有差距。他想起周寻说的话——“技术是工具,不是主人。”但是当工具比主人聪明的时候,主人还能控制工具吗?他不知道。
他拿起手机,翻到通讯录里的一个名字:陈曦。他犹豫了一下,然后发了一条消息:“陈曦,你睡了吗?”
几秒钟后,回复来了:“没睡。在写代码。怎么了?”
陆方:“问你一个技术问题。大模型在金融领域的应用,你怎么看?”
陈曦:“你是怕被淘汰?”
陆方愣了一下。她猜到了。他回复:“对。”
陈曦:“不会的。大模型只是工具。就像星海。你们当年用星海,也没被淘汰。”
陆方:“那不一样。星海是我们自己建的。大模型是别人建的。”
陈曦:“那你们也可以自己建。用开源模型,微调,部署。成本不高,效果不错。我在这边试过,准确率能到90%。”
陆方:“真的?”
陈曦:“真的。我发你一篇论文,你看看。”
陆方收到一篇论文,标题是《Fine-tuning LLaMA for Financial Text Analysis》。他点开,快速浏览。方法不复杂,数据量也不大。他觉得自己能复现。
陆方:“谢谢你。我明天试试。”
陈曦:“不客气。陆方叔叔,不要怕被淘汰。你们那一代人,从手绘K线到量化模型,已经进化了一次。现在,从量化模型到大模型,再进化一次就行了。”
陆方看着那行字,沉默了很久。他想起周寻说的话——“陈总当年从技术分析转到基本面,再从基本面转到量化,每一次都在学新东西。”是的。他也可以学。
陆方:“你说得对。谢谢你。”
陈曦:“不客气。早点睡。”
陆方:“你也是。”
放下手机,陆方打开那篇论文,开始认真读。
2024年3月16日,星期六,上午九点。
陆方没有回家。他在技术部通宵了。他按照论文的方法,用开源模型LLaMA-7B,在星海的数据集上做微调。第一次跑,显存不够。他换了一个更小的模型,跑通了。准确率不高,只有70%。他调整了参数,再跑,75%。再调,80%。再调,83%。到上午九点,准确率稳定在85%左右。和星海的大模型模块持平。但他用的是开源模型,成本只有原来的十分之一。
他兴奋地给陈曦发消息:“陈曦,我跑通了。准确率85%。”
陈曦回复:“恭喜!再试试更大一点的模型?7B不行,就13B。我用13B跑过,准确率能到90%。”
陆方:“13B需要更大的显存。我没有。”
陈曦:“用云服务。按需付费,不贵。”
陆方:“我试试。”
他注册了一个云服务账号,租了一台带A100显卡的服务器。按小时计费,一小时十几块钱。他把模型上传,开始训练。这次跑得慢,等了两个小时。准确率出来,89%。离90%还差一点。他调整了学习率,再跑,90.5%。他靠在椅背上,长出一口气。
他给陈曦发消息:“到了。90.5%。”
陈曦:“厉害!”
陆方:“是你教的好。”
陈曦:“我只是指了条路。路是你自己走的。”
陆方笑了。他想起2019年,陈曦第一次来公司,画了那张产业链图谱。那时候,她才11岁。现在,她在伯克利,教他做模型。时间过得真快。
2024年3月18日,星期一,上午九点。
技术部晨会。陆方站在白板前,手里拿着马克笔。周寻坐在台下,面前是一杯热咖啡。
“上周,我用开源模型在星海的数据集上做了微调。准确率达到90.5%,和星海的大模型模块持平,成本只有原来的十分之一。”他在白板上写了几个数字:成本降低90%,准确率90.5%。
“下一步,我计划把开源模型正式接入星海平台,替换掉现有的大模型模块。成本更低,效果更好,而且我们自己可以控制模型,不用依赖外部API。”
(本章未完,请点击下一页继续阅读)