岁岁文学

字:
关灯 护眼
岁岁文学 > 股海弄潮 > 第244章:确立“样本外”测试与简化原则

第244章:确立“样本外”测试与简化原则

  第244章:确立“样本外”测试与简化原则 (第1/2页)
  
  铁律:永远留一手数据
  
  2010年7月26日,星期一,上午九点整。
  
  车公庙,三十平米的办公室里,气氛比往常更严肃。
  
  白板上还留着上周五晚上周寻写的那些字——“过度拟合防范指南(草稿)”。旁边是陆方那条“完美曲线”的打印件,被周寻用红笔画满了圈,标注着“可疑”“过拟合”“童话”。
  
  陆方坐在电脑前,脸色还有些苍白。但眼睛里的空洞已经消失了,取而代之的是一种更沉的东西——像是刚经历过一场大病后,终于看清了自己有多脆弱的那种清醒。
  
  陈默站在白板前,看着那几行字。
  
  “周寻,”他开口,“上周那件事,让我们看清了一个问题。”
  
  他顿了顿:
  
  “我们不能再靠‘自觉’去防过度拟合。得靠制度。”
  
  周寻点头。
  
  他走到白板前,把那几行“防范指南”擦了,重新写下几个大字:
  
  “默石量化研究——铁律两条”
  
  第一条,他写:
  
  铁律一:永远留一手数据
  
  下面,他画了一个时间轴:
  
  ```
  
  2005 2008 2010
  
  |------------|------------|
  
  训练集 样本外测试集
  
  (用于开发) (仅用于最终检验)
  
  ```
  
  他转过身,看着所有人:
  
  “从今天起,我们的历史数据,必须严格分成两部分。”
  
  他指着左边那段:
  
  “2005年到2008年底,这是‘训练集’。用来开发策略、测试因子、优化参数。可以反复用,随便用,想跑多少次跑多少次。”
  
  然后他指着右边那段:
  
  “2009年1月到现在,这是‘样本外测试集’。完全不动,绝对不能碰。”
  
  他加重了语气:
  
  “任何策略,在训练集上表现再好,也必须通过样本外测试,才能考虑实盘。”
  
  小林举手:
  
  “周老师,那如果样本外测试没过呢?”
  
  周寻看着他:
  
  “那就说明,这个策略在训练集上的表现,可能是运气,可能是过拟合。回去重新开发,重新优化。然后用新的训练集再跑,跑完再测样本外。”
  
  他顿了顿:
  
  “一遍没过,就两遍。两遍没过,就三遍。直到样本外也能跑出稳定的结果,才能考虑实盘。”
  
  小林在本子上飞快地记着。
  
  陆方忽然开口:
  
  “周老师,那我们现在手里的数据,只到2010年7月。样本外只有一年半,够吗?”
  
  周寻想了想:
  
  “不够理想。但够了。”
  
  他走到白板前,又画了一条时间轴:
  
  ```
  
  训练集 验证集 测试集
  
  | | |
  
  2005-2007 2008 2009-2010
  
  ```
  
  “标准的学术做法,是分成三份:训练集、验证集、测试集。验证集用来在开发过程中做初步验证,防止过度依赖训练集。测试集只在最后用一次。”
  
  他看着陆方:
  
  “我们数据不够,做不到三份。但至少,必须保证有一份完全没碰过的数据,做最终检验。”
  
  陆方点头。
  
  陈默站在旁边,一直没说话。
  
  等周寻讲完,他才开口:
  
  “第二条呢?”
  
  周寻走到白板前,写下:
  
  铁律二:奥卡姆剃刀——如无必要,勿增实体
  
  他转过身:
  
  “什么意思?在效果相近的情况下,永远选择更简单的模型。”
  
  他指着陆方上周那条“完美曲线”:
  
  “陆方那条线,为什么可能是过拟合?因为参数太多。他把动量因子的回溯期从6个月优化到5个月零3周,把估值因子的阈值从30%分位数调整到27.5%,把状态识别的波动率阈值从90%分位数改成88%。”
  
  他顿了顿:
  
  “这些数字,有经济含义吗?5个月零3周,和6个月有什么区别?27.5%和30%有什么区别?没有。它们只是让曲线更漂亮。”
  
  他看着所有人:
  
  “真正的规律,应该是简单的。如果两个策略收益差不多,选参数更少的那个。如果两个参数差不多,选逻辑更简单的那个。”
  
  他走到白板前,画了一个天平:
  
  ```
  
  复杂模型 简单模型
  
  参数多、拟合好 参数少、泛化强
  
  \ /
  
  \ /
  
  选哪个?
  
  ```
  
  他放下笔:
  
  “答案:在效果相近时,选简单的。”
  
  小林又举手:
  
  “周老师,那如果简单模型的效果比复杂模型差很多呢?”
  
  周寻看着他:
  
  “那就用复杂模型。但前提是,它的复杂度必须有合理的解释。你不能说‘因为加了这五个参数,收益提高了3%’就完事了。你得说清楚,这五个参数背后的逻辑是什么,为什么它们能让模型更好。”
  
  他顿了顿:
  
  “如果说不清楚,那就还是简单的。”
  
  ---
  
  上午十点,讨论进入细节。
  
  陈默走到白板前,指着那两条铁律:
  
  “这两条,从今天开始,是默石的铁律。任何人都不能违反。”
  
  他看着周寻:
  
  “样本外数据,谁来保管?”
  
  周寻想了想:
  
  “最好由一个人专门负责。这个人不参与策略开发,只负责保管数据和跑最终检验。”
  
  陈默扫了一圈办公室。
  
  六个人。有的在写代码,有的在研究因子,有的在整理数据。
  
  他的目光停在赵姐身上。
  
  
  
  (本章未完,请点击下一页继续阅读)
『加入书签,方便阅读』
热门推荐
在木叶打造虫群科技树 情圣结局后我穿越了 修神外传仙界篇 韩娱之崛起 穿越者纵横动漫世界 不死武皇 妖龙古帝 残魄御天 宠妃难为:皇上,娘娘今晚不侍寝 杀手弃妃毒逆天