数据infra:从“黑箱”到“白盒”:Pythia如何打开大模型训练的秘密
在人工智能的世界里,像GPT这样的大型语言模型虽然强大无比,但它们就像是一个装满秘密的黑箱子——我们能看到输入和输出,却不清楚里面到底发生了什么。EleutherAI开发的Pythia模型套件,就是为了破解这个谜题。你可以把Pythia想象成一列装满“不同大小大脑”的火车:从只有7000万参数的小脑瓜,到拥有120亿参数的大脑袋,每节车厢都跑在同一段数据轨道上,行驶顺序也完全一致。而且,研究人员还拍下了154张“快照”,记录下这些大脑在整个成长过程中的变化。这是一次前所未有的开放实验。一、Pythia的三大“超级装备”从小到大的全套模型从7000万到120亿参数,就像从孩子到成人的全过程...