知识像蛋白质一样折叠
01.语言是符号系统
符号:一个社会全体成员共同约定用来表示某种意义的记号、标记。它包括了形式和意义两个方面的要素,是一定的形式和一定的内容的统一体。
语言是线性的符号组合,一个符号跟着一个符号,符合语法,因为语言是为了沟通,达成共识,符号、语法、语音、语义在一定的历史时期,具有稳定性。符号和语言是“能指”和“所指”。能指是能够指称某种意义的成分,所指是给符号所指的意义内容创制了一个专门术语。
02.知识可以被语言描述
知识,是一段有特定意义的内容,可以被语言表述为符号的集合,考虑到语言的线性以及存在同义符号和近义符号,同一知识可以被多个符号组合表述,而不影响被人群理解,这就形成了一个有趣的结构:
1、符号之间的组合关系,在语言环境中,一条符号线,各符号在前后出现的可能性,可以被语法和规则描述
2、符号之间的聚合关系,在语言环境中,同义近义符号在符号位置出现的概率
3、知识被表达为一个符号的平面结构
图片来自:https://ai.googleblog.com/2020/11/the-language-interpretability-tool-lit.html
03.符号的宇宙,知识的结构
符号的组合-聚合关系,构成了符号的星云,是一个三维的空间。当一个被语言表述的知识进入这个宇宙时,都可以被定位,成为一个有起点符号、方向、终点符号的空间路径。
取出空间路径,增加上每个节点上符号的近似意义符号,就得到了一个空间结构。就像蛋白质一样,由碱基对构成的线性结构决定了蛋白质的空间结构,进而决定了蛋白质的功能。
04.可以解释的模型
符号系统,是结构化,规则化的,容易解释的;机器学习的模型,是网络化,黑盒化的,不易解释的。一个模型就是一个知识,放入符号的宇宙,是否就可以找到近似的结构,向符号系统转化,变得容易解释呢?
谷歌在 2019 年 11 月推出了 Google Model Cards,为算法运作过程提供一份解释文档,让人们了解算法模型的运作原理及性能局限,以人类能够看懂的方式来呈现算法的运作原理,它实现了两个维度的“可视化”:显示算法的基本性能机制;显示算法的关键限制要素,大致上相当于药品的说明书,包括的成分、使用说明、禁忌等。
希望能出现像 AlphaFold 一样的人工智能项目,在知识推理上有更高成就,得到可解释的新知识。
有关空间认知和符号空间化,推荐一篇文章「李涓子、董天石、唐杰——基于空间认知的知识表示和推理」
标签:无