知识像蛋白质一样折叠

01.语言是符号系统

符号：一个社会全体成员共同约定用来表示某种意义的记号、标记。它包括了形式和意义两个方面的要素，是一定的形式和一定的内容的统一体。

语言是线性的符号组合，一个符号跟着一个符号，符合语法，因为语言是为了沟通，达成共识，符号、语法、语音、语义在一定的历史时期，具有稳定性。符号和语言是“能指”和“所指”。能指是能够指称某种意义的成分，所指是给符号所指的意义内容创制了一个专门术语。

02.知识可以被语言描述

知识，是一段有特定意义的内容，可以被语言表述为符号的集合，考虑到语言的线性以及存在同义符号和近义符号，同一知识可以被多个符号组合表述，而不影响被人群理解，这就形成了一个有趣的结构：

1、符号之间的组合关系，在语言环境中，一条符号线，各符号在前后出现的可能性，可以被语法和规则描述
2、符号之间的聚合关系，在语言环境中，同义近义符号在符号位置出现的概率
3、知识被表达为一个符号的平面结构

图片来自：https://ai.googleblog.com/2020/11/the-language-interpretability-tool-lit.html

03.符号的宇宙，知识的结构

符号的组合-聚合关系，构成了符号的星云，是一个三维的空间。当一个被语言表述的知识进入这个宇宙时，都可以被定位，成为一个有起点符号、方向、终点符号的空间路径。

取出空间路径，增加上每个节点上符号的近似意义符号，就得到了一个空间结构。就像蛋白质一样，由碱基对构成的线性结构决定了蛋白质的空间结构，进而决定了蛋白质的功能。

04.可以解释的模型

符号系统，是结构化，规则化的，容易解释的；机器学习的模型，是网络化，黑盒化的，不易解释的。一个模型就是一个知识，放入符号的宇宙，是否就可以找到近似的结构，向符号系统转化，变得容易解释呢？

谷歌在 2019 年 11 月推出了 Google Model Cards，为算法运作过程提供一份解释文档，让人们了解算法模型的运作原理及性能局限，以人类能够看懂的方式来呈现算法的运作原理，它实现了两个维度的“可视化”：显示算法的基本性能机制；显示算法的关键限制要素，大致上相当于药品的说明书，包括的成分、使用说明、禁忌等。

希望能出现像 AlphaFold 一样的人工智能项目，在知识推理上有更高成就，得到可解释的新知识。

有关空间认知和符号空间化，推荐一篇文章「李涓子、董天石、唐杰——基于空间认知的知识表示和推理」

标签：无