信息、智能、数据,从技术到科学
当今的信息处理技术、人工智能技术和大数据处理技术已发展到了务必要进一步追问其科学基础的问题了。这是为什么?接下来小编就带大家去探究一下,希望你喜欢!
本文旨在就此做一番初步的分析并试图探寻其蕴涵的科学机理
图1 人机交互的七个里程碑及其蕴涵的科学原理示意图
由图1可见,1.数字化,2.符号化,3.结构化,4.对象化,是当今的信息处理技术、人工智能技术和大数据处理技术赖以发展的共同基础。它们都卡在了“5.强智化”暨“强”人工智能这个瓶颈之处。直到2017年谷歌的阿尔法狗横扫了人类的围棋冠军之后又被阿尔法零击败[1],这才让人们为之所惊醒基于人工神经网络的深度学习(机器学习)暨依托大数据分析的当代统计学何以竟超越1997年IBM的深蓝[2]基于规则的人工智能博弈系统?于是,“新一代人工智能”也就诞生了。“6.弱智化”暨“弱”人工智能,至少在该领域似乎已经不成立了。在此,大数据与人工智能结合的威力被凸显了出来。于是,数据科学、智能科学和信息科学同时被提上了科学家的议事日程。北京大学组织牵头承办的第三届智能科学国际会议及其配套的跨学科、跨领域、跨行业(纯学术的)大讨论班(1-7)云集了国内外基础理论研究各方面的专家学者对此做了一系列的交流探讨和充分准备,试图在2018年11月2 -5日大会期间从科学层面展开更深入的探讨。“7.协同化”揭示了其相当一部分科学原理。
为了帮助读者更好地理解“两大类形式化方略”[3]及其蕴涵的科学原理,同时也为了让读者先睹为快,笔者特意精选了两个典型示例来阐述“智能教育协同创新”[4]举例介绍的“路径2”(等价于“路径1”)在自然语言(形式化)理解暨专家知识(形式化)表达上的实际应用是如何做到“大道似简”的?
例1是对古诗的自然语言(形式化)理解暨专家知识(形式化)表达。
图2a 三个步骤(见1-2-3 三个苹果)揭示的内在逻辑示意图
图2b 隐含两个“明”借助“明月光”和“望明月”消除歧义的思维导图
由图2可见,图2a不仅展示了间接形式化的“中文字屋”及其蕴涵的深刻原理,而且,还展示了我们可如何在汉字棋盘上选用间接形式化的汉字(如同下汉字棋)而传达整体语义(这样的知识棋谱是以往中文信息处理方式暨借用外来的自然语言处理方式未曾做过的)。图2b不仅通过选取菜单的方式直接让普通用户仅仅使用母语就实现了汉语的间接形式化(结构化和数字化),而且,还可通过具体的间接形式化方式直接排除自然语言的歧义(如“明”的含义与其不同词性的自动判定“明月光”的“明”v和“望明月”的“明”a)。
下面让我们来看英语的文本知识库(英汉两种语言虽迥然不同但存在相似原理)。
例2是对英文的自然语言(形式化)理解暨专家知识(形式化)表达。
图3a 三加一凸显logic的语境示意图
图3b 亚里士多德与弗雷格的语境示意图
由图3可见,图3a不仅可展示间接形式化的“英文字屋”及其蕴涵的深刻原理,而且,还展示了我们可如何在英文棋盘上选用间接形式化的英文(如同下英文棋)而传达整体语义(这样的知识棋谱是以往英文信息处理方式暨外来的自然语言处理方式未曾做过的)。图3b不仅通过选取菜单的方式直接让普通用户仅仅使用英文就实现了英语的间接形式化(结构化和数字化),而且,还可通过具体的间接形式化方式直接排除自然语言的歧义(如“logic”这个义项的两个上下文暨语用情景自动判定“Formal logic”和“Mathematical logic”)。
由此及彼,由表及里,举一反三,读者不难理解我们这样的“双字棋盘”和“知识棋谱”的基本用途(其深刻意义和广泛价值还需做到“懂会熟巧用”后才能逐步体认并感悟)。
由于该诗词知识库和英文知识库都是放在云上共享的,因此,读者都有机会进一步去做此类“语言游戏”(维特根斯坦),进而,去体会“语言即棋”(索绪尔)的科学机理。
至此,读者也许会像笔者一样地感受到自然语言(形式化)理解暨专家知识(形式化)表达通过“双字棋盘”和“知识棋谱”的方式真的可做到“大道似简”的效果。
那么,什么是其中的“道”呢?换一句话说,如何才能让信息、智能和数据的技术推进到其科学的进程加速呢?于是,笔者引入了“三数”、“三智”和“三信”的基本框架:
图4“三数”与“数据科学(树叶)”
由图4发问,传统的数据库技术(包括数据仓库)与当代的大数据技术(包括数据中心)分别对于数字、数据和数字化“三数”与“数据科学(树叶)”之间究竟存在什么样的关系?概率与统计在此扮演了怎样的角色?都涉及一个关键问题:一旦机器翻译等人工智能技术都可转化为信息的自动查询技术,那么,查准率与查全率之间的矛盾是否就可迎刃而解呢?
图5“三智”与“智能科学(树干)”
由图5推知,如果哲学是爱智慧的学问,心理学是可测量智力商数的学问,计算机科学是可产生人工智能的学问,那么,心智哲学所述的强弱两极的人工智能,计算机科学与有关学科结合而产生的人工智能三大学派(功能符号主义、结构神经网络和行为机器人模拟)及其最近异军突起的深度学习和大数据的结合而产生的新一代人工智能,它们之间是否真的会存在统一的科学机理呢?“三智”与“智能科学(树干)”之间究竟存在什么关系?
图6“三信”与“信息科学(树根)”
由图6推知,“三信”涉及信息科学的根本问题。由狭义语言跨越到广义语言或文本,涉及自然语言、思想概念和对象世界三类现象信息的范畴,这就推进到了其本质信息和本体信息的范畴。由此引出了当今的信息处理技术、人工智能技术和大数据处理技术已发展到了务必要进一步追问其科学基础的问题了。于是,爱智慧的哲学、测智力商数的心理学和判定是否具备人工智能的计算机科学,把“三智”暨智能科学的根本问题推到了学术前沿。还有数据、数字以及数字化这样的“三数”暨数据科学的根本问题,也被提到了议事日程,而不仅限于以往的信息科学(它是否能说清楚“三信”涉及信息科学的根本问题?抛砖引玉)。
总结
综上所述,如果说图1所示的七个里程碑是笔者对两大类形式化技术路径怎样逆向建立哲学问题与科学问题之间的桥梁的,那么,图4叶茂,图5干壮、图6根深,所贯通的表述则可给人以简驭繁的启迪。在此大背景下,读者通过“懂会熟巧用”的过程,来体认并感知图2(中文示例)和图3(英文示例)及其蕴涵的科学原理,将会再次发现以小见大的原型揭示生了大生产(标准化)与小生产(个性化)结合对“文本分析”和“知识加工”的影响。