自然语言处理与维特根斯坦

(一)

人,一丝不挂,被抛入这个世界。

崭新的世界透过全身的感官,一股庞大的信息流像巨蟒一般注入新鲜的身体。那一刻在他的肉浆大脑里暗流涌动,生物电信号霹雳作响。

这一切令他无所适从,他哇哇大哭,回应着这个陌生的世界。

一切都是新的。宇宙中遍布亿万颗星辰,每一颗都有各自的轨道;沙滩上散落无数粒白沙,在太阳下闪烁着独特的光芒;森林里吞噬一切的行军蚁,在急速奔驰和巨大的死亡中,过于渺小而难以区分,细看之下却又各自精彩;就连人类也数以亿计,各有各有的秉性与脾气。它们如此相似,它们又多么不同!

“我该如何把握这个纷繁复杂、云波诡谲的陌生世界?”人陷入沉思。

不久,他将大地称为大地,太阳命名为太阳,万物也各得其真名。

(二)

人是万物的尺度(之一),通过繁多的命名、不同的定义、抽象的概念来把握这个世界。通过归纳与抽象,人为万物划定界限;驱鬼神,祛邪魅,繁杂的陌生世界被一一摆放整齐,变得熟悉而亲切。小小的脑袋因而可以凭借其有限的容量和计算,应付突如其来的惊讶,换取生存的筹码。换言之,概念是人面对生存压力所发明的工具,用以为万物划界。最朴素的概念来自于生活本身 —— 猫狗不同,各得其名。

若将每一个事物的每一个特征量化,用一个维度对应一种特征,那么我们便可将它置于一个高维空间之中,使其成为高维空间中一个确定的点。而命名、定义、抽象等,是将某些事物从所有事物中区分出来,本质上是在这整个高维空间中划分出一小块子空间,并赋予其一个独特而唯一的代号。整个高维空间的边界,则由人类的生活经验所决定。未被体验到的事物无法被置于其中,因而也无法被语言所描述。同时,空间与空间中的点也是相辅相成,两者不可分离,互为一体 —— 空间中点的变化会改变空间本身,就如物质和空间本质是一体那般。

当然,若要用人脑去描绘出这个空间,为每一个具体的事物找到空间中那个对应的唯一的点,几乎是不可能的。但所幸我们有电脑,研究自然语言处理的科学家们开发出各种算法,用以计算出各个事物所对应的点。数学上,这个高维空间通常用一个连续的向量空间(vector space)表示,在其中的每一个点对应一个多维向量(vector),它们的总和叫词嵌入(word embeddings)。

人是万物的尺度
(三)

无奈世界并不准备轻易向人类投降 —— 绝对标准的空间划分并不存在,概念的边界是模糊的,它本身的含义也会随时间变化而变化。美丽的事物千差万别,一千个读者心中有一千个哈姆雷特;男女性别划分的边界之处,存在着模凌两可的个体,这些个体正为自己努力发声,要求重新划界;三万年前原始人心中的爱情,和21世纪我们所思所想的爱情,也定有不同。定义的这些特点使得对“绝对”定义的讨论失去了讨论的前提,但对定义本身的回答也并非全无意义。譬如不同时代对“爱情”这个概念的理解,也反应了人类生活的变幻与时代洪流的变迁。

人本身又是不自由的,并不能对这个高维空间进行随意的分割。一个概念的生成与消亡受物理世界本身所限,良好的定义应有利于人类的长期生存。而有时候,人又会迷失在自己编织的语言游戏之中,忘却概念只是生活的抽象,试图用语言言说语言之外的世界。

保持沉默,并牢记只有生活本身是真实的。