香港城市大学教授介绍语言信息化处理新成果-语言工程与计算实验室

11月12日上午，来自香港城市大学的方称宇教授在南校区图书馆报告厅，从语料库语言学家的角度，向大家介绍了基于文本的信息处理的历史发展，同时全面展现了自己最新的文本聚类实验成果。本次讲座由思科信息学院、语言工程与计算广东省社会科学重点实验室承办。思科信息学院副院长蒋盛益主持讲座。

方称宇正在作讲座

陈述历史，总结经验

讲座伊始，方称宇先介绍了基于文本的信息处理技术的两个出发点：一是需要运用到计算手段，二是需要处理者拥有语言学认识。虽然经过了数十年的发展，但是仍然没有一个标准的语言处理手段。在定义了一些基本概念之后，方称宇以自己正在的研究的文本聚类领域为例，描述了近十年来的发展历程。目前，运用信息系统进行文本聚类的方法主要有两种，一是根据词义，但是此方法较难具体反映文本的内容；二是根据词性，但是根据词性进行聚类不易反映文本规律。

过去十余年间，两种方法的合理性实用性都被研究人员反复验证，相比而言，通过词性进行文本聚类的准确性更高一些。但是也存在结果不容易进行评估、词性与词义之间容易夹杂、实验中聚类类型少等问题。

设计实验，遴选工具

为了验证词性进行文本聚类的准确性，方称宇开展了研究工作。针对之前总结出的问题，他提出在实验中需要做到只对词性进行研究、丰富数据库的语言学信息、实验中采用更多类型的文本等要求。

语料库是运用信息系统进行文本聚类的基础，分类器会根据语料库的内容来对文本进行聚类。方称宇和他的团队在实验开始前用了半年时间对语料库、分类器进行遴选，最终选择了三个具有权威性的语料库。为了进行对照，三个语料库中有一个是以词性作为基础的，而其他两个语料库则分别包含复杂和简单的词性信息。而在分类器方面，方称宇团队选取了在业界具有一定权威性的NB和NB-MN分类工具。

分析实验，展望未来

在经过多次的试验、对比之后，方称宇认为，从文本聚类的有效性来看，词性的作用要大于词义的作用，在一些文本分析中差距甚至能达到10%。同时，复杂词性语料库的聚类效果要好于简单词性语料库的聚类效果。此外，分类工具对聚类效果也存在影响，普遍看来，NB-MN工具的聚类效果更佳。

尽管得到了初步成果，方称宇仍认为自己的研究还有进步空间，下一步他将扩展研究的专业性，专攻医疗领域的文本，并将努力从研究结果中抽象出普遍特征。

蒋盛益向方称宇纪念品

讲座最后，蒋盛益代表学校向方称宇赠送纪念品。

附：方称宇（Alex Chengyu Fang）简介
方称宇（Alex Chengyu Fang）在University College London (UCL)获语言学博士学位，现在是香港城市大学语言学教授，对话系统实验室主任和创始人，同时是北京航空航天大学客座教授，以及中国全国术语标准化技术委员会成员。关注的领域包括计算语言学和自然语言处理等。