NLPIR智能技术结合汉语特色运用语义识别进行挖掘_ljrj123

2019-05-14 11:45

标签:

　　语言是由语音形式、语义内容、结构关系三个方面构成的统一体，三个方面缺一不可，互相作用，构成了语言。语音是语言的形式部分，词汇是语言的意义部分，语法是语言单位的关系部分，说的是符号与符号怎样组合的问题。三个部分在语言中的作用，我们可以这样简单来表述：没有语音形式，语言就无法存在，没有词汇的内容意义，语言就是一个毫无作用的空壳，没有语法，语言就是一盘杂乱而毫无章法的散沙。

　　中文信息处理分为汉字信息处理与汉语信息处理两部分，具体内容包括对字、词、句、篇章的输入、存储、传输、输出、识别、转换、压缩、检索、分析、理解和生成等方面的处理技术。用计算机来处理汉语信息，就是汉语信息处理，又称中文信息处理。

　　中文信息处理的特点是与西文信息处理相比较而言的，特点和任务是相互联系的。下面从文字、词汇、语音、语法以及软硬件系统等方面介绍一下中文信息处理的特点：

　　(一)大字符集

　　英文等西方语言的书写符号使用的是字母表式文字符号系统，字母数量较少。一种文字，包括大小写、数字及各种标点符号等，总共不过几十个，属于“小字符集”。例如：拉丁字母符号有26个;斯拉夫字母有33个等等;汉字属于“大字符集”：常用汉字3500个，通用汉字7000个，历史累积汉字多达6万。

　　(二)编码方案众多

　　使用字母数字键盘输入汉字信息，必须通过汉字编码。因为汉字是形音义的统一体，编码时所采用的信息类型不同，会有不同的编码规则和方案。因此，无论从编码的角度，还是从使用者的角度，都面临多样化的选择。

　　(三)形体多样，结构复杂：一个汉字就是一个独立的二维的拓扑图形。五种基本笔画“横”、“竖”、“撇”、“点”、“折”、，存在多种笔形变体。汉字结构层叠错落，笔画、字根、偏旁、部首、部件、字元，见仁见智，难以统一，这些汉字字库的研制以及字形的标准化都带来了相当打的困难。

　　(四)汉字方言分歧严重：现代汉语有七大方言区，每个方言区内又有次方言区，次方言区下还有不同的方言点。普通话普及应用水平远未达到语音识别、人机对话所要求的规范化和标准化的程度。因此，方言语音分歧成为语音信息处理的瓶颈。

　　(五)同音现象突出：现代汉语共有4125个不标调音节，按《基本字符集》6763个汉字计算，每个音节约有16.4个同音字;如按《汉语大字典》54678字计算，每个音节的同音字平均达到132.7个。

　　(六)书面含有没有分词标志：西方采用拼音文字，书面上词与词之间用空格加以分隔，因此很容易进行词汇的统计分析和认知处理。

　　(七)汉语没有形态：汉语的词无论冲当什么成分，构成什么关系，词形本身没有任何变化，只有依靠虚词、语序进行语法分析，不利于计算机的处理。

　　(八)词的兼类与活用复杂：词类划分不一，存在大量“兼类”。

　　(九)语法规则多有例外：词语搭配缺乏规范化的约束，人们习惯于意会而不注重形式标志的规则。

　　(十)歧义现象突出：词汇歧义本来是语言中的一个比较普遍的现象。

　　北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR大数据语义智能分析技术是满足大数据挖掘对语法、词法和语义的综合应用。NLPIR大数据语义智能分析平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。

　　NLPIR大数据语义智能分析平台主要有精准采集、文档转化、新词发现、批量分词、语言统计、文本聚类、文本分类、摘要实体、智能过滤、情感分析、文档去重、全文检索、编码转换等十余项功能模块，平台提供了客户端工具，云服务与二次开发接口等多种产品使用形式。各个中间件API可以无缝地融合到客户的各类复杂应用系统之中，可兼容Windows，Linux， Android，Maemo5, FreeBSD等不同操作系统平台，可以供Java，Python，C，C#等各类开发语言使用。

　　随着信息技术在我国社会生活各个领域应用的深入,中文信息处理正在成为人们工作和生活中不可或缺的手段，中文信息处理将具有更加广阔的市场。这将促使中文信息处理方面的高效中文搜索引擎、实时机器翻译、大规模中文文本处理、跨平台中西文自动识别转换、泛中文语义理解、中文电子商务等技术实现重大突破。中文信息处理已成为我国信息技术研究、发展、应用和产业的基础，在互联网日益成长的今天，中文信息处理技术将会更加成熟并创新。

赏