当前,大数据的处理分析正成为新一代信息技术融合应用的节点。移动互联网、物联网、社交网络、数字家庭、电子商务等是新一代信息技术的应用形态,这些应用不断产生大数据。通过对不同来源数据的管理、处理、分析与优化,将结果反馈到上述应用中,将创造出巨大的经济和社会价值。
大数据也是信息产业持续高速增长的新引擎。面对大数据市场的新技术、新产品、新业态会不断涌现。在硬件与集成设备领域,大数据将对芯片、存储产业产生重要影响,还将催生一体化数据存储处理服务器、内存计算等市场。在软件与服务领域,大数据将引发数据快速处理分析、数据挖掘技术和软件产品的发展。大数据利用将成为提高核心竞争力的关键因素。各行各业的决策正在从“业务驱动”转变为“数据驱动”。
在自然语言方面,大数据更是是人类相互之间进行信息交流的主要手段和媒介,是相互沟通的桥梁。因此各种语言间的相互理解和认同,在当今社会全球化的状况下,便显得尤为重要。自计算机以及计算机技术的发明以来,科学家和语言研究专家将精力专注于怎样使得计算机能够理解自然语言的特有含义并进行不同语言问的准确翻译。可以说,计算机语言处理的研究,是集语言学、声学、语音学、计算 机技术和人工智能等多种领域于一体的一项综合性研究。而且其需求前景十分广阔,使得该项研究成为热点。
随着计算机技术的快速发展,使得自然语言的处理研究成为可能并逐渐应用于不同语言间的交流,更使得语言在智能识别技术系统中的应用越来越广泛,但是自然语言处理由于在其词库、意义、语义和国家民族的适用性方面的歧义性和复杂性,给智能识别带来了研究的困难,可以说,如何准确地识别自然语言的正确含义,提高智能识别技的智能型,将是基于计算机智能识别的自然语言处理研究的长期任务。由于现代计算机智能识别的自然语言处理技术涵盖了包括语言学、计算机科学、认知神经科学、数学、人工智能等多个学科领域,集中体现了现代技术研究的跨学科性,准确传递人类语言的正确含义的目标不会改变。
北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR大数据语义智能分析技术是满足大数据挖掘对语法、词法和语义的综合应用。NLPIR大数据语义智能分析平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。
NLPIR大数据语义智能分析平台主要有精准采集、文档转化、新词发现、批量分词、语言统计、文本聚类、文本分类、摘要实体、智能过滤、情感分析、文档去重、全文检索、编码转换等十余项功能模块,平台提供了客户端工具,云服务与二次开发接口等多种产品使用形式。各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系统平台,可以供Java,Python,C,C#等各类开发语言使用。
数据挖掘技术本身就是当前数据技术发展的新领域,文本挖掘则发展历史更短。传统的信息检索技术对于海量数据的处理并不尽如人意,文本挖掘便日益重要起来,可见文本挖掘技术是从信息抽取以及相关技术领域中慢慢演化而成的。在信息管理领域,综合应用数据挖掘技术和人工智能技术,获取用户知识、文献知识等各类知识,将是实现知识检索和知识管理发展的必经之路。
版权声明:原创作品,允许转载,转载时请务必以超链接形式标明文章原始出处、作者信息和本声明,否则将追究法律责任。https://blog.kokojia.com/ljrj123/b-2118.html