大数据技术描述了新一代的技术和架构体系,通过高速采集、发现或分析,提取各种各样的大量数据的经济价值。
NLPIR大数据语义智能分析平台主要有精准采集、文档转化、新词发现、批量分词、语言统计、文本聚类、文本分类、摘要实体、智能过滤、情感分析、文档去重、全文检索、编码转换等十余项功能模块,平台提供了客户端工具,云服务与二次开发接口等多种产品使用形式。
NLPIR能够全方位多角度满足应用者对大数据文本的处理需求,包括大数据完整的技术链条:网络采集、正文提取、中英文分词、词性标注、实体抽取、词频统计、关键词提取、语义信息抽取、文本分类、情感分析、语义深度扩展、繁简编码转换、自动注音、文本聚类等。
语言是由语音形式、语义内容、结构关系三个方面构成的统一体,三个方面缺一不可,互相作用,构成了语言。
分词是汉语自然语言处理的第一步。目前,汉语自然语言处理的应用系统处理对象越来越多的是大规模语料,因此分词的速度和分词算法的易实现性变得相当关键。
KGB(Knowledge Graph Builder)知识图谱引擎是我们自主研发的知识图谱构建与推理引擎,基于汉语词法分析的基础上,采用KGB语法实现了实时高效的知识生成,可以从非结构化文本中抽取各类知识,并实现了从表格中抽取指定的内容等。
大数据分析的理论核心就是数据挖掘。各种数据挖掘的算法基于不同的数据类型和格式能更加科学地呈现出数据本身的特点,能更快速地处理大数据。
NLPIR大数据语义智能分析平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。
数据挖掘简单的说就是一个从大量、不完全、有干扰和随机的数据库中去获取隐藏在它们当中的、我们事先不知道的、但是包含大量潜在的有用信息和知识的过程。
伴随着计算机的日益普及,互联网的迅猛发展,文本的数量(电子邮件、新闻、网页、科技论文等)在不停的增长,因而对文本作智能化处理以获取所需信息的需求日益迫切。
共24节 · 28小时13分钟
共103节 · 55小时58分钟
共150节 · 36小时49分钟
共42节 · 31小时13分钟
共30节 · 26小时29分钟