国内的数据挖掘,大数据的案例有哪些?

qinzhiqiang 08-28 15:22 1,052次浏览

在搜索框输入你要查询的问题,搜索引擎通过人机互动、自然语言理解,对你输入的内容进行语义分析,读懂你的问题,提炼出问题主体,对搜索结果进行去重并推送精准结果。

搜索引擎在语义深度理解的基础上,并从数据库中通过深度语义算法算出与主题相关的信息,去除冗余、提取扼要信息大数据精准营销案例,从而推送给客户一段精准的答案;此结果体现了传统搜索引擎为你“寻找”转变为为你“回答”的智能化搜索升级。

语义精准搜索引擎系统主要满足知识搜索、电网报、统计分析、语义技术、语义本体五大功能模块。以下介绍具体功能:

一、知识搜索

搜索引擎给出语义深度理解的功能外,还兼具图书文献类知识管理搜索功能,搜索框输入你要查询的关键词,搜索引擎通过人机互动、自然语言理解,对你输入的内容进行相关图书文献搜索,对搜索结果进行去重并推送精准结果。如搜索“智能电网”,直接展示出与关键词“智能电网”有关的文献和图书,目前系统内已经收录了数千部文献和图书,可以充分的满足搜索需求。如,搜索“智能电网”后的展现结果:

图2:文献图书类知识搜索

同时可以显示文献和图书进行相关性聚类分析,如下图红框中,可点击进行相关术语或相关作者的文献及图书的搜索,如图3所示:

图3:相关性聚类

且能查看关于“智能电网”的知识分布雷达图,展示如图4所示

大数据精准营销案例_大数据精准营销实例_大数据精准营销案例

图4: 知识分布雷达图

通过对搜索结果进行分析,对相关文献进行知识分类分析,建立起如图的关系,主节点为分类号,标准的分类体系,而每个节点下面为其相关的关键词,再通过其关键词建立起了类别的关系,有效的组织了知识的结构。

二: 电网报搜索

在搜索框输入你要查询的关键词或问题,搜索引擎通过人机互动、自然语言理解,对你输入的内容进行语义分析,读懂你的关键词或问题,提炼出主体,对搜索结果进行去重并推送精准结果。

如: 刘振*的老家在哪

搜索引擎经过机器对自然语言的理解直接分析出你询问对象的主体是“刘振*”然后搜索挖掘出精准答案推送给你。搜索结果如图5所示

图5: 搜索“刘振*的老家在哪”

搜索结果在线主题聚类是基于相似性算法的自动聚类技术,自动对大量无类别的文档进行归类,把内容相近的文档归为一类,自动为该类生成标题和主题词并统计出文章数。例如对搜索的 “智能电网”相关的文本进行聚类分类。并展示了与问题主题关联的其他主体结果。如,“智能电网”的聚类结果如图:6所示,

图6 :聚类结果

“智能电网”的语义结果展示如图7,

大数据精准营销案例_大数据精准营销案例_大数据精准营销实例

图7: 语义结果

点击“分析”按钮后,展示对“智能电网”的语义统计分析结果动态展示,如图8,语义搜索引擎通过语义分析,关键词提取,获取问题主体就时间变化的可视化图谱。此功能是根据时间轴通过文本的语义分析给出一个时序性动态的主题展示结果。图8中,右侧为分析对象说明,左侧为结果动态展示。下方展示搜索引擎对“智能电网”从2007年到2015年相关信息的搜索挖掘基于语义分析并呈现动态可视化的知识推送。

图8: 语义统计分析动态展示

搜索引擎在问题语义理解的基础上通过聚类技术对与主题相关文章进行聚类并统计出文章数量。每篇文章通过实体抽取、关键词提取等标注出文章来源、版块、发布时间、作者及这篇文章的关键词。

搜索引擎采用了实体抽取系统能够智能识别出文本中出现的人名、地名、机构名、媒体、作者及文章的主题关键词,这是对语言规律的深入理解和预测。而且其所提炼出的词语不需要在词典库中事先存在。另外,本功能统计出与实体相关的文章数量。图9中红框内相关人物聚类中显示与搜索问题相关的人物及文章数。

图9: 相关人物聚类

相关概念词发现和相关任务的计算的结果来自于对10年报纸数据的学习。机器学习算法在不对迭代的对10年报纸的数据学习过程中,形成了词与词之间的关联,从而构建出了类似于本体库的词关系网(词网),通过给定词来计算相近关系和相邻关系的词和人物。

三、 统计分析

搜索引擎不仅有知识管理及搜索功能,还能在后台进行统计分析,直接展示出分析结果,如图,搜索“智能电网”后“*网报信息来源地图“中的展示,由颜色深浅表示文章的相关来源城市出现的次数高低,蓝色约深表示相关文章来源城市出现频次高。以图10为例,“智能电网”相关文章在黑龙江、内蒙古、贵州、云南、广西、广东、海南、台湾等城市出现次数较少,说明这些城市还没有发展智能电网,可做电网人员的决策参考。

图10 :国网报信息来源地图

“智能电网”相关文章统计分析展示如图11,左饼图表示“智能电网”相关文章的作者统计分析,右边饼图表示“智能电网”相关文章所在版块的统计分析。

图:11:文章相关统计

同时展示“智能电网”2008-2015年期间的话题变化曲线情况大数据精准营销案例,如图:12

图12:话题变化曲线

四、语义技术

语义技术部分展现的是后台的语义处理技术,包括概念发现、关联关系的建立和基于机器学习的关系计算,最红利用完善的本体库,进行语义计算。

(1)概念发现:通过给定词,来发现与其相近的新概念,这里表达出的是与其有关系,但是未对具体的关系做深入判断,所以成为概念发现。

大数据精准营销案例_大数据精准营销实例_大数据精准营销案例

图13:关键词概念

(2)概念关系推理:在发现概念之后,为了进一步推定其关系,这里采用了迭代的方法,在不断迭代发现与其相关概念的概念时,建立起了词与词的关系网,如图是经历了两次计算后的效果图,是词关系网建立的中间过程。

图14:概念关联推理

(3)关联关系计算:通过不断的迭代学习,最终形成的关系网络如图所示,在不管学习的过程中,相关概念不断的聚集,从而建立起了比较密切的关系,而这种关系通常是同位关系,也就是代项或参项等。

图15:关键词关联关系计算

(4)本体关系计算:同步上述三个步骤的处理,从而能够帮助本体库的完善,在少量专家的参与下,不断扩充本体库。如图是通过电力本体库计算得出的本体的关系图。

图16:搜索关键词本体关系

五、语义本体功能

语义精准搜索引擎通过实体抽取功能,在数据库中搜索挖掘出其中实体,规定各实体之间的关系类别,通过交叉信息熵计算每个实体的关联关系,从而建立整理的实体关系展示图谱。如下图,搜索引擎抽取出电力行业的实体概念,通过规定核心概念、用项、代项、分项、属项、族项、参项这六项关系,采用一定算法建立实体之间的关系,从而建立整个实体的关系关联展示图。

图17:语义本体功能图

以上案例是运用了大数据智能搜索与挖掘相关技术,希望可以对您有所帮助。其技术是使用了北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR大数据语义智能分析技术平台实现的,如果感兴趣可以了解一下!