热点新闻

基于主题模型的网络热点新闻演化趋势研究

摘 要:互联网媒体的快速发展使网民每日接收着海量的新闻。发现热点新闻并对其演化趋势进行挖掘可有利于媒体把握新闻风向和读者喜好,并帮助用户低成本、全方位地了解新闻事件的来龙去脉。媒体网站可通过实时获取新闻并进行文本处理,运用聚类分析、时序主题挖掘等算法跟踪了解热点新闻事件的演化趋势。本文结合相关挖掘技术,提供了一种基于主题模型的热点新闻演化趋势挖掘的流程设计,并结合具体的新闻事件进行分析。

关键词:热点新闻,聚类,主题模型,文本挖掘,新闻演化

1、研究背景

随着互联网的发展,在线新闻已成为媒体发表新闻、用户阅读新闻的主要渠道。在Web2.0时代,网络中的信息传递愈加迅速便捷,网民可自主发表个人意见,助推了各类热点新闻的诞生。网络中的热点新闻是指反映社会反响比较大,网民比较关注的新闻内容,具有传播快、影响力大、关注度高的特点。网络中的热点新闻一般会经历话题产生、变化和消亡三个阶段,不同阶段的新闻有不同的热度和话题。人们在阅读互联网上海量新闻时,往往重点关注某些领域的热门新闻,并且希望了解热门的新闻的来龙去脉等泛化信息。

对网络热点新闻事件的挖掘可以满足互联网用户新闻阅读诉求。将网络中各个信息源相同和相似的新闻事件聚集在一起。最后将聚集在一起的新闻事件按照时间先后顺序进行排列和统计,这样就能够得出新闻事件的起因、发展以及结果等一系列过程,并通过统计信息的数量得到事件关注度变化曲线。挖掘结果能使用户更方便快捷的去了解网络中整个信息演化趋势和状况,同时也引导用户去关注社会和生活中的一些焦点新闻。

从用户角度看,对热点新闻演化趋势的挖掘分析给用户提供了更为方便快捷的服务,它能够使用户用最小的代价获取最多最全面的内容,它能够帮助用户更准确、更迅速的了解一个事件的来龙去脉、整个发展过程以及各方各面对该事件的理解和看法。对媒体和网站管理者而言,从对互联网中热门事件的研究,可以有效的得出互联网中热点新闻的迁移,互联网用户行为习惯变化以及互联网的舆论导向[1],便于媒体根据读者喜好和热点风向发布新闻报道,引导和控制新闻发展。

2、热点新闻挖掘技术与研究框架

2.1 热点新闻挖掘相关技术现状

在对热点新闻的演化状况进行挖掘时,主要会使用到有监督性学习、无监督性学习以及复杂网络分析等方面的相关技术。

(1)新闻聚类技术

传统的新闻主题聚类任务一般采用向量空间模型来表示一个新闻文档,然后通过相似度公式来计算文档之间的距离,而对于新主题的识别主要采用增量聚类的算法来实现;通过主题抽取与聚类工作,可以不停地生成、总结形成新的新闻主题[2]。基于以上路径,诞生了多种新闻聚类方法。如Ron Papka[3]等学者则提出了一种混合式的主题聚类算法,他将多种聚类算法进行混合搭配,根据不同聚类算法之间的特点,采取融合逻辑来进行新闻主题聚类。Sayyadi[4]等研究人员将新闻主题与社交网络结合起来,提出了一种基于关键词图的新闻主题聚类算法,充分地利用了网络新闻系统中的消费者社交网络信息,取得了不错的效果。

(2)新闻分类技术

新闻网站对于新闻进行分类使得读者可以更准确地找到自己感兴趣的分类并有利于关联阅读的进行, 例如目前新闻页面下方的新闻推荐, 可以使读者便捷地阅读到与当前阅读新闻相关的其他新闻页面。目前,机器学习和神经网络技术的发展使得新闻分类逐渐成熟,如支持向量机(SVM)、决策树、KNN等分类算法在新闻分类任务上均有不错的表现。

(3)主题挖掘技术

非监督性学习中的主题模型,可以用于追踪和检测新闻热点话题。通过主题模型将自由文本中的主题 提取出来再进行分析。主题模型也是近年来文本挖掘 领域的热点。主题模型起源于Deerwester[5]等1990年提出的隐性语义索引。M. Blei等2003年[6]提出的LDA模型,扩展了隐性语义索引,得到一个更为完全的概率生成模型。近年来,与特定的应用场景相结合,出现了越来越多的基于LDA的概率模型。

(4)新闻演化挖掘技术

新闻话题演化脉络挖掘[7],是在与某个特定话题的相关报道已被跟踪的前提下,根据新闻之间的逻辑关系,自动组织成符合逻辑的事件发展轨迹。国内外研究的一个重点集中于两新闻之间相似性度量(关联强度)方面,有研究发现新闻发展轨迹是自上而下的,具有时间近邻、事件要素共现特性,利用事件的内容关联强度、时间关系可以构造出新闻话题演化故事链[8]。

2.2 热点新闻演化趋势挖掘框架

针对网络中的热点新闻演化趋势分析主要分为三个模块:新闻获取模块;热点新闻识别模块和热点新闻演化分析模块。其中新闻获取模块主要完成数据的即时性获取任务;热点新闻识别模块主要对新闻文本信息进行预处理,运用聚类技术对新闻进行聚簇,挖掘新闻热度及事件标签;热点新闻演化分析模块主要对簇内新闻在时间序列上进行主题挖掘,对挖掘出的主题演化情况可视化展示。

基于主题模型的网络热点新闻演化趋势研究

3、新闻获取

在获取新闻阶段,主要目的是实时性得获取新闻网站的海量新闻数据,满足对新闻演化趋势分析的数据要求。在该阶段,一般的流程为:网页抓取,网页解析,信息提取,信息存储。

(1)网页抓取

新闻网页的抓取是获取数据的基础。面对新闻挖掘抓取相关网页要满足两个特点:定时和定向。定时抓取,是指为了保证新闻的时效性,需要定时(每天、每周或每小时)抓取新闻站点的新闻页面。由于新闻网站上每天都有大量新闻产生,及时抓取当日新闻才能满足对新闻演化趋势的挖掘。定向抓取,是为了防止抓取的新闻分布过于分散,可从新闻网站的专题页或主题页进行抓取。以人民网为例,可从滚动新闻模块出发每日0点抓取新闻,保证抓取的即时性和抓取内容的丰富性。

(2)网页解析与信息提取

网页的解析,能够得到网页中比较单一和固定的元素,例如网页标题、副标题、链接信息、文本信息等,python与java语言环境下有成熟的工具包可以使用。SST(Site Style Tree)算法提供了一种根据Web网页DOM树节点信息熵提取有效信息的方法,可以过滤网页中的冗余的无意义信息,提高提取信息的有效性。

(3)信息存储

为便于按照时间线对新闻进行分析,要记录存储网页的时间、新闻标题、新闻内容等信息。存储网页新闻信息数据系统可使用SQL-Server数据库或Oracle数据库存储,满足大量数据多线程并发查询的需求。网页新闻存储表的字段设计如表3-1所示,字段需要包括原始网页中的新闻信息和处理后的关键信息,为提升查询速度,可对部分字段添加索引。

基于主题模型的网络热点新闻演化趋势研究

4、热点新闻识别

浏览过本文章的用户还浏览过