您的位置:
首页 > 篮球 > 篮球新闻

NBA 赛事新闻自动生成方法:满足球迷对赛事了解的需求

本发明属于文本信息数据处理

技术领域:

,具体涉及一种NBA比赛新闻自动生成方法。

背景技术:

文字直播一般是指以电视直播信号或网络视频信号为信息源,借助特定的输入输出系统,以网络平台为传播媒介,将信息以文字的形式在网上向广大公众进行阐释和生动传播的一种传播方式。随着2008年北京奥运会的成功举办,人们对体育赛事的关注度得到了前所未有的提升,在各大新闻网站上,体育赛事的点击率远远高于其他版块。NBA比赛代表着篮球运动,在世界顶级水平上,四大门户网站从20世纪末开始陆续提供了NBA比赛的视频和文字直播。但当球迷们没有时间看这些直播,或者用户只是想对一场比赛做一个大概的估计,当人们了解比赛情况时,NBA新闻就应运而生了。NBA比赛分为季前赛、常规赛和季后赛三个部分。季前赛每年10月举行,季前赛结束后,常规赛就开始了。每年常规赛在四月左右结束,接着就是季后赛,也就是NBA比赛的总决赛,采用主客场赛制进行。每场比赛至少包含四节,每节12分钟,如果前四节打平,比赛就会进入加时赛,每节5分钟,如果第一次加时赛打平,如果比赛还是打平,就会开始第二个5分钟的加时赛,以此类推。每节比赛都会有100-200个文字直播,展示当时的比赛情况,NBA比赛赛季期间,会有大量比赛新闻包含的信息,包括总览、比分描述、节动态以及首发球员等。

总览一般包括时间、比赛类型、获胜队伍、失败队伍、比分等,成绩描述比赛中表现较好的球员及其优异的成绩,各板块动态主要指各板块的比赛情况。在撰写NBA新闻时,记者或编辑需要盯着多个电脑屏幕,从多方面收集信息,汇总数据,撰写比赛新闻工作量巨大,而人工收集数据和撰写存在效率低、错误率高的缺陷。目前亟待发明一种利用计算机自动写作技术根据NBA文字直播的特点自动撰写新闻的方法。一种NBA比赛新闻生成方法,可以减少记者的工作量,提高记者的工作效率。技术实现要素:针对上述现有技术存在的问题,本发明的目的在于提供一种能够避免NBA比赛新闻自动生成方法存在上述技术缺陷的NBA比赛新闻自动生成方法。为了实现上述发明目的,本发明提供的技术方案如下:本发明提供的NBA比赛新闻自动生成方法,能够生成真实性高、逼真度高、生动性强的NBA比赛新闻,大大减轻了记者的负担,减少了记者的工作量,提高了记者的工作效率,能够很好的满足实际应用的需要。为使本发明更加清楚,下面结合附图及具体实施例对本发明作进一步的说明。

应当理解,此处所描述的具体实施例仅用于解释本发明,并不用于限制本发明。如图1所示,本发明提供的NBA比赛新闻自动生成方法包括以下步骤:步骤1):解析并存储直播NBA比赛的网站内容,提取比赛的基本信息;每条NBA比赛直播信息对应一个URL,例如ID为“”,则直播信息的URL为http:// //nba//.htm,则每节NBA比赛会有100-200条文本直播信息。文本直播信息中的数据分为四个属性,分别是时间(Time)、球队(Team)、比分(Score),例如:“05:21 火箭队 詹姆斯·哈登2次罚球命中,得1分 14-13”为一条文本直播信息,其中“05:21”代表本节剩余时间,属性为时间,“火箭队”代表当前现役球队,属性为球队,“詹姆斯·哈登”代表球员姓名,属性为比赛时间,后面的“14-13”代表当前客队与主队的比分,属性为比分;对于赛事新闻的整体概述,需要提取的基本信息包括比赛类型、获胜球队、失败球队、比分等,通过Jsoup解析工具对网站内容进行解析并存储。通过标签“2016-01-30 09:00:00 开始比赛”,即可获取比赛时间。通过比赛时间中的日期可以得到该场比赛的比赛类型,同样,通过解析HTML可以得到该场比赛两支球队的名称、两支球队每节的得分、总得分、该场比赛优秀球员的总得分以及首发球员姓名;步骤2):本发明对某一板块的多条文本直播信息进行预处理,得到包含该板块得分信息的文本直播信息集合;本发明以比赛中各板块的得分信息为主要报道内容,首先对不包含得分的文本直播信息进行过滤,创建三个文本直播信息集合,和,分别表示过滤前后的文本直播信息集合和过滤后的文本直播信息得分差集;然后,将某一节比赛中所有的文字直播信息添加到这个集合中,对于每一条中的它的Score属性值如果和上一条文字直播信息的属性值不同,则添加到集合中,否则不添加,这样就得到集合={w1,w2…wn},其中,n表示长度,wi表示一条文字直播信息{1≤i≤n};步骤3):将该节的文字直播信息集合分成起始数据块、中间数据块和结束数据块;对于每一条赛事新闻报道来说,最重要的是报道比赛最精彩的部分,而一条报道又是对文字直播信息集合数据的总结,因此需要将数据分块;文字直播信息集合中的数据块类型主要分为比分持续拉大数据、比分逐步缩小、反超和交替领先四种数据;每场比赛每节的文字直播信息集可以划分为三个数据块:起始数据块、中间数据块和结束数据块,对于某一段文字直播信息集中的起始数据块、中间数据块和结束数据块,需要确定数据块的边界并判断各数据块的类型,提取各数据块中的领先球队、落后球队、主力球员、表现突出球队的表现进行采集;将比分处理为将主队得分减去客队得分后加到结果中;起始一个数据块时,先取直播文字数据的前三分之一,分两种情况:第一种情况,如果交替领先数据(比分差有正有负)的次数大于或等于3次,则基本可以判定该起始数据块属于两队交替领先的范畴,以起始数据块和中间数据块作为该块的边界;先取最后一条数据直播的符号,再寻找和最后一条数据直播符号相反的第一条数据直播的点,的值为刚才得到的点的值加1;情况2,当交替领先的次数小于3时,找差值绝对值最大的点,如果最大的点不是第一点,判断当前领先的队伍和第一点的领先队伍是否相同,如果是一,比分继续拉大,否则反转,找绝对差值最大的点,如果最大的点是第一点,找绝对差值最小的点,判断当前领先的队伍是否是第一点的领先队伍,如果是一,则属于逐渐缩小比分的范畴,否则属于反超的范畴,找差值绝对值最小的点;这样,从直播文本数据的前三分之二处的点,用同样的方法找到类型和中间数据块与结束数据块的分界线,这样,一节比赛中的直播文本信息就成功分割成了开始数据块、中间数据块和结束数据块三个数据块;步骤4):从步骤3)分离出来的每个数据块中提取重要信息;对于每一个数据块,提取领先球队、落后球队、主力队员、表现突出球队的得分等重要信息,统计每个球队从本数据块开始到本数据块结束的得分情况nba比赛分为常规赛和,得分最高的球队为领先球队,得分最低的球队为落后球队,并统计本数据块中每个球队每个队员的得分情况,并得到主力队员的信息数据;步骤5):为每个数据块构建一个模板,将基本信息和重要信息填入模板中;对于每一个数据块,应该构建不同的模板。使用 HTML 构建模板。以下是交替前导类的模板:

第二节比赛,两队竞争愈发激烈,两队轮番领先,湖人在科比的带领下取得9分的领先优势。

步骤4)中提取的重要信息以键值对的形式保存,本发明利用该开源工具将解析后的HTML信息保存为树形结构,并根据重要信息改变HTML中节点的值,实现替换,完成重要信息的填充;步骤6):重复步骤2)至5),获取比赛所有版块的模板并填写每个版块对应的基本信息和重要信息,从而生成所需的NBA比赛新闻本发明的实验数据来源于搜狐网站,利用网络爬虫从搜狐网站NBA版块爬取100条文字直播,经过预处理nba比赛分为常规赛和,从文档中去除HTML标签,解析标签内容,利用本发明提出的NBA比赛新闻自动生成方法自动生成NBA比赛新闻。由于自动生成的NBA比赛新闻缺乏通用的评价标准,本发明采用人工评价的方法,请三位NBA球迷进行评价,采用三个评价标准,标准一是能否区分是否由计算机编写,第二标准是是否符合文字直播的实际情况,第三标准是语言是否生动。对于同一篇自动编写的事件新闻稿,如果三位球迷都认为不是计算机编写的,则认为不是。第一标准为计算机编写,第二标准也采用此方法。表示方法如下:=C/N(1);=R/N(2);=L/N(3);其中,和分别表示假真率、真假率和生动率,C表示三位球迷,R表示三位球迷都认为不是计算机编写的文章数量,L表示三位球迷都认为语言生动的文章数量。

根据本发明提出的NBA比赛新闻自动生成方法,首先对网站进行爬取,利用Jsoup开源工具解析HTML页面,通过解析获得新闻文章所需的基本信息,然后对文本直播进行预处理,分析数据,自动生成新闻。利用本发明的方法从自动生成NBA赛事新闻文章,如下所示:如图所示:北京时间2014年12月3日,NBA常规赛继续进行。公牛队主场以129-132不敌小牛队。以下为本场比赛概要:全场比分如下(小牛队先胜):25-26、34-21、21-27、28-34,加时赛:13-13、11-8。小牛队:蒙塔·埃利斯38分,钱德勒·帕森斯24分7篮板,德克·诺维茨基22分7篮板10助攻,替补出场的德文·哈里斯20分8助攻,替补出场的何塞·巴里亚13分。公牛队:保罗·加索尔29分14篮板,吉米·巴特勒23分8篮板7助攻,迈克·邓利维20分,德里克·罗斯18分10助攻,替补出场的尼古拉·米罗蒂奇15分。首节比赛开始后,双方比分非常接近,双方互有得分,小牛队在钱德勒·帕森斯的带领下取得4分的领先优势,但公牛队随即回敬一波7-2攻击波,取得领先优势,首节比赛小牛队25-26落后。

第二节比赛,小牛队打出26-10的得分,成功掌控局势,领先13分。吉米巴特勒的跳投成功帮助公牛队打破僵局,随后保罗加索尔和德里克罗斯也有出色表现。上半场小牛队59-47领先。比赛结束之后,小牛队领先对手11分,并控制了场上局势。随后,公牛队打出9-4的攻击波,将比分追至74-80。第三节比赛,公牛队74-80落后。第四节比赛,小牛队多点得分,取得6分优势。阿隆布鲁克斯的罚球帮助公牛队缩小差距,随后保罗加索尔和吉米巴特勒也得分。第四节比赛结束,双方108平,比赛进入加时赛。第一个加时赛,小牛队凭借着11-6的攻击波占据优势,领先3分。乔金·诺阿的扣篮帮助公牛队缩小差距,随后德里克·罗斯也得分。第一个加时赛以双方121平结束,比赛进入第二个加时赛。比赛中,由蒙塔·埃利斯领衔的小牛队一度取得4分的领先优势,不过公牛队马上回敬一波8-2的攻击波,取得反超。经过最后的混战,比赛结束,小牛队以132-129战胜公牛队。两队首发阵容:小牛队:蒙塔·埃利斯、德克·诺维茨基、泰森·钱德勒、钱德勒·帕森斯、贾米尔·尼尔森。公牛队:迈克·邓利维、乔金·诺阿、保罗·加索尔、德里克·罗斯、吉米·巴特勒。本发明以100条现场文字转播作为实验数据,以误真率、真实率、生动率作为评价指标,得到如下表所示的实验结果:表实验结果表C误真率R真实率L生动率文章数940.94890.89770.77从实验结果表中可以看出,采用本发明自动生成方法生成的NBA比赛新闻,误真率较高,也就是说,采用本发明自动生成的比赛新闻,会被误认为是人工撰写的,真实率达到89%,说明了本发明的有效性,而生动率达到77%也证明了本发明自动生成的新闻质量较高。

本发明提供的NBA比赛新闻自动生成方法,能够生成真实性高、逼真度高、生动性强的NBA比赛新闻,大大减轻了记者的工作量,提高了记者的工作效率。上述实施例仅表达了本发明的实施方式,描述较为具体、详细,但不能理解为对本发明范围的限制。对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干修改和改进,这些修改和改进均属于本发明的保护范围。因此nba比赛分为常规赛和,本发明专利的保护范围应以所附权利要求书为准。当前页 1 1 2 3

本文标签: [参考文献自动生成方法专利技术][idea自动生成构造方法专利技术][自动生成的方法存根专利技术][eclipse自动生成方法专利技术][idea自动生成接口方法专利技术][自动生成构造方法]