弦音

一种对信源重要度进行评级的算法(技术背景以及算法简介) | 弦音

一种对信源重要度进行评级的算法(技术背景以及算法简介)

技术背景:随着互联网的发展,散布在网络中的网站越来越多,站点里面的信源板块也越来越多,这些信源都可以被划分到某一领域。每一类信源又都会在自己行业领域内发挥作用,他们的重要度不同对行业的贡献度也不同,在很多场合人们更愿意优先使用重要度高的信源。如何对行业内信源进行重要度评级将成为大家所广泛关注的研究问题。

信源重要度评级,顾名思义,就是把信源依据其重要度划分为0-9十个等级,重要度0为最不重要,9为很重要。输入的是文章内容以及行业内关键词,输出的是已经评级好的信源。如何客观完整的表达出信源的重要度是信源评级的重点。

信源评级的准确度主要依据两个指标,一个是所属站点的重要度,一个是其文章内容对所属行业的贡献度。站点权重采用谷歌的PR值来标识,PR值全称为PageRank,用来表现网页等级的一个标准,级别分别是0到10,是Google用于评测一个网页“重要度”的一种方法。利用谷歌的PR值可以基本确定该信源在整个互联网中的重要程度。另一个指标需要人工整理出对该行业有贡献度的关键词,并依据贡献度大小为关键词标注权值,然后对信源内文章进行分词处理,筛选出关键词并按照关键词权重给予其信源权重。最后综合得到信源的整体评级。

稍后些时间,具体讲一下实现内容。

 

8 + 9 =

回到顶部