2016智库大数据报告

  • songliu
  • 2017-01-14
  • 3009

 

转载自:清华大学课题组《中国智库大数据报告(2016)》:



前言


  《2016中国智库大数据报告》是国内智库评价机构首次通过大数据评价方法和社交大数据资源对智库活动进行的综合性评价与排名。
  本报告通过对智库及专家言论在社交媒体中的大数据分析,推出了智库微信公号影响力指数、智库微博专家影响力指数和智库微信引用影响力指数三个分项指 标,以 及智库大数据指数(TTBI)的评价结果。

一、智库大数据评价的意义
1.1 研究背景
  2013年中共十八届三中全会提出要“建设中国特色新型智库”。2015年1月,中共中央办公厅、国务院办 公厅 联合印发《关于加强中国特色新型智库的意见》(下面简称“两办智库意见”),2015年12月,中央召开中国特 色新型智库工作会议,公布第一批高端智库试点名单,出台高端智库建设办法。加强中国特色新型智库建设已经成为推动国家治理体系和治理能力的现代化的重要战 略举措。
  在智库已经成为当前全社会关注的热点的今天,智库如何去影响政府、影响社会,仍然是一个非常值得研究的重要问题。这就需要学者深入考察智库的行为以及 他们 获得影响力的机制。从而,智库评价具有非常重要的现实意义。对于国家而言,有助于国家总体把握智库发展的形势、针对性的出台支持智库发展的政策;对于智库 行业而言,有助于智库行业规范和行为准则的建立;对于智库个体而言,有助于智库间在竞争、学习中发现不足、找准目标;对于决策部门、基金会、媒体、学术 界、社会大众而言,有助于展示智库行业、智库个体的公共形象。
  那么,如何观察智库的行为呢?学术界推出多种评价智库的方法,诸如向相关受众发放问卷的主观提名评价方法,向智库机构发放调查问卷的客观数据评价方 法,搜 集智库公开行为数据的大样本评测方法等等。纵观智库影响力测量和评价方法,我们可以看出比较清晰的从主观到客观,从定性到定量,从小样本到大样本,从小数 据到大数据的发展趋势。出现这种趋势的原因,首先是因为社会科学和现代信息技术相结合方法已成为大势所趋,但更重要的是因为基于社交网络新媒体的出现极大 地改变了各个现代国家的政治生态。智库为了追求影响力,也不得不迎合历史的潮流,主动接纳新媒体的传播方式,拓展影响政策的新途径。因此,对于智库评价也 必须紧跟政治社会发展的步伐,积极开发出新的获得智库数据的方法。智库评价的发展方向之一,就是通过智库及其专家在社交媒体上所产生的大量无组织的痕迹追 踪数据,探索智库影响力的“大数据评价方法”。

1.2 智库大数据评价的意义
  新的社交媒体,例如微信、微博、手机新闻客户端等提供了新的智库活动的痕迹数据。然而,微信、微博和手机新闻客户端上传播的相关信息,通过& amp; amp; amp; amp; ldquo;传统”的互联网搜索引擎难以搜索获得。因此,我们需要运用特殊的方法来抓取和获得智库在社交媒体上的活动数据,并对智库 活动进行分析。
  所谓智库大数据评价,就是通过对智库的活动和智库专家的言论在社交媒体里大量无组织的痕迹数据进行回溯、追踪、提取和分析,从而对智库影响力进行客观 评 价。采用大数据评价方法的优势在于:客观、无偏、实时、大样本。海量的数据规模能够提供相对客观和无偏的信息资源,而不断更新的数据来源也能够提供实时的 大样本数据资源。本研究将通过大数据的评价方法来实现对微博、微信、手机APP数据的覆盖,从而对智库的日常行为活动进行客观评价。
  我们希望通过对智库大数据评价的初步探索,寻找对智库行为进行全面动态分析的可能路径,未来实现更高频次的基于智库产品的大数据评价指数发布,激发智 库提 供更高质量的智库产品,为政府决策贡献力量。

二、智库大数据评价的方法
2.1 数据来源介绍
  本研究的数据提取过程得到了清博大数据公司(www.gsdata.cn)的技术支持。研究所使用的数据来源于包括11万个网站、1800万个活跃微 信公 众号、1.5亿个活跃微博账号、6155个论坛和93万个手机APP在内的基础大数据平台。
  基础大数据平台是一个实时、动态更新的数据库。数据库具有500台阿里云服务器的存储支持,每天从上述数据资源中抓取和存储300~600GB数据。


图1 基础大数据库的情况简介


2.1 数据样本集选取
  利用现有的几家智库评价数据库的智库名录,我们挑选了510家智库,根据“两办智库意见”的分类体系分为七 大类 智库(510家智库名单和机构类型见附录)。我们选取的510家智库中,大部分是社会公认的、主要从事政策研究的智库机构,有的则是发挥了一定智库功能的 各类半官方或社会组织。其中,有高校智库218所,企业、社会智库102所,党校行政学院智库36所,社科院类智库46所,党政部门智库101所,军队智 库2所,科研院所智库5所。


图2 智库大数据评价入选的智库样本分布


2.3 数据搜集方式
  我们以510家智库的全称与智库各种类型的简称作为搜索关键词,在微信、新浪微博中进行初步数据抓取和批量采集,构建基础数据库,再进行数据清洗与精 准匹 配。最后,我们获取了智库的微信公众号、智库微博专家以及智库在全部活跃微信公众号上的活动痕迹数据。采集的数据时间周期为:2016年1月1日至 2016年11月20日。
  1.    微信公众号识别与信息采集
我们从1800万微信公众号中,识别出149个有效的智库官方公众号,批量采集这些公众号账户信息和所有发文信息共涉及3.9万篇文章,7860.7万次 阅读量,37.9万次点赞量。
  我们批量采集了这149个账户的账户信息和所有发文信息,并对发文情况进行了最大阅读数、最大点赞数、首发文章等数据识别。
  2.智库在全部活跃微信公众号上的痕迹数据采集(微 信引用)
  我们从1800万个活跃微信公众号的当年发表的所有文章中,采集所有引用了这510家智库共计384万篇文章,共370M数据资料,并从中提取这些微 信公 号文章的数据字段,阅读数、点赞数、文章位置、原创情况等信息。
  3.智库微博专家识别与信息采集
  我们从实时监测的1.5亿个微博账户中,模糊识别提取4516个实名认证用户;再精准匹配来自143家智库529位微博智库专家,这些智库专家共拥有 6458万关注粉丝,累计171.5万篇微博文章数据。
  我们批量采集了这529个微博专家的个人微博账户数据字段和所有博文数据字段,提炼出这些微博专家当年发表15.1万篇微博,共涉及266.3万转发 数, 190.8万点赞数、109.3万评论总量量达30M的数据。


图3 智库大数据评价的数据搜集方式

2.4 智库大数据指数(TTBI)
  “智库大数据指数& amp; amp; amp; rdquo;(Think Tank Big-Data Index:TTBI)是由智库微信公号影响力、微博专 家影响力微信引用影响力三 个一级指标构成,每个一级指标下面有若干个二级指标。
  智库微信公号影响力的二 级指标为:公众号当年发布文章的数量加总、公众号当年所有文章的阅读数加总、公号当年所有文章的点赞数加总,公号发布文章的频次, 公号发布文章的容量等六个指标。
  智库微博专家影响力的二 级指标为:专家历史粉丝数加总、专家当年发博数加总、专家当年所有博文的转发数加总、专家当年所有博文的评论比例、专家当年所有博 文的点赞比例、专家当年所有博文的转发比例等六个指标。
  微信引用影响力(所有微 信公号推送文章中提到了某家智库情况以及这些文章的影响力)的二级指标为:活跃微信公众号中引用智库的文章数加总、活跃微信公号中 引用智库的文章阅读数加总、活跃微信公号中引用智库的文章点赞数加总、活跃微信公号中引用文章位置重要性等四个指标。
  最后,我们依据专家建议设计了相应的权重体系,对数据进行标准化和加权汇总,计算得到了每个智库的智库大数据指数(TTBI)综合数据。对二级 指标的赋权 和指标分层结构见下图。

图 4 智库大数据评价指标体系


三、智库大数据指数(TTBI)评价报告
  从智库微信公号影响力排名情况(具体见表1)可以看到,瞭望智库、中国城市和小城镇改革发展中心、凤凰国际智库在微信公众号影响力排名里名列前三,接 下来 下面分别是中国与全球化智库、盘古智库、国务院发展研究中心、河南省社会科学院、中国金融40人论坛、上海国有资本运营研究院、中国指数研究院等。
  智库微博专家影响力排名情况中排名前十的分别是(具体见表2):天则经济研究所、中国人民大学国际货币研究所、中国科学院、中国战略文化促进会、中国 科学 技术协会、中国社会科学院、中国软科学研究会、盘古智库、中国人民大学重阳金融研究院、中国青少年研究中心等。可以看出,微博智库专家影响力的排名和微信 公众号影响力的排名差别较大。
  智库微信引用影响力排名情况中排名前十名的分别是(具体见表3):北京大学中国经济研究中心、中国经济50人论坛、中国人民银行研究局、人社部中国人 事科 学研究院、中国指数研究院、北京大学国家发展研究院、中国人民银行金融研究所、中国金融40人论坛、中国科学技术协会、百度数据研究中心。可以看出,经 济、金融、财经类智库的观点往往受到各类活跃微信公众号的广泛引用。
  智库大数据评价指数(TTBI)排名情况中前十名智库分别为:中国科学技术协会、中国人民大学重阳金融研究院、中共中央党校、中国社会科学院、盘古智 库、 中国与全球化智库、中国金融40人论坛、第一财经研究院、瞭望智库和中国电子信息产业发展研究院。详细排名见表4。
 
表1

TTBI 2016:
智库微信公号影响力排名

注释:“文章数”是指该智库微信公众号当年发文数加总;“阅读数”指 该智库微信公众号当年所有文章的阅读数加总;“点赞数”指该智库微信公众号当年所有文章的点赞数加总; “发布频次”是指该智库微信公众号当年发布文章的频次(微信规则是,公众号每天限发一组文章;发布次数/365 天);“发布容量”是指该智库微信公众号当年平均每组发文的数量(每组文章限发8篇;文章数量/发布次数); “头条点赞比”是指该智库微信公众号当年每组中头条文章的平均点赞比率(头条文章点赞数加总/头条文章数)。
 
表2

TTBI 2016:
智库微博专家影响力排名

注释:“粉丝数”是指认证该智库的所有专家的当前粉丝数加总;“当年微博数& amp; amp; amp; amp; rdquo;是指认证该智库的所有专家当年发微博数量的加总;“转发数”是指认证该智库的所有专家当年所有博文 被转发的数量加总;“评论比”是指认证该智库的所有专家当年所有博文的评论比率(博文评论数加总/博文总数); “点赞比”是指认证该智库的所有专家当年所有博文的点赞比率(博文点赞数加总/博文总数);& ldquo;转发比”是指认证该智库的所有专家当年所有博文的转发比率(博文转发数加总/博文总数)。?

表3

TTBI 2016:
智库微信引用影响力排名

注释:“文章数”是指在所有活跃微信公众号文章中引用了该智库的文章数量加总;阅读数是指所有活跃微信公众号文 章中引用了该智库的文章的阅读数量加总;点赞数是所有活跃微信公众号文章中引用了该智库的文章的点赞数量加总;文章重要性是指所有活跃微信公众号文章中引 用了该智库的文章的位置重要性(文章数量/文章所处位置数加总)。

表4

TTBI 2016:
智库大数据指数排名

注释:数据收集方法和指标体系设计,参见报告第二部分。
 
四、研究展望
  2016智库大数据评价指数(2016 TTBI)是国内第一次运用大数据分析方法和社交大数据对智库进行的综合评价与排名。这仅仅是一次初步的探索与尝试,受于时间限制,本项目研究仍有部分分 析工作尚待开展。未来,我们将继续不断深入,完善基础数据、细化指标体系,为社会提供一个更加全面的智库大数据评价体系。
  可以说,基于大数据的智库评价,突破了智库客观评价的技术瓶颈,提供了我们对智库建设和运作新的认识角度。并且,它能够实时跟踪舆论动态,为政府决策 提供 参考。但是,我们也必须保持清醒,智库大数据影响力也不等于智库影响力,和当前其他所有智库影响力测评体系一样,智库大数据评价也无法与智库真正的决策影 响力完全画等号。
  只有在一个更加透明的决策体系里,我们才能更加精确地评价智库影响力。因此,学界长期以来探索更加全面地评价智库影响力的工作,其根本动机是希望推动 一个 更加开放和透明的政府决策体系的建立。