Feed on Posts or Comments 09 September 2010

Category Archive情报分析三点半



情报分析三点半 & 情报评论 admin on 25 Feb 2010

能源情报调查补充

上篇信息碎片如何汇集成为情报提到美国能源部两个与信息情报有关的部门:科技信息办公室(OSTI)和能源图书馆。我估计能源图书馆图书馆人数不会多(多少是相对的,对于基数在900到1000的数值来说,因为肯定存在误差区间,3%即30人以下以下都可以忽略不计),推算OSTI是100人左右。我同时给这两个部门发了邮件,问讯OSTI的雇员和合同工作人员人数,了解能源图书馆的功能。他们两家都很快回复了,有点出乎意外。

OSTI的雇员和合同工作人员一共是112,我推算的略少一些,不过还不算离谱。能源图书馆馆长告诉我,该馆确实主要为能源部内部服务,但是也接受公众的参考咨询。完全没有物理的图书馆,将来的服务全部都在网络上的,不过目前尚未正式开始服务。虽然我没有问人数,但是因为虚拟馆,所以估计不会超过10人。

顺便说一下,1998年OSTI主任曾经公开发表文章,呼吁建立美国“国家能源图书馆”,好象还看到资料说正式提交到国会去了,当然后来没有建立,只不过仅仅没有名份而已,千把人的一个实体加虚拟信息情报系统差不多是中国一个大情报所的规模了,即使不考虑中国人口是它的五六倍。

情报分析三点半 & 情报评论 admin on 23 Feb 2010

信息碎片如何汇集成为情报

刚刚写完对国家能源情报差距的问责,就发现其中有重要的遗漏。昨天仔细查了美国能源部网站,发现除了前面提到的能源信息局、首席信息官办公室、情报与反情报办公室三家以外,至少还有科技信息办公室(OSTI)和能源图书馆(Energy Library)与其信息情报能力有关。其中OSTI拥有全球能源技术领域相当于6亿页的文献和报告,提供数字化科技信息服务;能源图书馆是主要为能源部自身订购资料和能源部科技项目的信息服务。所以900人的人力资源显然不对了。

但是对后两个机构人数查起来并不容易,由于前三者都属于能源部一级机构,在人力资源部门的资料上可以查到。而OSTI属于“科学办公室”下属的项目,能源图书馆则属于“研究计划支持项目”的一个部分,所以没有人力资源报告。不过后者人数肯定不多,就忽略不计了(我给其网站发了邮件询问,但不指望它回),所以重点就查OSTI。

先查到一个OSTI简介中提到,去年(不清楚哪年)一共收到8千万次询问,如果平摊到OSTI每个人员的话,每分钟要回复12个(当然实际上绝大多数是网络自动处理的),这看上去可以推算出来,但是如何计算时间是个问题,假定全年工作250天,每天8小时,每小时60分钟,则计算出人数在56个,问题是这些假设无法得到确认。

在另一个几年前下载的能源部“技术信息管理Technical Information Management (TIM)”项目预算文件中,找到2000年这个项目的全职人员当量(FTE)为97人,在一个反映OSTI历史沿革的文件中得知其名称变过多次,2000年时叫技术信息中心Technical Information Center (TIC),两者不可能不相关(文字描述的功能一样),估计正因为是项目,不是固定办公室,所以在经费项目名称上就变成了TIM。但是2000年毕竟时间太早,所以再查到OSTI2009-2013战略计划,提到2009年比2000年预算增加3%(都用美元现值,所以可比),而且查到经费几乎全部是人头费用,包括工资、差旅和支持(后勤服务),所以可以比较有把握地推算出2009年OSTI的人数在100人左右。

这样的分析方法在情报工作中经常使用,我2008年就也以类似(但不一样)的方式把没有公布的美国能源部情报和反情报办公室人数推算出来(现在已经公布了)。虽然无法上教科书,不登学术大雅之堂,但是一来实用,二来也不很简单,至少花费时间,看得头昏眼花,老花眼睛度数又增加。

回到开头,现在我对美国能源部从事相当我们所说的“能源情报工作”的人力资源人数估计可以肯定在1000人以上。那篇主编卷首语也作了相应的修改。

人数当然不完全等同能力(再要做细可以查人力资源资料上的学历比例),但是美国人力很贵,雇个人基本上是用足的,所以可以拿来作为“代理”。顺便说一句,查了这个数据后发现,美国政府用纳税人的钱真是小心翼翼,从来不敢宣扬自己人多势众,怕给百姓骂死。不像我们这里能够搞定政府得到经费把机构做大说明“队伍建设”有功,证明自己有本事,所以往往要宣传。

信息化 & 情报分析三点半 admin on 06 Jan 2010

关于指标体系的补充说明

去年最后一个博文第二条“注意指标数值的饱和”有点问题,一直想补充一下。

指标用来进行两种比较,一是横向的,比如上海与北京比,与全国平均比,与亚太其他城市比;第二类是纵向比较,与自己比,与去年前年比。

关于那些技术进步迅速,很快达到饱和的测度,不能简单地转换为相对指标,只能弃用。相对指标是完全新的一种思路,几年前我在一次国际会议上报告过一个观点,就是对于信息化研究,沿用实体经济的分指标加权汇总可能不合适(实体经济也有饱和,例如报酬递减,但比较慢),因此建议采用对标(benhmarking)方法,世界通讯港联合会(WTA)的智慧城市(intelligent communities)就是采取这样的做法,不搞绝对值的指标,一律相对比较,设定六个指标,每个指标各城市排出相对名次,其好处是指标不必永远不变,可以根据技术的发展及时调整更新,我觉得最大的优点是可以突出各自的特点(各个城市,或其他比较对象,为什么必须一样?这是指标汇总难以避免的尴尬),就像高考的特长生,只看总分很可能会牺牲他们。

但是这样只能比出先后,对制订政策没有很大作用,所以纵向比较还是需要的,它要求简单可行(不强求全面)、定量可测(专家打分一般不合适),可以按照自己的特殊情况设立独特的指标。

所以说相对指标不是解决“饱和”的办法。

情报分析三点半 admin on 29 Dec 2009

建立指标体系需要注意的问题

在所谓“软科学”研究(实质是属于社会科学领域),指标用得很多,什么问题动不动就来个指标体系,它的好处似乎是“战无不胜”,没有数据就来个专家打分,随便什么问题总是能弄套指标出来,不像有些科研会失败,做不出结果来。

我在6月日的博文再谈数据问题里有一段讲到指标本质的认识,其实指标的应用中还有许多必须了解的知识,否则可能产生问题,我在看别人做的指标项目课题时常常看到有以下一些问题,值得讨论(本文早在几个月前就起草,一直没有写完,今天总算了结)。

一是注意测度(measurement)指标(indicator)和指数 (index)的区别和联系,其中测度是可以直接测量出来的的量,比如某煤矿的原煤产量,专家打分也可以算作测度。在实际应用中测度常常要经过转换成为指标,而指标的本意是“无法直接测度的概念的某种代理”(本人自己悟出来的“定义”),例如一年中国家财富创造多少无法直接测度,所以有了GDP,而这个指标是无数原煤、钢铁等经过货币计量的价值转换(否则无法加总)计算出来的。当然也有些测度可以被直接用来指代某个概念,所以同时就是一个指标。指数往往(但不一定)是有个基数的,或者是归一化处理的,最大值为1。

最近看到一个信息化指标系列,前几个是直接测度的值,但是最后一个却是引用来的一个指数,这就不合适。还有个信息系统评价指标项目直接把测度作为指标,我建议先把各种类型的测度(包括定标数据、定性数据等)转化为数值再列为指标。

二是注意指标数值的“饱和”。传统信息化指标将电话、家庭上网率作为指标,但是这些指标很快会到饱和值(不会100%,而是到90几%附近徘徊不前),作为分指标就不合适,对技术替代很快的项目选取指标特别要注意。对这类指标的办法是采用相对比较,即把同时代最先进水平列为100%,采取Benchmarking方法取得相对值,比如70%,到明年虽然我提高了数值,但是人家提高更快,也许我变成了60%,只要说清楚,这样也有意义。

三是指标必须“独立”,换言之,如果一个指标体系五个指标,其中两个是独立的,其变化不受其他影响,而另外三个是互相牵连的,“一荣俱荣”,请专家打权重分(目前实践中往往如此),因为相关所以会出现三个指标都打得很重要,如果这三个指标与另外两个正好相背,看上去好象三比二,实际的情况应该是一比二,结果就逆转了,出大偏差了。如果是大量数据构成的指标(比如有历史数据)可以用统计分析方法发现“多重共线性”,就是几个指标存在强关联,需要剔除一些,留下“主成分”

四是列入体系的指标要有适当的贡献。看到过一个指标设计,其中好几个在绝大多数情况下都是零,或是常数,就对指标想要“代理”的概念(往往是相对值)没有贡献。有人担心“不准确”,所以把体系搞得非常复杂,许多指标,还有一级二级,不仅指标越多越不准确(误差会放大),好的指标体系越简单越好,尽量把没有贡献或贡献不大的指标剔除才是本事。

情报分析三点半 admin on 11 Dec 2009

情报分析方法讲座接近尾声

今年2月份开始的情报分析三点半系列讲座已经进行了18讲(原计划20讲),年内还有一讲“文本挖掘”,最多加一两次案例详解就结束了。

这个讲座是为单位内部相关部门组织的,完全自愿,难得还有一批有兴趣的年轻人的坚持来听(也有几位对情报分析有兴趣的老朋友来客串过),但是人数大体趋势是越来越少。我自己也觉得越来越难讲,只能定位在为听众介绍一些可能有用的方法上了,仅仅是可能有用,而实际情况是凡比较象样的方法实际上我们搞的情报分析研究很少有机会用。

在所有的情报(信息)分析工作中,最常用的象样的方法是统计分析,但是我们很少有机会以大量数据作为工作的基础,还有专利分析等最近也比较热门,但是就“方法”而言,现在的专利分析分析基本上还是“整理和可视化方法”,基本上是靠工具完成的,在图情研究中文献计量也比较常用,但是它们所依据的数据库有限,所以“跳不出如来佛的手掌”,就这么几下子;而平日里还用得最多肯定还是什么都不是的“方法”,这是现实。我自己在研究工作中尽量会利用各种方法,也只是有机会用了内容分析、二次分析和元分析、形态格分析等方法,但这些都要一定的前提条件,机会也很少。当然未来最有前途,也有发展可能的是关于网络计量网络文本挖掘的一些方法群,但是目前我们的所谓研究基本上不属于探索未知的,不是真正的情报分析,所以英雄无用武之地,只有情报工作真正开展起来,才会真正重视方法,如美国陈忻均教授他们搞的那样。

18讲中也尝试了一些新的形式和方式,比如邀请其他人一起参与,有的不错,前面的博客(最热闹的一次“三点半”)里也讲过。此外也有专门的讨论课,但效果不太理想。

最近一位同样经验丰富的同事建议以后可以讲讲实际研究中的案例,例如自己做过的效果比较好的研究项目,自己是如何一步步走下去的,看来是不错,但是讲起来可能很难,有些是忘记了,主要的在于其中没有什么规律,对他人不一定有用,现在大家都时间紧,谁愿意陪你“回顾光荣历史”!不过会考虑一下这个建议。

情报分析三点半 & 新闻中的情报看点 admin on 21 Sep 2009

信息分析的好日子

大家都觉得今天信息泛滥而真知难得。在这种情况下一系列迹象表明最近各种各样的信息分析工作的好日子正在到来。

先说IBM, 有人可能注意到它在电视上做健康信息处理的广告,据说未来信息总量的30%将是与健康有关的,在这样海量信息目前唯有强化分析手段。我们知道健康是它最近的“智慧地球”战略的一部分。它不止是说说而已,8月6日《纽约时报》有报道说它在未来将重新训练或新雇4000统计分析师,另一方面,IBM在自己的本行:分析软件方面。更加不遗余力。7月28日宣布以12亿美元收购著名统计分析软件公司SPSS、再早些时候5月收购分析软件供应商Exeros,将其整合在Business Analytics Optimization Consulting业务里;同时收购商业智能和以及分析软件厂商Cognos、Ascential 、DataMirror、Alphablox等。顺便提提,IBM的网站上有竞争情报的网页:Competitive intelligence gives a competitive edgehttp://www-4.ibm.com/businesscenter/smb/us/en/contenttemplate/!!/gcl_xmlid=28448/

 国内情况也有类似迹象。21世纪初几年,以百度、易地平方等为代表的“搜索派”竞争情报软件热过一阵,现在可能要让位给分析工具了。〈21世纪经济报道〉9月21日31版发表IRI网络口碑研究咨询机构执行总裁李未柠访谈,“网络‘猎手’的营销密码http://www.21cbh.com/HTML/2009-9-21/HTML_SDG8KJR4KQUX.html ”。此人北大毕业,有广告公司经验,与传媒大学合作搞舆情分析指标,做过国家哲学社会科学课题,后来大概觉得与这些“事业单位”搞不来,自己开公司,为十多个政府部委和一些企业提供网络口碑的量化分析服务,目前公司规模估计不算大(不肯透露多少客户),不过我感觉其势头还是不错。

信息分析的好日子未必就是自称“竞争情报”一帮人的好日子,市场的力量很强,躲在半市场环境下,风险小,成就也只能微不足道,国家竞争情报在中国似乎应该是最容易搞起来的,但在官僚化行政化厚重阴影下则难以乐观。

情报分析三点半 admin on 21 Sep 2009

情报研究是什么?

周六为一个研究生班做讲座,有两点值得写一写:

1,什么是情报研究

下午我出了个讨论题:情报研究与以下各项工作的异同:政策研究、软科学、战略研究、智囊团。因为有三题可以选择,结果无人选这个题目,如果要我自己答。大意应该如此:情报是所有决策的第一步(Herbert Simon),所以所有的决策过程都会有信息收集及分析研究这个环节,并非所谓的“情报工作者”独有,但因历史的原因,军事、科技等有专门队伍做这个的专职人员,大部分企业也是,所以在在这些领域这个环节就叫“情报研究(或者情报分析、信息分析等)”,而一些其他领域是兼职做的。其中的关键点是,情报研究不是独立学科(同样操作许多别人也在做但不叫情报名字,理论方法也并非独特),只是分工,一种职业而已。由于是专门做这个的专业工作者,情报人员比较熟悉信息源,掌握信息分析、判断、整合的方法(有些方法一般知识工作者不常用),同时立场一般中立,无利益牵扯,特别长于跨领域和国际信息。以此区别于类似的其他工作。

2,数据素养仍然是问题

在讲分析前随手举例了两个数据陷阱的例子,原以为很容易被学生揭穿,结果并不如想象。

例一,平均水深到膝盖,却淹死了人(台湾08年出版的某揭露“数据骗人”书作为宣传的)。这个应该不困难,无反应或许是其他原因。

例二,30%车祸是持驾照三年以下者所为,所以新驾驶员特别容易闯祸(最近电视新闻报道,大意)。稍有难度,关键是能不能证明持驾照三年者占所有驾照者比例小于30%(考虑到私车近年急剧增长,很难说),否则推论无意义。

所以称职的情报人员在面对信息时应该比一般人多点警惕的眼睛。

情报分析三点半 admin on 15 Aug 2009

最热闹的一次“三点半”

本周活动特多,周二是情报工作座谈会,大领导来讲了些令人鼓舞的话;周三与南大沈老师一起为干部培训讲课;周四是台湾周延鹏的知识产权座谈会,很遗憾身体有些不适只见了面没参加,内容据说很不错。这里说说周五的“情报分析三点半”。

按计划本次是网络计量方法的“案例详讲”,因为这方面我自己几乎没有做过什重要的研究,底气不足。于是就想出来叫两个年轻人来讲,一是上次在我讲座后提出意见和改进方案的小曹,讲通过门户网页链接做竞争分析;另一位是与外国专家合作做过好几个项目的小杜,讲其中一个网络链接分析电讯企业竞争态势。人都选得不错,证明就是这次讲座是“三点半”开讲以来最热闹的一次,讨论和反馈最多。我猜想一个原因是我在会上说的,老头子站在台上别人不大好挑战,而这两位都是同龄人,少顾忌;当然还有的原因是内容,网络是年轻的,与年轻人最匹配,共同语言多,他们讲课后被听众当场预约以后进一步深入交流。

这是首次以外人为主参讲“三点半”,以后只要有合适的机会应该可以再来。

两位的主要缺点是表达方面的,先说讲稿。曹开始准备的讲稿太技术了,没有注意听众要什么,我提了两次调整的意见,虽然好多了,但还是点痕迹。我们讲方法不是讲方法的研究,一定要基于情报研究,不在乎方法本身的完美,而在乎能不能满足情报分析的需求,着重报告在实际运用中遇到的问题和解决的办法。具体的案例听众不一定的感兴趣,但是用方法的“途径Approach”,以及怎样解决实际问题中遇到的“非技术”问题,往往很有意义。杜的讲稿问题不一样,主要是只讲了过程,对原理讲得不仔细,自己懂与要讲得别人懂显然是不同的,后者要难得多,所以有“自己有一桶才能给人一瓢”之说,甚至自己有了一桶还未必自然就能给人一瓢。

讲稿其实是演讲的思路或“策略”,有了好的思路策略还要口头表达,两位经验不足也是明显的,这没有什么办法,只有自己认识到,然后多实践,单位里机会不是太多。本来在大学或研究生阶段应该打好基础,但是我们的教育没有功夫管这些。据说现在一些好学校都蛮重视表达,不过原因说出来难为情:因为要到外国去读书,特别是想进名校,一定要看这个。

媒体观感 & 情报分析三点半 admin on 08 Aug 2009

公安真实破案的可视化方法

可视化是近年来信息表达的一个前沿和热点领域,一些信息分析工具就是因为可视化做得好而成为卖点。在学术刊物看到的可视化常常是计算模型,在市场上常常看到软件工具,而在二者的背后其实是人类认识世界途径的回归。

怎么讲?人类眼睛获取外部信息,并非先“翻译”成数码,例如坐标或其它形式的数据再存储在记忆体内,而是直接获取、存储和理解图像信息。但是早期的机器信息处理只能对付数据,所以只好将精彩的画面活生生地“解构”成枯燥无味的数字(在这里数字化不是一个美妙的字眼)。而可视化方法的出现实现了人类直接处理图像信息As it is(突然想到这句十分贴切的英文表达),甚至本来“看”不见的也可以变成看得见。这个背景,只阅读学术文章是很难体会出来的,昨天(7日)晚餐时看到上海电视台“东方110”节目,介绍了一个上海公安破获道路诈骗案的全过程,我觉得从中可以领会可视化朴实的奥妙。

上海某地区连续发生在道路上丢弃假钱(外包一张百元钞里面全是冥币),引诱路人,然后趁其不备偷盗他们的财物,案件数量非常之多(破案后交代有200多起),开始没有头绪但是公安后来将这些案发地点标在一张的大地图上,突然发现密密麻麻的点分布为一条均匀的弧线,而这些点在弧线切线的垂直线(就是半径)基本上聚焦在一个点上,进一步分析这个半径是自行车2小时的车程,与刑警们估计的罪犯既要“兔子不吃窝边草”,尽可能离开聚居点远,又要干完坏事及时逃回来相符。就一下子把他们的聚居点找到了,加上ATM录象表明诸多案件为同一伙人所为,最后顺利破案(其中有趣的细节很多,但篇幅有限,与可视化无关的只好略去)。

这就是可视化的魅力,非常简单直观,虽然它无法确证什么,发现线索是立了大功的,尤其在事件数量较多的情况下,有相当大的可靠性。当然,世界的事情并不都是那样靠眼睛直觉可以判断出来,所以还是要复杂的数学计算和软件来帮忙。

以往对刑事警察破案的印象多半是抽着烟,坐着讨论或下现场调查,现在看到他们科学的一面,真是不多见。不过我也在想未来的罪犯看了节目后会不会更加狡猾,比如,就是不按照你设想的规律来干坏事?是有可能的,这类节目应该不会经常这样展示细节,所以我看到的这集是蛮宝贵的。

媒体观感 & 情报分析三点半 admin on 31 Jul 2009

数量金融学报道中的”华人歧视”

金融创新与数学有不解之缘。1998年那次小的金融危机,一赫赫有名的对冲基金公司长期资本公司管理(LTCM)破产,引出其中两位获1997年诺贝尔经济学奖的董事,他们获奖的重要贡献就是以数学方法对冲基金定价的理论研究。 

华尔街有不少中国人,早期大陆去的两类人比较多,IT工程师和数学家,后来越来越多的则是MBA毕业的正规路子。本次金融风暴如果说华人中最出名的恐怕算是一位叫李祥林的精算师,他南开经济系毕业(陈省身的母校,那里数学一直很强),后去加拿大留学,80年代后来当过美国财政部长的罗伯特•鲁宾当时在高盛,他从MIT引进了经济学家费希尔•布莱克(Fischer Black),此人后来搞出了著名计算风险的布莱克-斯科尔斯公式 (Black-Scholes formula),为美国金融衍生品后来的疯狂大大助了把火。李祥林就在那时也被招募进了华尔街。

蹊跷的是,当这个公式为华尔街招来大笔财富的时候,那些大媒体上根本没有提到李祥林的名字,然而到了本次金融危机,全社会追究那些应该为此负责的人时,David X. Li(李祥林)的名字赫然出现在一系列文章(见下列三篇)的头条,据说他的Gaussian copula function(高斯联结函数)比1997年得诺奖的那两人还要厉害,所以本来可能获诺贝尔奖。还说Black-Scholes formula中李的贡献要占一半,我奇怪那为什么不叫 Black-Scholes-Li或Li-Black-Scholes formula呢?

 最近美国哈佛的黑人名教授与白人警察的纠纷闹得沸沸扬扬,其实我觉得这些关于李祥林的报道恐怕也是同样原因(有些报道还特地指出李目前已经回到中国)。那些人脑子有习惯性思维,坏事总是外面人干的。不过我也觉得我们无须”义愤填膺”,因为在我看来,出了事情就怪罪外人其实是美国走下坡路的迹象,健康的民族心态不应该这样。

 有关文章参见:

《连线》WIRED MAGAZINE:2009.03.17

  • l Felix Salmon: Recipe for Disaster: The Formula That Killed Wall Street 02.23.09上载(杂志该期首页上的文字是The secret formula that destroyed Wall Street P=Φ(A, B,γ))

英国《金融时报》接连发了同一作者的两篇:

  • l Sam Jones: The formula that felled Wall Street

Financial Times, April 24 2009

  • l Sam Jones:OF COUPLES AND COPULAS

Financial Times, 2009-05-07

情报分析三点半 admin on 29 Jul 2009

网络计量分析的两个话题

28日“情报分析三点半”讲的主题是“网络计量方法”。时间又超了,当然那个早不是话题了。两个话题一是挖掘案例;二是讲课以后的反馈。

讲课时找案例最难,听的人最要听案例,但是在这个什么都过剩的时代,案例是大大的供不应求,正式发表的,像样的基本厥如。最理想的是讲自己做的,我当然会尽量找自己做过的讲,但是一个人的亲身实践不仅非常有限,而且通常难以满足讲课需要(例如这次讲了6个例子只有两个小例子是我自己做的),因为真实世界本身总是不完美的,那种什么一条情报救活企业之类的只是某些人的瞎吹加上媒体的无知。有个发表的案例看上去很美,我也在讲课时介绍过(当然说明具体出处),但多少有些实践经验的总是会怀疑那些产品降价的销量弹性数据怎么可能那样细致具体,况且又是一个产品快速升级的行当,我的判断是半真半假,当然已经很不错了。

我认为有个弥补的办法就是通过公开找到的资料自己挖掘出案例来。以前讲过我曾经以十几页简单的泡泡解读出一个不错的案例,本次又有个例子,那是一个最接近企业情报分析的研究(其他大多是学术研究,研究网络本身规律),作者我认识,有真的情报工作经验,当时在新加坡南洋理工,现在回美国了,她给了我一个泡泡,看不懂,后来又在网络上查到她的文章,有些明显是与这个工作有关的,结合起来慢慢看出点她的思路,当然还是有些空缺(一定会有的),大体上有点像了。

现在大家在发表文章中看到的案例,大多不是真实世界的东西,其实属于“示范(demo)”,虽然像模像样,作为学生教育(研究生恐怕也勉强)可以,但是对实际工作者来说,让大家知道真的东西是怎么样的非常重要。

话题之二是我的一个“软肋”,在讲网络链接分析时作为链接基本知识我用搜索引擎计算了上图和国图的“链入(Inlink)”,这当然是很简单的,但是我实在缺乏真实链接分析的经验,匆匆忙忙做的,刚刚散课就有人提醒我把上图的主要门户搞错了;今天又有一位自称新人的(我确实不认识,人和名对不起来)发了一个长长的邮件,很内行地指出了我采用的搜索引擎不合理,他对这两个主要图书馆的链接统计了,还深入分析了一下,有些结论很有意思,还通过链接分析为基础为我们自己网站如何提高“显示度”提了具体建议。非常好的反馈,我认为这是对我讲课最好的回报。下班时才看到,还来不及仔细研究,但是我一定会转给管事的人,有可能的话我很想鼓励这位“新人”再做得完整些写成文章发表,这比短斤缺两地贩卖外国文献上的概念更有价值。

记得昨天讲课最后我说尽管情报分析领域经验很重要,但是在网络计量分析这个方法上,年轻人决不会“输在起跑线上”,绝对可以比我这样的老头做得好。这句话看来是灵验了。

情报分析三点半 & 情报评论 admin on 07 Jul 2009

“反事实测度法”消失了吗?

多年前一方面兴趣仍然广泛,另一方面可以看看的资料还不像现在那样泛滥,所以那时浏览的范围很宽,记得先是在一本经济研究类的刊物上看到“反事实测度法”的介绍,觉得有用,Paul Samuelson著名的《经济学》教科书中文版上将这种方法翻译为“计量经济史学”。后来1993年度获得诺贝尔经济奖(其实不是严格意义的诺贝尔奖,正规全称是”瑞典银行经济科学诺贝尔纪念奖”)的Robert William Fogel 和Douglass Cecil North,提到他们采用了”反事实测度(Counterfactual measurement )”方法颠覆了一些本来大家都习以为常的”认知”,比如美国历史上大铁路的建设对促进西部开放贡献巨大。更加具有争议性的是,在1974年出版Fogel与他人合作出版的著作中论证了奴隶制在经济上是成功的,奴隶制被推翻是因为道德上的问题而非经济因素,这与我们平时相信的”生产力与上层建筑”理论不符,这样这个方法影响就更大了。维基百科英文版(http://en.wikipedia.org/wiki/Cliometrics)对此有详细介绍。

不管怎样我读到这些内容非常感兴趣(直到现在还记得就是例证),那时我正在关注这些运用数学的社会科学,高兴的一是学到了一个新的术语Cliometrics(前半Clio希腊神话中司历史的神,后半metrics指测度,计量的意思,许多”计量学”术语都有这个后缀;有点诡谲的是维基百科中还有个类似的Cleometrics,意义也差不多,也是借用了司史之神的名义,Cleo也许是Clio的变种,但那却是一种”马克思主义的史学方法”,特点是重视历史数据);二是因为我发现自己在硕士研究生论文中采用的方法就是”反事实测度法”,为我自己琢磨出来的方法终于找到了”根基”而高兴。

反事实测度法实际是也是一种Approach,而不是一般意义上的具体方法,它只指出一个思路,具体怎么做要结合具体问题进一步挖掘。从原理上说很简单,就是假设某个历史上并没有发生的事件是发生了,那么根据现有的数据和事实进行推理,想象事情会变得如何。比如那个奴隶制的问题,就是假设在美国历史的哪个阶段没有出现这样的奴隶制度,在当时的生产力条件下生产率应该怎样。这样的分析如何做到科学,让人信服是个很大的问题,所以在用于解决具体问题时还需要细致的设计。

我在研究生论文中用的方法与其十分相似,然而受到的是另外一个学科的启发。我在大学读物理时曾经看到过一个计算晶体结构变化的公式,它的思路是结构变化的量可以将”如果结构不变”所得到的数值,减去”实际上因为结构变化”而出现的真实数值,得到的就是结构变化的量度。在计算”技术进步中结构变化的贡献”时,我就是采用了类似的思路,先计算”如果产业结构不变应该怎样”,然后减去”产业结构变化了的当前情况”,得出的就是”结构变化的贡献”,看到以上说的那些资料,我一想原来这就是”反事实测度法”呀。老实坦白本人决不是大学里的好学生,物理系毕业的考研究生时普通物理居然不及格!因其他成绩不错才得以录取,但是我却记住了这个公式背后的思想,在研究生论文中得到了成功的运用(这证明了文理确实是可以相通的),MIT出身的系统工程专家张钟俊院士是我们的答辩委员会主席,我的论文得到了他的高度评价。现在想想物理系的毕业后转行的占绝大多数,当年的好学生以后有多少有机会用上课堂里的知识?这样来说自己还不算是太坏吧。

 方法是干什么用的?我看到有些文章里用的方法是点缀用的,还有的是为了证明自己玩弄(manipulation)数字能力的,甚至还有纯粹拿来吓唬人的。但是两位经济学家用了方法得到了否则难以得到的结论,这才是方法的真正价值。不过这种Approach至少在国内还是少有人问津,陈超和我合作于2007年在《学习时报》上发表的短评”以市场换技术没有过时” 中提到过这个方法(http://www.china.com.cn/xxsb/txt/2007-03/13/content_7952984.htm),而今天用搜索引擎查中英文”反事实测度法”出来的结果几乎都是这篇文章,不知道该高兴还是悲伤。不过后来发现主要是加了”测度”之后就查不到了,如果单单查Counterfactual的话还是可以找到许多有用的资料,包括thinking、methods和analysis等搭配。所以这个方法没有消失,有兴趣的人可以挖掘一下。作为一种研究问题时的思路,它应该是有广泛的价值。

情报分析三点半 & 情报评论 admin on 02 Jul 2009

在国外生活过人更有创造性?

欧洲最好的管理学院之一,法国的INSEAD在其网站INSEADKnowledge 上(http://knowledge.insead.edu/Howtostimulatecreativity090612.cfm?vid=255) 发表了一个研究成果的报道,该院助教授William Maddux和美国北西大学管理学教授Adam Galinsky合作完成一项研究,他们发现有国外的经历,特别是在国外长期生活的人一般具有较强的创造性,其中的多语种的能力语言以及适应性二者与创造性和企业家精神(entrepreneurship)都有强而顽健(robust)的相关性。研究者指出,一般在国外出差、或者虽然在国外生活,但办公室住所两点一线这样的经历就并不起作用,他们发现在差距很大的环境中的适应能力是产生创造性的关键。这个研究结论听上去颇有道理,并不出乎意外。

 

其实所有的跨国公司在培养人才中就已经这样做了,比如有些金融机构咨询公司做到一定年资后会有机会到国外去工作一段时间(1-2年)。又如美国一个著名的罗德奖学金就专门资助获奖者到英国学习一年,克林顿年轻时就得过,那就难说是“学习先进经验”了,准确地说是到不同环境里学习。

 

这个研究证明了在完全不同环境下生活的经验也很重要,过去我们推崇的是在国外埋头苦读苦干的精神,现在可能还要注意融入别样的社会。我们国家以优惠的政策吸引”海归”,即使从创造性这点来说也是对的。当然中国需要”海归”还应该有其他更重要的原因,比如这些人在发达国家受过较好的教育,特别其中部分在国外先进的研究机构或公司做过的经验等。我想许多人都会有体会,归国专家,尤其那些回来不久的专家的意见往往比较尖锐,而国内(包括曾经留学但在内地时间很长)的专家,即使在专业上非常强,说起话来还常常是瞻前顾后的。

 

不过促使我仔细阅读这篇报道的主要原因还是在于想了解他们的方法:研究者们到底是如何测量出对象的创造性强或弱?研究者们用的方法是心理学测试中的”Duncker蜡烛任务”,方法是给被测试者一合图钉、一把火柴和一根蜡烛,要求他们利用这三样东西把蜡烛订在墙壁上,但是要让蜡烛点燃后,烛油不掉下来。 正确答案(即表明被测试者具有创造性)的关键一着应该是将图钉全部取出来,然后用空盒子置于蜡烛下,测试方法的发明人认为这里的创造性表现为将图钉盒应用到了原先没有设计的功能上面了。他们认为这就是创造性的表现。

 

看到这里我大为惊讶,我没有学过心理学,但听说过一些心理测试的量表,但是先看到结论再知道这个方法不禁对这样研究的”科学性”打了折扣。但是经验告诉我对自己不懂的学科先别忙批评,也许心理学就只能够达到这样的地步。与大自然相比,人和人类社会实在太复杂了,比如有人以物理学中”测不准原理”来看社会科学是永远”测不准”的,不是水平高低问题,而是你测量的行为影响到了对象。比如股市预测,也许股评家们真的厉害,说得极有道理,但是听他说后股民们会改变自己买卖股票的行为,于是股评家的预测就干预了股市的运行,本来应该出现的情况就不出现了。自然科学为什么人的干预不起作用(严格说是干预的作用可以忽略不计)?因为在尺度上,小到基本粒子(纳米是10-9米),大到宇宙天象(太阳到地球是1.5·1011米),人类是难以影响的,只有在量子力学里,科学家企图测量微小物质粒子的运动时才会出现”测不准”。

 

这样说了一大堆话还是没有解决这个结论是不是科学的问题,我觉得问题倒不在于一定得对这个做判断(至少我是没法做),重要的是”科学地”认识这个研究,换句话讲,如果媒体知道了,想要报道这个研究成果,就应该不仅报道其结论,也要介绍他们的方法,让读者自己去判断。就像大学排行榜等一切类似东西一样,把方法过程讲出来。遗憾的是多半媒体现在不会这样做(比如我5月31日一篇博文”三大技术重塑世界经济?《参考消息》的误导”里谈到的情况),我看这方面的科学素养还需要大力培养,而且远远不止记者们。

情报分析三点半 admin on 16 Jun 2009

有用的数据分析

《经济观察报》2009年6月13日有北京大学国家发展研究院中国经济研究中心的李玲教授和北京大学光华管理学院的刘国恩教授关于新医改的一场辩论(日期和版次记不清楚了)http://finance.ifeng.com/topic/xylgg/news/hgjj/20090613/788779.shtml

他们是新医改争论中观点不同的两位关键人物。李玲是国内医改中政府的重要智囊人物,海归。她的观点简而言之是主张加强政府作用的,曾经给中南海讲过课,现在的医改比较多地采纳了她的意见,而北大除了这里的刘教授外,中国经济中心的主任周其仁似乎也与她的观点相左,我在上海听过李玲的报告。因为关心补贴供应方还是补贴需求方的争议,所以对他们的争论颇有兴趣。但是这里要谈的不是医改(对此我只有听的份),而是其中一个关键数据的问题。

李玲在辩论中提到“美国的医疗费用占GDP的17%,居于全球首位,但它还有近20%的人没有医疗保险,而且美国的健康绩效,即人均预期寿命和婴儿的死亡率,都在发达国家中排在末尾”。

刘国恩对此回应“批评美国模式的人,十有八九会拿出一张大家熟悉的图,展示美国的人均寿命和婴儿死亡率在发达国家中的情况之差,以此证明美国的经验是万万学不得的。但是,人均寿命、婴儿死亡率等衡量健康的主要指标,在多大程度上是应由医疗服务一项负责的?现代医学的共识是,人口健康的决定因素有四大类:基因、环境、自身行为与医疗服务,最后一项的影响程度不足10%。我们不能以上述的数字来证明美国医疗体制的不成功”。

巧的是刚刚看完这篇文章,正好读到福布斯(Forbes)中文版2009年6月一期中刊物出版人Steve Forbes的一篇短评:且慢为美国医保体系“开药方”(18页,中文电子版没查到,英文版标题为Don’t Doc American Health Care,http://www.forbes.com/forbes/2009/0525/013-opinions-steve-forbes-dont-doc-american-health-care.html),其中对李玲提到的美国人均寿命和婴儿死亡率问题(在西方也广为流传)进行了批驳,他引用National Center for Policy Analysis近期的一个报告,认为这个美国这个数据的统计口径与其他国家有很大差别,平均寿命也有类似的情况,这里不详细转引了,所以他的结论是美国的医疗保险制度不像人们想象的那样差。要是刘教授有这样的信息,他说起来就会更加气粗一些了。

当然对这个问题见仁见智由专家们去论吧。我要说的是数据分析实在是太重要了。在情报分析三点半系列讲座中我曾经谈到至少台湾就翻译出版了两本书讲如何对付“数据骗人”。(《如何用数字唬人:用常识看穿无所不在的数字陷阱》,作者:布拉斯兰和迪尔纳。(台)大是文化,2008年9月30日;《别让统计数字骗了你》,作者:赫夫。(台)天下文化,2005年1月31日)

在情报分析的实际中分析收集到的信息资料,对其中的数据进行分析判断非常重要,常常可以发现别人忽略的关键问题,而且结论是很有说服力的。

我当年的硕士论文其中就有一部分是数据分析,后来还写了篇文章“数据分析方法在情报研究中的应用”(《情报学报》, 6卷1期, 1987年2月, 56-59页),其中举了个自己在参与能源模型研究中遇到的实际例子:一份兰德公司近300页的报告,通篇就是分析美国两个机构对原油储量的估计相差越来越大的问题,找出统计口径、方法不同等原因,最后整合成为一个统一的估计值,这就是情报分析,也是真正的情报工作。可惜今天浮躁遍地,愿意干这样活的人越来越少了!

 

 

情报分析三点半 admin on 08 Jun 2009

情报分析方法:Approach和Methods

好久没有写情报分析三点半的博文了,其实话题是有的。这个系列讲座开始时我以为比较容易,因为以前有讲课基础,现在发现困难要大大超过原先的估计,实际上每讲的备课要花费许多时间。原因有几样,其中包括离开具体研究岗位时间较长,新的实践少,有些案例太老了,但是找不到可以替代的;数理统计基础不够扎实,线性代数也好长时间没有操练,所以要看懂一些案例、细讲一些方法就比较累。但是主要的问题可能是另外一个类型的,就是随着讲课的进程(现在已经讲过了7讲),我发现我自己几年前总结出的情报分析方法的整个结构可能需要做大的调整。

我在方法的概论部分曾经谈到中文的“方法”其实包含着有差别的几个不同概念,在英文里可用approach、mehtods和tools(technique)等术语来表达。随着课程讲下去,这个差别越来越体现出来。比如对我原来那个“体系”所涵盖的10大类100多种,实际上难说是情报分析的方法,我现在甚至怀疑究竟有没有纯粹情报分析的方法!

问题就出在那100多种方法基本上属于Methods,就好比微积分,它可以用在物理、生物甚至社会科学,但是你不能叫它物理方法或生物方法,当然有个“数学物理方法”,大概接近“情报分析方法”一类了,而我讲的情报分析实际属于Approach层面,或者说是各种Methods在解决情报问题时的Approach。

那样说有点玄乎,还是举例来讲。正在备课的第8讲“文献计量方法”就是一个很好的例子,文献计量好像被认为是典型的“情报学方法”(实际是图书馆与信息学LIS的方法),专著我手头就有好几本,发表的文章无数,网络上随便搜搜边可以找到一大堆质量不错的PDF文件,但是基本上是一小部分讲原理和技术,一小部分属于LIS应用加上一大部分是评价方面的应用(这两方面是Approach,但不属于我所定义的情报分析),我要想找情报分析方面应用的例子就非常困难。即便比较接近产业与技术情报的专利分析,你可以看到的应用基本上是Methods层面上的,拿人家的商业化工具画了张专利图,那就是情报分析了?而找到的一些基本上属于情报分析的案例,则往往相当复杂,涉及其他许多方面知识,有时是看也看不懂,而我认为真实世界有效的情报分析大概就是这样的。

为什么备课难,就难在几乎要推倒以往的讲稿,method或technoque或tool不难讲,无数参考资料,而难在重新找接近情报分析的案例。例如文献计量和内容分析我在20年(整整20年!)前搞的那个Jetro技术情报的分析确实是属于情报分析,但是在学术圈子里几乎没有反应,引用很少,而且实在太老了,但其他新点的案例实在难找。

不过世界上的事情往往也总是有两面的,正因为难,所以挖掘出来的东西才会有一点点价值,如果每个人都抄一样的冷饭,还有什么意思!

情报分析三点半 admin on 25 Mar 2009

科学地图

昨天下午“情报分析方法”讲课时提到《参考消息》(应该是24日,也可能23日,我现在手头没有)转载了《纽约时报》文章,提到美国绘制科学地图,其方法是最近科技情报领域非常活跃的,本来想查纽约时报或文章中提到的“第一公共科学图书馆”一个虚拟图书馆,后来想想就直接查吧,找到了可能是科学地图的正式网站:http://scimaps.org/index.php

网站是印第安纳大学图书信息学系建立的,内容非常丰富,不仅可以看一些科学地图,包括专利图(Taxonomy Visualization of Patent Data),还链接了许多相关著作,包括Eugene Garfield几篇早期文章,主要作者是W. Bradford Paley等

情报分析三点半 admin on 21 Mar 2009

“情报分析方法三点半”第3讲内容提要及备课感想

  按照计划情报分析方法三点半第3讲(分析方法概论二)将于24日下午开讲。内容提纲如下:

分析方法的运用情况

发展趋势和最新动向                                                                                                                

情报分析方法的一些著作                                                                                               

情报分析方法的分类                                                                                                              

如何学习分析方法

今天下午听说报名已满座,所以预告的作用不大了。想谈谈备课中的一点体会。

在准备讲稿时查阅了一些资料,都是已经收集到的,但以前没有时间仔细看。发现这几年情报分析真的发生了大跃进,主要是网络信息和智能技术的贡献。

2005年包昌火先生组织主编信息分析丛书,就邀请我写一本信息分析方法,我那时在分析方法的培训班上讲过课,进行了一些归纳,反映尚可。我都起草了出版合同书,但最后放弃了。主要原因是我觉得在位时精力难集中,时间不是完全没有(当官决不是真的那么忙),我干活需要较长的“预热”时间,也就是要有大段时间才能进入角色,而这在当时恰恰是奢侈品。但是我一直在收集资料,东西收得越来越多,书却越来越不敢写,甚至怀疑自己得了“资料总是不够综合症(我自己发明的疾病名称)”。原因之一是近年的发展我已经跟不上了。比如每年一次的“Intelligence and Security Informatics”国际会议(我每年收到通知但是从来没有出席过),我浏览了其中一年会议录的电子版,其中大量是情报分析研究的前沿成果,读起来很吃力,觉得自己至少再要去读个硕士!
.
上海科技情报所在情报分析研究方面应当说国内是比较有优势的。但是在方法研究上,特别是赶上信息技术与情报研究结合潮流方面,这些年来明显不如国内其他有些单位。我在位时一直同时分管这两个部门,深感有愧(其间曾经想调个IT干将到研究部门,但因我无法控制的原因未成)。由于缺乏实战经验,就是有时间看资料甚至读个学位也是不够的,在这个意义上,我经常自称“实践派”是有片面性的,只看到不少发表出来的学术成果没有实际意义,却对真正有意义、与工作相结合的方法和工具研究有所忽略,而正在这段时间,人家已经走得很远。
.
当然不应该走极端,我认为作为一个应用单位,我们的定位大体是不错的,比如专利分析,要说方法的先进性,我们基本属于“老土”,但是确实做了不少实际的工作,完成了交办的任务和不少课题。但是我们这样一个大单位,保持一支小而精的队伍,跟踪前沿,与技术供应商合作,盯着国内外同行的进展,不仅必要,而且是可能的,我们不缺这样做的资源。
.
书还是要写,但是我已经决定侧重于结构化的定性和半定量的分析方法。这部分有空间。包在1992年就组织出版了《情报研究方法论》,我们单位俞栋廷(可惜很早离开了)写了多元统计一章,我写了内容分析一章,应该都属于核心部分。据说事先没有想到可以卖那么多,签的合同亏了,让出版社狠赚了一笔钱。在此以后多年没有类似的,但跟得上时代和技术发展的同类书出版。比如有些信息分析书也谈到方法,常常两极分化,但是要么陷在太具体的计算公式里(都是统计学里的一般东西),要么干脆就谈什么“思维方法”。
.
现在有点时间了,那本情报分析方法的书也正式签订了出版合同,我已经想好还是扬长避短,着重我所长的,即机构化的定性方法,和半定量方法。但是其他先进方法要看懂,分析方法的整体图象(Big Picture)要拿得出。

情报分析三点半 admin on 12 Mar 2009

《情报分析三点半》第2讲自评

总算把欠的近帐还了(还有长远债,不知道牛年马月还得清),回过头补充这个。

情报分析方法概论一时间没有掌握好,不但超时15分钟达到1小时,而且前面太松,有些扯得太远,后面几部分几乎只能翻翻slides。

学习方法不仅用于分析信息的两个例子自觉还不错,四个层次那个过河的例子不太好,没有想出更好的,其中“技能,技巧”层次其实想了个关于电话访谈方法的好的例子,但是与“过河”无关,没有写在文件上,当场没有想起来,真是老了!第3讲前再弥补。

情报分析三点半 admin on 08 Mar 2009

情报分析方法概论(3月10日,24日)内容简介

先补充一个引语,我在情报分析三点半第1讲中提到但是没有记完整,如下:

nSurprising things were recorded, but patient alert eyes were in perpetual short supply. l Wouk, Herman, The Winds of War, 1971 

纪录下来的东西多得惊人,但总是缺少有耐心的警觉的眼睛. l 赫尔曼×沃克《战争风云》人民文学出版社 1979

n

 

原先想查我的卡片,也嫌麻烦,想到网络上碰碰运气,果然查到,正是应了引用的这句话。

n

情报分析三点半第2-3讲

情报分析方法概论内容简介

l         “方法”的四或五种不同层面

l         许多方法其实没有机会用:学习方法为什么

l         情报专家关于方法的一些论述

l         情报分析、社会研究、市场调查:方法有什么区别

l         分析方法的最新趋势

l         国内外关于方法的一些著作文章

l         情报分析方法的分类

情报分析三点半 admin on 25 Feb 2009

第一讲得失:自我评价

昨天下午开始了《情报分析三点半》第一讲,也许由于当天下午三点半永福路的网络光缆检修全部中断,无法干活了,来的人比较多。

自我评价是时间掌握得还可以,内容方面有人可能可能觉得有兴趣(从现场反应看),但是咨询中心肯定有些人以前在其他场合听到过,不新鲜。

具体表达没有大出格,个别地方扯得太远了,例如那个学术论坛的“内幕”等。

下次事先把内容写得再具体一些,让了解内容的人不要来了。人数在20人左右为宜,不能超过30,报名时要掌握有一下。

遗憾的是散会时下大雨,给许多人带来不便,当然这个我是没有责任的!

Next Page »