信息极客的三个功夫

| 万维钢 | 转载

万维钢博客

摘注

文章摘自万维钢的博客:【学而时嘻之】,这篇文章对我在学习方法和工具的启发上起到了很大作用,通过阅读原始数据和主动采集和收集数据的说法具有强烈的极客特征,援引既做备忘,亦有推荐意味。

正文

事实证明使用搜索引擎还是需要点见识的。近日人工智能专家吴恩达接受华尔街日报采访,提到有百度用户是这么进行语音搜索的1

在中国,有一些用户还显得不太成熟,所以你会得到你在美国不会得到的查询。例如,我们会得到这样的查询,“嘿,百度,你好吗?上周我在街头一家小店吃了面条,味道非常好。你认为这个周末他们还会营业吗?”

你得知道搜素这个动作是跟机器而不是跟人打交道。搜索引擎只知道网上已有的信息,而且你要输入的是关键词而不是一句有礼貌的完整的话。选择关键词也有技巧,比如你想找个色情网站,你最好不要直接输入“色情”— 那样的话你找到的更可能是一些有关反色情的文章的页面。

但搜索只是个简单功夫。内事不决问百度外事不决问谷歌,高级问题直接去知乎和维基百科,这些一般人都会。我儿子才五岁根本不会打字,但是他能在YouTube使用语音搜索到任何想看的动画片,他知道应该只说片名而不说什么“你好吗?”

能用非直觉思维跟机器打交道,这有点极客的意思。不过一个真正的极客也许并不满足于解决自己的信息需求,他可能还想为社会创造点价值,甚至想要用信息去左右公共政策,那么他就得会三个更高级的功夫。

第一个功夫是阅读学术论文

论文是知识的最前沿,而且是用最有条理的方式整理好的文本,一个真正的极客怎么可能不看论文呢?现在搞研究的人实在太多,从上天入地到娱乐管理所有领域都有论文。很多社会科学甚至医学方面的论文只要有最基本的统计知识就能看懂,实在看不懂技术细节看看摘要也不错。

假设你想问一个生活中的问题,比如你有感于现在大学生就业困难,想知道“读个商科的学位是否有利于找到工作”。问家人朋友,上论坛问网友,乃至直接搜索答案,最后得到的都可能是一些道听途说的事例和极其个人化的见解。但是想获得经过统计检验的,具有普遍意义的过硬答案,最好的办法是看论文。

奥本大学经济系的一个研究2发现,哪怕你想找的是商业工作,商科学位也没啥用。这项研究随机生成了九千份简历,投给银行、金融、管理、市场、保险和销售的招聘广告,简历中的学位包括会计、经济、金融、管理、市场这些商业相关学科,和生物、英语、历史、心理学这些非商业学科。结果发现商科的学位并不能增加获得面试的机会。有过实习经历倒是可以把面试机会增加14%。所以最佳策略是读个自己喜欢的专业,然后大三暑假出去实习三个月。

要得到这种高级知识,得去特别的地方。在人人都会用的百度谷歌入口之外,还有一种精英专用搜索引擎 — 学术搜索,对应的入口是Google Scholar(转载者备注:国内要翻墙)和百度学术,其提供的一切搜索结果都来自论文。

科技新闻网站,比如Solidot(给极客看的中文资讯,强烈推荐)、果壳网和EurekAlert!是发现值得注意的新研究的好地方。过去所谓的“科普文章”都在“鬼火是磷火”之类相信科学破除迷信的阶段,讲的都是最基本的常识;而现在的科学文章只有讲到最新研究才拿的出手,背后往往有论文支持。

一方面是科学家花了大量的时间和金钱才得到一些有价值的结果,另一方面是公众根本不知道这些结果。不但不知道,而且不知道自己不知道。现在肥胖的人越来越多了,这是食品中生长激素的作用吗?有机食品对健康真有好处吗?论文里的主流意见跟微信朋友圈里信誓旦旦的说法很可能恰恰相反。人们的见识跟真实世界之间有一个鸿沟,而极客可以通过读论文来跨越这个鸿沟。

你在辩论中搬个人经历和过去的经典出来,极客根本不跟你谈。极客爱拿论文说话。当然论文中的结论也有很多都是错的,能判断各种研究的可信度是一个高级功夫,但只要是正规的学术论文,就一定比任何一个论坛上网友的有感而发可信得多。

第二个功夫是直接阅读原始数据

最近经济学家Tyler Cowen在他博客贴了一篇有关韩国治理空气污染的文章3。文章说韩国曾经是一个空气污染非常严重的国家,其2002年的空气质量在122个国家中排第120位。但是当韩国政府想要改善空气质量的时候,它很快就改善了 — 现在韩国排第43位。这对中国太有借鉴意义了,我看到立即就转发到了自己的微博。

像这样超出寻常的故事往往能刺激极客们展开自己的调查。我的微博4发出五分钟内,@炼金术士gewesen 就查到了韩国煤炭消费的数据,并指出“同时韩国的煤炭消费比2002年增加了46%”。如果烧煤是空气污染的最重要来源,韩国在没有减少烧煤的情况下大幅减少空气污染就不太可能。然后过了不到一小时,@卢昌海 找到了空气质量排名的原始文件,并发现韩国在2002年的排名根本就不是第120位,而是第54位,Cowen博客中的数据是错的!

这件事让我感到特别自豪,要知道Cowen自己的文章贴出一天也没人发现毛病。这就是极客的力量。对奇怪的事实非常敏感,产生疑问后不是空口无凭地质疑,而是立即查找数据,拿数据说话。有这样的功夫不管说什么,别人都不得不严肃对待。

查数据,是极客的膝跳反应。杨振宁自从82岁跟翁帆结婚以后就经常查阅年龄统计来判断自己还能活多少年5。他查的年龄表人人都可以很方便地查阅到,根本没必要再拿“人生七十古来稀”这种过时了的格言吓自己。

互联网上有很多优质的数据资源。Wolfram Alpha(转载者备注:数学软件Mathmatica研发公司的搜索引擎)网站可以调阅和可视化有关当今世界的很多基本数据;美国政府有一个专门的数据网站Data.gov,其中有从经济到教育科研各种数据库;而USASpending.gov则列举了各项政府花费的数据,有心人可以拿这些数据搞出很有意思的东西来。

“大数据”现在是个很流行的词,但是中国别说数据挖掘,哪怕仅仅是能自行寻找和阅读数据,会拿数据说话的人,都还不够多。在这方面一个美国女高中生也许可以给中国公知上一课。

新泽西某高中的Amanda Graves收到包括耶鲁和芝加哥大学在内很多名校邀请她申请这些大学的信,但是她成绩一般,连全校前四分之一都没进。Amanda据此怀疑这些名校明知她和很多她这样的学生根本没有被录取的机会还写这些信给她们,纯粹是故意忽悠人。如果你有这种想法会怎么做呢?你也许会跟身边人说说,或者上网吐槽一番,也许还要加上一个自己的推测,说名校这么做是为了多收申请费。如果你仅仅这么做,你的言论不会引起多大反响。

Amanda的做法是在华盛顿邮报发表了一篇非常漂亮的长文6。这篇文章充满了拿数据说话的精神。下面是Amanda使用的一部分数据:

  • 耶鲁每年吸引8万人申请,只录取1300人,被拒率93.7%;
  • 95%的耶鲁学生的高中成绩排在其高中的前10%,100%的学生排在高中前25%;
  • 芝加哥大学录取学生的数学和阅读SAT成绩中位数是在1440到1540之间,而Amanda的成绩只有1100;
  • 芝加哥大学只有1%的新生GPA在3.00到3.24之间,3.00以下的根本就没统计,而Amanda的GPA只有2.9。

她使用的有些数据来自Google搜索,有些则来自CollegeBoard和CollegeData这样的专业网站,她还引用了权威新闻渠道的报道作为论据。文章发表之后,她甚至还因为发现芝加哥大学的录取GPA是使用加权平均法计算的,而自己的GPA没有经过加权平均法计算,二者不能直接比较,而重新计算了自己的GPA,并要求华盛顿邮报修改了文章。

另外值得注意的是,中文媒体转发这条消息7的时候直接说名校这么做是为了多收申请费,而Amanda的原文却根本没这么说过 — 她只在数据的支持下论证了名校这么做是为了提高申请被拒率,从而提高学校排名,甚至还特别说明芝加哥大学免除了她的申请费。整篇文章简直是有理有节。

这就是一个数学和阅读成绩都一般的美国女高中生的水平。而她做这么多调查研究并不是为了论证自己应该进名校,是为了论证自己不应该进名校!

第三个功夫是主动采集和分析数据

Nate Silver可能是现在预测界风头最劲的人物,他通过数据分析对棒球和美国选举的预测已经成为当代传奇,但是他最早玩数据的时候,却是一个业余选手8。也就在2002年,Silver还只是某个会计公司的小职员。但他有两点跟一般的会计不一样:第一,他非常喜欢棒球。第二,他是个极客。

我们都知道美国职业体育中有各种非常详尽的统计数字。其实这些数字并不仅仅是给教练、球探和解说员用的,体育迷也很喜欢看数据。Baseball Prospectus是一本面向球迷的棒球杂志,上面刊登了每个大联盟球员,以及每个可能进入大联盟的球员的全面数据,而极客球迷看这些数据就好像看色情一样过瘾。

Silver在工作之余把这些数据输入到他自己搞的一个非常大的电子表格中,想出各种办法来折腾这些数据,用自己的方法评估和预测球员的表现。这套系统就是后来他赖以成名的棒球预测软件PECOTA的前身。2003年,Silver把这套系统卖给了Baseball Prospectus杂志。2007年,他开始发表对政治选举的预测。2008年美国大选,Silver成功预测了美国50个州中49个州的选举结果。

一般人恐怕不会有这样的技术和时间来搞这么专业的数据分析 — 其实主要是没有这么大的热情 — 不过哪怕我们对统计不怎么感兴趣,也可以搞一些简单的玩法。

现在极客们有个时髦的活动是量化自我。

这通常涉及到随身带一个手环之类的小电子设备,实在不行手机也可以。这个小工具将记录你每天的一举一动:睡了多长时间觉,走了多少步,去了哪里,燃烧了多少卡路里。Mathematica的发明人,当今天才Stephen Wolfram(超级极客…),记录了自己1998年以来发过的每一个电子邮件、记在日程表上的每一个事项、参加的每一次会议、打过的每一个电话、走过的每一步、甚至每一次敲击键盘的时间9

这些数据使得我们可以更好地了解自己,监督自己,乃至改进自己。我们可以设定健身目标,完成了自我表扬,完不成自己感到羞愧。《奇特的一生》书中的时间管理传奇人物柳比歇夫(转载者注:前苏联昆虫学家,56年如一日对个人时间进行定量管理),他获得高效率的办法就是严格记录自己在每一件事上所花的时间,通过分析这些数据来看看自己到底能干些什么。也就是说,量化自我的目的是成为自己生活的科学家:测量、处理、实验、再测量,直到取得理想结果。

如果你对量化时间管理的重视程度达到柳比歇夫那样的级别,Daytum是个现代化的工具。更轻量级的工具包括YAST和Slimtimer。如果你只想记录一下自己在计算机上都干了什么,RescueTime非常方便。类似的工具非常之多,Sleep Time可以通过手机震动监督人的睡眠质量,mint.com 则能监督人的花钱习惯,等等。

把很多人的个人数据综合起来,可以帮助研究者更好地理解人类行为,所以量化自我也是对社会的贡献。事实上个人也能拿自己的数据搞点小研究,比如玩微博的人每天记录一下自己的粉丝数增长情况,也能发现一些有趣的事实。

总而言之,一大波极客正在袭来。他们用论文辟谣,用数据打脸,用自己的行动树立榜样。他们可能是科学家、工程师、教师、记者或者医生,也可能是任何有评判性思维能力和理解科学方法的人。这些人是有功夫的参与公民。对公共事务发言,他们应该取代历史上的读书人和现代的公知。

转载摘要

  1. 阅读学术论文;
  2. 直接阅读原始数据;
  3. 主动采集和收集数据;
  4. NOTE:
    • 学术搜索引擎:Google Scholar, 百度学术
    • 科技新闻网站:Solidot, 果壳网, EurekAlert!
    • 内事不决问百度外事不决问谷歌,高级问题直接去知乎和维基百科
    • 能根据问题直接给出答案的网站:Wolfram Alpha
    • 时间管理工具:Daytum, YAST, Slimtimer, Rescue Time, Sleep Time, mint.com