首页 > IT资讯 > 正文

Twitter私有化其数据,或成科研挡路石

Twitter中文称之为“推特”,拥有着世界上最大的现代语言数据库,尽管这意味着无限的研究价值,但推特公司方面还是越来越严格地限制人们获取其数据。这真是让人遗憾。

我们能从Twitter上学到许多,如果维特公司允许。


明星、政客、世界各地的政要,新闻机构、成千上万的普通用户、甚至偶尔出现的猫,他们每天通过Twitter谈论他们的早餐、自然灾难、政治事件、以及像奥斯卡和超级碗这样全球瞩目的活动。伴随着每天数百万的Twitter发布量,推特已经成为重要的历史文化记录者,亦成为政治学、历史学、文学、语言学等各种你能想象到的学科的极有价值的信息来源。但近年来,推特对其信息服务功能急剧地限制信息提取,这让研究者们止步难前。或许推特的学术可能只是个假说吧。


对于大多数研究者来说,他们遇到的困难往往是数据库不够大。例如语料库语言学(Corpus Linguistics),就是一门对数以亿计的词汇数据库煞费苦心地进行分组和注释的学科。最大的语料库有超过四亿五千万个词组,而对于每天有五亿条Twitter,平均每条Twitter15个词的推特来说,这么大的语料库不要一天就可以达到了。


无论对于数据爱好者还是专业学者,Twitter已经显示出其作为数据库的价值。Edwin Chen是一位推特数据科学家,他将软饮料的一些关键词“可乐”“苏打”“汽水”在推特中定位,其得出的结果和推特之外的类似研究结果大部分吻合,这从某种程度上证明了推特作为研究工具的价值。在学术方面,根据纽约时报去年十月的报道,学者通过相关Twitter来研究人们对类似“阿拉伯之春”等一些重大事件的情绪反应,也有学者研究情绪随日常生活节奏的变化规律。最近,一些研究者发现他们能够通过机器学习与自然语言处理来预测Twitter中的信息是否正确。但是推特向媒体公司的转化正在让研究者的信息收集工作越来越难。


由美国标准技术局和美国国防部赞助的国际文本信息检索协会 (TREC)自1992年以来就致力于帮助关于信息检索的研究工作。之前,该组织举办过全文检索建议期会,该会议旨在帮助律师在法律数据库查找相关信息,帮助医护人员获取相关医疗记录。从2011年开始,该组织有了Twitter记录项目(microblog track),研究推特上的搜索行为。


2011年,文本检索协会准许58个组织在两周时间内可以获得1600万条Twitter讯息,从埃及革命到美国橄榄球超级碗,讯息涵盖非常丰富。但事情并非如人意。与会者最终得到的只是1600万条Twitter的标识码和允许他们自己下载的一套工具软件。Ian Soboroff是推特公司Twitter记录项目的领导人,他告诉记者,在推特向学者提供数据之前,人们已经能够下载自己想要的Twitter数据,只不过那时推特方面不允许他们共享这种数据给其他人。“推特实际上联系了数名研究者并命令他们停止分享这些数据”他说。这一系列问题是从推特2011年初的API服务条款推出后开始的,条款中增加了禁止任何Twitter二次分发的一项。


条款的变化直接影响到一系列组织和初创企业。例如Twapperkeeper,一个向用户提供特定关键词Twitter档案应用服务,不得不被迫关闭。推特上第一个研究Twitter政治和文化影响力的小组再也不能向感兴趣的大众分享他们的数据。对于其他学者,他们甚至不能收集Twitter数据了。


这一变化大大打击了推特数据研究。通过共享数据,研究者们能够互相从数据中挖掘问题、检查漏洞以及证实该研究的可信度。但推特的条款使这一切不再成为可能。


文本检索协会(TREC)为与会者提供了Twitter标识码,Soboroff觉得这种解决方案并没有让研究者满意。“对于推特研究者,在我们获得一个很好的数据库之前我们需要一个够大够原始的样本。”解决方案的不完美有数个原因,尤其是信息完整性不足。推特用户经常删除自己的Twitter或把其设为隐私,这意味着Twitter标识码并不能返回完整的Twitter数据。Soboroff还解释道,一些研究者对推特提供的下载工具也很头疼“克隆一个git存储库,构建数据库,运行履带,存储数据和分析数据,在如此大的数据下进行分析。”这对Twitter记录项目(microblog track)来说并不是太大的问题,但他们不得不花大量时间去帮助其他用户来解决许许多多技术问题。项目组的邮箱被遇到技术障碍的参与者的邮件挤爆。


文本检索协会(TREC)提供的Twitter下载工具有严格的下载限制,参与者仅能从1600万条Twitter中以每15分钟调用180个API(应用端口)的速度下载资料。以这样的速度计算下载完全的1600万条Twitter资料需要两个星期。想要自己收集Twitter资料的研究者需要使用推特的流API,这种流API能够提供Twitter的实时反馈,但这种API仅公开了1%的部分。全部公开的API被称作“消防带”(firehose),推特方面对其进行了严格管控并且要向下载者收费,而且费用远远超过了科研院所的承受范围。Gnip就是“消防带”服务的代理商,该服务向每千条Twitter收费0.10美元。按这个价格计算的话,文本检索协会(TREC)需要支付16000美元来获取1600万条Twitter,然而这个协会的参与者是完全没有资助的。


目前推特似乎并没有迹象要改善现状,现实是,为了维护利益推特肯定不会这么做。推特的技术改进乃至最终实现盈利大部分都需要依靠研究者们的发现和成果,前述关于Twitter体现社会真实性的研究就是个很好的例子。推特被科研加以利用的模式易于构想,比如推特前不久推出的“发现选项卡”(Discover tab)把许多有用的Twitter科研结果公诸于众。但是如果不让研究者们分享Twitter数据库,激动人心的研究成果也许会难以出现了。


为了保住底线,推特该何去何从?如果把研究局限在一小群研究者范围内,研究成本毫无疑问将会变得昂贵且耗时,群众参与的利好也不复存在了。况且很多推特之外的研究团队的Twitter课题是推特内部团队无法企及的。如果推特自己建立Twitter数据库,并让其他研究者有限制地获取数据,那么如此大的数据维护带来的种种困难就会随之而来,推特方显然不愿承担这些成本。最佳的方案是,人人参与,让研究员自由获取并自我维护数据库。


最现实的选择是,向研究者们开放Twitter数据。但在开放数据和限制准入之间是否有两全做法呢?最简单明了的方案就是,将数据库授权给一家独立教育机构。“当代英语语料库”既是这样一个选择,这是由美国杨百翰大学管理的全美最大的英语语料库;任何人都能从该语料库查看数据界面,但原始数据始终得到保护。对于推特与日俱增的影响力和不断丰富的语料数据,相信语言学系必会对此倍感兴趣从而接手管理这样一个Twitter数据库。



美国国会图书馆的主阅览室每两年向公众开放一次,开放期间有图书管理员指导人们获取图书资源。图片来自Alex Wong/Getty Images


此外,美国国会图书馆也是一个选择。该图书馆与推特达成协议将存放推特Twitter的完整档案,这让双方的科研承载力都大大加强。近日,图书馆宣布已完成Twitter项目的第一阶段,想研究者提供数据渠道的服务将指日可待。据悉,图书馆方面已经接到400多个来自不同研究者的数据申请请求,但目前图书馆还无法提供任何帮助。数据规模太大一直是个问题。根据图书官方,在全部文件中进行一次搜索就要耗费24小时,这让研究者止步难前。(这也解释了为什么推特严格限制了其可搜索的Twitter范围)图书馆方面也承认,“目前从如此大的数据库中提供科研样本的技术还远远落后于这些数据的产生和分配的技术”。


不管从推特还是从国会图书馆创建一个具有研究意义的数据子集将会非常有用。伴随着Twitter爆炸式的增长,图书馆怎么把这些数据方便地提供给搜索渠道,这将是一个长期而困难的技术难关。现在图书馆仅能提供其数据“在阅览室有限度获取”。


当然这肯定不是句号,学术界从来没有被数据难题阻碍前进步伐。看看那些演讲、报纸、杂志和其他网站,这些媒体可没有多好的API供人使用,但仍然有人不遗余力地为分别这些媒体建立了数百万字的数据库。研究者们正在想方设法地突破推特的技术限制,Soboroff甚至觉得对于一个并不是以科研盈利为目的的企业来说,推特已经做得很不错了。这句话不错,推特与国会图书馆的协议令人鼓舞。更严格的准入制度,更多的限制性服务条款,甚至更多的API限制都很符合推特的行事作风。但谁也不清楚国会图书馆能否在数据如此大的情况下提供可用的获取信息渠道。


无论将来发生什么,这个几乎是当今世界最大的可用的现代语言资料库,这个对历史、政治和社会学都极具重要性的社交媒体,将在可见的未来有效地成为科研禁区。多么令人遗憾。


上一篇:Google研究领域、研究成果等贡献
下一篇:Google向密码宣战 - google戒指

PythonTab微信公众号:

Python技术交流互助群 ( 请勿加多个群 ):

群1: 87464755

群2: 333646237

群3: 318130924

群4: 385100854