跳转至主要内容

从预测CEO的行为到理解莎士比亚的写作风格,ProQuest的新文本和数据挖掘解决方案帮助研究人员发现新的见解,并挑战之前的发现

今天,它发射TDM工作室,这是一个强大的新解决方案,将文本和数据挖掘的能力直接交到研究人员手中。

TDM工作室解锁当前和历史的ProQuest内容的文本和数据挖掘(TDM),包括新闻,期刊,博硕士论文,一手货源多的庞大集合。用户还可以上传自己的内容,并与ProQuest的内容为一个真正全面的数据集相结合。

揭示文本和数据挖掘的新连接

新的COVID-19数据集:ProQuest已经建立了一个包含50万篇最近与COVID-19有关的文章的数据集,这些文章大多来自报纸。通过TDM Studio的分析,这些数据可以帮助研究人员更好地了解当地和国家新闻报道的趋势。TDM Studio的任何用户都可以访问该数据。注册一个演示。

约翰·狄龙,产品经理TDM工作室,说他看到的产品注入新的生命的跨学科研究。

“研究人员现在有这些新的方法来回答他们没有一个好办法之前回答的问题,”他说。“这是令人兴奋的,当你想想看。多年来,许多研究者需要获得机器可读格式此内容,在适当的计算环境,并与分析工具进行TDM,但它并不总是能够把所有这些元素结合在一起,在同一时间。随着TDM工作室,我们能够解决这些挑战。”

在他加入的ProQuest,狄龙是这些研究人员之一。与Ph.D.在英国文学,他度过了他职业生涯早期试图表明作者对有争议的或匿名的文本。很多他需要使用统计方法所需的编码知识,于是就把编码和数据理科班。那么,作为一名博士后,他与IBM研究工作的研究,根据他们在网上学习平台,言论和行动来预测学生的情绪。

但是很多可以从TDM中获益的人并不擅长计算机或数据科学。这就是为什么TDM工作室是为所有技能水平的研究人员设计的。

“谁知道编码可以通过使用如R和Python开源编程语言创建的预定义的数据分析方法或自己的方法,”狄龙说。“而且,在将来的版本,非编码器将能够使用已嵌入的分析方法,并引导用户可视化和部分操纵的结果的接口。”

随着产品的不断发展,其目标是提供整个大学的TDM解决方案,无论多么熟悉的用户与TDM或编码。

增加了产品的灵活性是实时协作和“随时随地”接入。“这是特别重要在今天的环境下,校园被关闭,多数研究者在远程工作,”说柯以敏Pozenel, TDM工作室产品管理总监。“使用TDM Studio,他们可以与同事在项目上‘实时’协作,他们还可以不用通过学校的网络从家里登录。”

通过学院图书馆进行TDM

已经拥有丰富的研究内容的学术图书馆可以使用TDM Studio从其现有的收藏中驱动更多的价值,为与研究团队的合作创造新的机会,并提高教学质量。

“图书馆已经订阅了其中很大一部分内容,”Pozenel说。但是,即使你有一个被高度使用的数据库,也没有人能阅读100万篇文章,而且还没有发掘出重要的价值。当你可以使用TDM从大量内容中获得价值时,它就放大了图书馆作为服务中心的作用——传播知识,为研究工作流程创造更多价值。”

TDM工作室是如何为一个研究人员“拯救了一天”的

虽然TDM Studio是市场上的新产品,但一些研究人员已经在使用它了。在过去的一年里,ProQuest一直在与开发伙伴和早期访问研究人员合作进行50多个不同的研究项目。

Rawson迦勒他是阿肯色大学会计学的助理教授,也是这些发展伙伴之一。罗森一直在从事一个研究项目,以确定首席执行官的自信如何有助于公司未来的成功。他试图理解为什么一些公司领导人会自信地谈论他们的商业秘密,而另一些人却不会,以及这两种行为的后果。

“举个例子,”罗森在ProQuest的采访时说,“伊隆·马斯克,特斯拉的CEO,喜欢谈论一切特斯拉在做什么。但为什么?它给对手一个机会,花更多的钱在工作竞争产品。这就是我们所说的专利费用 - 泄露你的商业秘密是什么费用,因为竞争对手现在知道你在做什么“。

为了确定这种行为的结果,罗森需要对多年来的媒体报道进行广泛的分析:CEO简介、采访、特写、新闻和其他细节。但是答案很可能只来自于罗森无法做到的事情:他自己阅读了成千上万的文章。于是他向ProQuest和TDM Studio寻求帮助。

使用TDM Studio,学者们花在创建内容集上的时间已经减少到几个小时,而传统方法需要几个月的时间。

Rawson说,他的TDM试点项目是通过给ProQuest 2500对公司和首席执行官配对(特斯拉他想要发表的作品的列表,以及一系列日期。他最初的搜索结果达到了32.3万多条,他说,轻一点说,“比我预期的还要多”。“如果没有必要,我不想花六个月的时间阅读成千上万篇关于ceo的文章。这就是TDM的作用,帮我挽回了局面。”

Rawson使用TDM Studio采取了几个步骤来缩小他的数据集。首先,他删除了所有在广告中提到公司或CEO名字的文章。然后,他只保留含有某些短语的冠词,比如自信,谨慎,乐观,悲观的保守的。他继续使用额外的文本挖掘方法来完善他的数据集,直到他找到了大约22000篇文章。

“现在,对于每一篇文章,我能使用,围绕CEO的名字出现在看起来词形容他们的自信和谨慎的方式的算法。TDM工作室救了我的时间,我会花收集和手工阅读文章月份,”罗森说。

最终,罗森发现,过于自信的ceo会泄露更多的内幕信息和商业秘密。这可能会给竞争对手带来优势,也可能会影响过度自信的首席执行官所在公司的研究效率。这项研究目前正在等待同行评议发表。

罗森,谁声称,会计研究并不乏味,因为大多数人做出来是什么他迄今所做的仅仅是揭开可能性冰山一角。“我真的很兴奋TDM工作室,”罗森说。“我看到有很多的应用在此类研究,我这样做。”

学到更多介绍TDM Studio,包括如何将其应用于研究及教学。


新的COVID-19数据集

ProQuest已经建立了一个包含50万篇最近与COVID-19有关的文章的数据集,这些文章大多来自报纸。通过TDM Studio的分析,这些数据可以帮助研究人员更好地了解当地和国家新闻报道的趋势。TDM Studio的任何用户都可以访问该数据。注册一个演示

2020年4月14日

相关文章

研究伴侣是开放给所有学生和教师通过6月30日

所有学校,学院和大学可以暂时访问研究助理,多媒体资源,帮助学生培养信息素养和批判性思维能力的关键组件。...

了解更多

ProQuest的“E Now”使图书馆能够满足对电子内容前所未有的需求

专业知识、流程、数据和报告的结合指导快速、有效地过渡到在线环境……

了解更多

冠状病毒埋伏库即可无限畅电子书中央控股

ProQuest的已与150多个出版商合作,支持库中提供无限制地访问电子书中央控股的所有顾客 - 不收取额外费用......。

了解更多

搜索博客

档案

跟随