跳到主要内容

从预测CEO的行为理解莎士比亚的写作风格,ProQuest的新文本和数据挖掘解决方案帮助研究人员发现新的见解和挑战,以往的研究结果

如今,ProQuest的发射TDM工作室,即把文本和数据直接在研究人员的双手挖掘的动力强大的新的解决方案。

TDM Studio为文本和数据挖掘(TDM)提供大量当前和历史的ProQuest内容,包括新闻、期刊、论文和论文、原始资源等。用户也可以上传他们自己的内容,并将其与ProQuest内容结合起来,从而得到一个真正全面的数据集。

揭开使用文本和数据挖掘的新连接

新COVID-19数据集:ProQuest的已建成的近50万条的数据集 - 大部分来自报纸 - 关于COVID-19。当TDM工作室分析,这些数据可以帮助研究人员更好地了解趋势,因为他们在当地和全国新闻报道会。TDM工作室的任何用户都可以访问这些数据。注册一个演示。

约翰·狄龙他说,他看到这个产品为跨学科的研究注入了新的活力。

他说:“研究人员现在有了这些新方法来回答以前没有好的答案的问题。”“当你想到这一点的时候,你会感到震惊。多年来,许多研究人员都需要在适当的计算环境中使用执行TDM的分析工具以机器可读的格式访问这些内容,但并不总是能够同时将所有这些元素放在一起。与TDM工作室合作,我们能够解决这些挑战。”

在加入ProQuest之前,Dillon就是其中一名研究人员。拥有英国文学博士学位的他在早期职业生涯中一直试图将有争议的或匿名的文本归为作者。他需要使用的很多统计方法都需要编码知识,所以他上了编码和数据科学课程。之后,作为一名博士后,他在IBM研究中心工作,根据学生在在线学习平台上的评论和行为预测他们的情绪。

但是,谁能够从TDM受益很多人都没有熟练的计算机或数据的科学。这就是为什么TDM工作室正在设计各种技能水平的研究人员。

“那些懂编程的人可以使用预定义的数据分析方法,也可以使用他们自己的方法,这些方法由像R和Python这样的开源编程语言创建,”Dillon说。“在未来的版本中,非编码人员将能够使用嵌入分析方法的界面,引导用户可视化和部分操纵结果。”

随着产品的不断发展,它的目标是在整个大学提供一个TDM解决方案,而不管用户对TDM或编码有多熟悉。

该产品的灵活性还包括实时协作和“随时随地”访问。“这在当今环境中尤为重要,因为校园都是封闭的,大多数研究人员都在远程工作,”他说明迪Pozenel产品管理,主任TDM工作室。“使用TDM工作室,他们可以在‘实时’与他们的项目同事协作,他们也可以从家里登录,不再大学的网络上。”

TDM通过高校图书馆

高校图书馆 - 谁已经拥有了丰富的研究内容 - 可以使用TDM工作室从他们现有的收藏更多价值,对于研究团队,提高教学和学习的伙伴关系创造了新的机遇。

“库已签署这项内容的显著部分,” Pozenel说。“但是,即使你有我们强烈使用的数据库,没有人可以读取万篇文章,并显著价值有待开发。当你能够从大量该内容的使用TDM来获取价值,它放大图书馆作为一个服务中心的角色 - 传播知识,并为科研工作流程更多的价值。”

如何TDM工作室“化险为夷”的一名研究人员

虽然TDM Studio是新的市场,一些研究人员一直在使用它已经。在过去的一年中,ProQuest的已经与发展伙伴和早期进入科研人员对超过50个不同的研究项目合作。

迦勒罗森,占在阿肯色大学的助理教授,是那些发展伙伴之一。罗森一直在研究一个研究项目,以确定CEO的信心会如何有助于公司未来的成功。他试图理解为什么有些公司领导对他们的商业秘密自信地讲,有些却没有,这两种类型的行为所带来的后果。

罗森在接受ProQuest采访时表示:“例如,特斯拉首席执行官埃隆·马斯克喜欢谈论特斯拉正在做的每一件事。但是为什么呢?这让他的竞争对手有机会把更多的钱花在竞争产品上。这就是我们所说的专利成本——泄露你商业机密的成本,因为竞争者现在知道你在做什么了。”

为了确定这种行为的结果,罗森需要进行的年媒体报道的广泛分析:CEO型材,访谈,特写,新闻和其他细节。但答案可能仅来自罗森的东西不能做:阅读成千上万的文章自己。这时候,他转身的ProQuest和TDM工作室,寻求帮助。

随着TDM Studio后,时间花费学者创建内容集已减少到小时,而不是用传统方法所需的几个月。

罗森说,他给予的ProQuest公司和CEO们2500个配对开始了他的TDM试点项目(特斯拉麝香,例如),他所希望的出版物清单,以及日期范围。他最初的搜索结果超过323000到顶,这是 - 把它轻轻地 - “比我更期待,”他说。“我不想花半年阅读文章成千上万约老总,如果我没有需要。这就是TDM在加强和化险为夷我。”

罗森采取了几个步骤来缩小使用TDM工作室他的数据集。首先,他删除了提到一个企业或CEO在广告名称的所有文章。然后,他不停地只包含某些短语的文章,像自信、谨慎、乐观、悲观保守。他继续使用额外的文本挖掘措施,以完善自己的数据集,直到他达到了约22000篇。

现在,对于每篇文章,我都可以使用一种算法来查看出现在CEO名字周围的词语,这些词语可以用自信或谨慎的方式来描述他们。TDM工作室为我节省了几个月的时间,我本来可以用手收集和阅读文章,”Rawson说。

最后,罗森了解到,首席执行官谁是过分自信的透露更多的内幕信息和商业秘密。这可以给对手企业的优势,它可以阻碍在过度自信的CEO的公司的研究效率。目前这项研究正在等待同行评审的出版物。

Rawson声称会计研究并不像大多数人说的那么无聊,到目前为止他所做的只是揭开了可能性的冰山一角。“我对TDM工作室感到非常兴奋,”Rawson说。“我看到它在我正在做的研究中有很多应用。”

了解更多关于TDM工作室,包括它如何不仅研究应用,而且教学和学习。


新COVID-19数据集

ProQuest的已建成的近50万条的数据集 - 大部分来自报纸 - 关于COVID-19。当TDM工作室分析,这些数据可以帮助研究人员更好地了解趋势,因为他们在当地和全国新闻报道会。TDM工作室的任何用户都可以访问这些数据。注册一个演示

2020年4月14日

相关的帖子

研究伙伴对所有学生和教育者开放到6月30日

所有的学校、学院和大学都可以暂时访问Research Companion的关键组件,这是一个多媒体资源,可以帮助学生发展信息素养和批判性思维技能。

学到更多

ProQuest的的“E现在”允许图书馆为E-内容满足需求空前高涨

专业知识,流程,数据和快速报告指南,有效转变的结合,在线环境。...

学到更多

受冠状病毒影响的图书馆可以无限制地访问电子书中心

ProQuest已经与超过150家出版商合作,为图书馆提供无限的电子书中心馆藏,不收取额外费用。

学到更多

搜索博客

存档

遵循