写作风格指纹工具容易上当受骗


作者:科林巴拉斯历史学家,文学侦探甚至法院都依赖于通过写作风格来识别文本作者的方法但是一项新的研究表明,即使是没有语言或文学训练的人,这些所谓的测针技术中的一些也很容易被愚弄除了用来回答文学问题时,例如谁写了莎士比亚的戏剧,现代法院在书面材料的作者身上接受来自测量学的证据,包括自杀笔记和威胁信件 1998年,测量学甚至帮助定罪了“Unabomber”Theodore Kaczynski但是,宾夕法尼亚州费城Drexel大学的Michael Brennan和Rachel Greenstadt说,测针技术所依赖的特征很容易模仿他们已经证明,人们可以通过模仿另一个人的写作风格来成功地混淆样式测量软件并隐藏他们的身份他们说,到目前为止,对这些技术的弱点几乎没有研究研究人员要求15位不是专业作家的人提交5000字的“签名”文本作为他们个人写作风格的样本然后,每个志愿者都被要求以掩盖其个人风格的方式写下他们邻居的描述,然后再以小说家和剧作家科马克麦卡锡的风格写下另一段为了正确地揭示每个“蒙面”通道的真实作者,各种风格测量技术与这种欺骗进行了对比它们包括简单的技术,如测量单词长度和分析标点符号,以及更复杂的方法,例如计算词汇密度,这是一种将文档中唯一单词数除以总字数的度量这些方法可以识别签名文本摘录的作者,准确率至少为80%但是,当人们试图隐藏他们的写作风格时,他们知道是谁写了一篇文章并不比随机更好这些技术一直认为科马克麦卡锡是他作品模仿的作者格林斯塔特说:“我们强烈建议法院审查他们的测针方法,以防止对抗性攻击的可能性” “这是一篇很棒的论文,”宾夕法尼亚州匹兹堡杜肯大学的计算机科学家和文本分析师Patrick Juola说 “当你读到一篇论文并说'现在我知道我将在接下来的五年里学习什么'时,他们做了一些正确的事情”由于这项研究只攻击了一些不太复杂的测针技术,因此探讨其他人的漏洞是Juola说,这是一项“巨大的研究”他给出了描述表格设置的例子;盘子的左边是“上”,“上”还是“到” “大多数人不一定会注意到哪些介词被使用 - 并且很难模仿你没有注意到的东西”Brennan和Greenstadt测试的一些技术会丢弃介词,因为它们被认为没有信息内容,Michael Oakes说道 ,英国桑德兰大学的计算语言学家他说,这可以过滤掉最有帮助的词语 Brennan和Greenstadt同意他们将来可以测试更多的测针技术 “然而,值得注意的是,我们的攻击方法并不像它们那样复杂,”格林斯塔特说他们的志愿者“攻击者”缺乏正式的语言学培训,无法使用测针软件凭借其他专业知识,
  • 首页
  • 游艇租赁
  • 电话
  • 关于我们