返回首页 > 您现在的位置： SEO秘密 > 正文

ChatGPT与科研：革新与隐患共存

发布日期：2023/2/22 10:05:00 浏览：143

面的研究，核心思路是让LLM自己去“揪”AI生成的文本。

去年12月，美国普林斯顿大学的计算机科学研究生EdwardTian推出了GPTZero。这是一个AI检测工具，能从两个角度分析文本。一种是“困惑度”（perplexity），这个指标检测LLM对某个文本的熟悉度。Tian的工具使用的是更早版本——GPT-2；如果它发现大部分词句都是可预测的，那么文本很有可能是AI生成的。这个工具还能检测文本的变化度，这个指标也称为“突发性”（burstiness）：AI生成的文本比人类创作的文本在语调、起承转合和困惑度上更单调。

许多其他产品也在设法识别AI生成的内容。OpenAI本身已推出了GPT-2的检测器，并在1月发布了另一个检测工具。对科研人员来说，反剽窃软件开发公司Turnitin正在开发的一个工具显得格外重要，因为Turnitin的产品已经被全世界的中小学、大学、学术出版机构大量采用。该公司表示，自从GPT-3在2020年问世以来，他们一直在研究AI检测软件，预计将于今年上半年发布。

不过，这些工具中还没有哪个敢自称绝不出错，尤其是在AI生成的文本经过人工编辑的情况下。这些检测工具也会误将人类写的文章当成是AI生成的，美国得克萨斯大学奥斯汀分校的计算科学家、OpenAI的客座研究员ScottAaronson说道。OpenAI表示，在测试中，其最新工具将人类写的文本误判为AI生成文本的错误率为9，而且只能正确辨认出26的AI生成文本。Aaronson说，在单纯靠检测工具就指责学生偷偷使用了AI之前，我们可能还需要进一步证据。

另一种方法是给AI内容加水印。去年11月，Aaronson宣布他和OpenAI正在研究给ChatGPT生成的内容加水印的方法。该方法还未对外发布，但美国马里兰大学计算科学家TomGoldstein的团队在1月24日发布的一篇预印本论文[6]中提出了一个加水印的办法。具体做法是在LLM生成结果的某个时刻利用随机数字生成器，生成LLM在指令下从中可选的一连串替代词汇。这样就能在最终文本中留下所选词汇的线索，这在统计学上很容易辨认，但读者却很难发现。编辑可以把这些线索抹掉，但Goldstein认为，这种编辑需要把超过一半的词汇都换掉。

Aaronson指出，加水印的一个好处是不太会产生假阳性的结果。如果有水印，文本很可能就是AI生成的。当然，他说，这也不是绝对的。“如果你足够有决心，就肯定有办法破解任何加水印的策略。”检测工具和加水印只是让AI用于欺骗手段更难了，但没法绝对禁止。

与此同时，LLM的开发者正在构建更大型的数据集，打造更智能的聊天机器人（OpenAI拟在今年推出GPT-4），包括专门面向学术或医疗领域的机器人。去年12月底，谷歌和DeepMind发布了一篇预印本论文，提前预告了名为Med-PaLM的临床专业LLM[7]。这个工具可以回答一些开放式的医学问题，水平与普通人类医师相当，但仍有缺陷和不可靠的问题。

加州斯克利普斯研究所主任EricTopol表示，他希望将来整合了LLM功能的AI能将全身扫描与学术文献中的内容进行交叉验证，帮助诊断癌症，甚至理解癌症。但他强调，这一切都需要专业人士的监督。

生成式AI背后的计算机科学发展迅速，基本每个月都会有新成果。研究人员如何使用这些工具不仅决定了它们的未来，也决定了人类的未来。“要说2023年初，一切已尘埃落定，是不现实，”Topol说，“现在才刚刚开始。”

来源：改编自参考文献1

参考文献：

1.Pividori,M.&Greene,C.S.PreprintatbioRxivhttps://doi.org/10.1101/2023.01.21.525030(2023).

2.GPT,OsmanovicThunstr?m,A.&Steingrimsson,S.PreprintatHALhttps://hal.science/hal-03701250(2022).

3.NatureMach.Intell

上一页 [1] [2]

上一个深圳：传统大车驾校怎么做好招生工作
下一个深圳：第二届全国中小企业发展环境论坛在深圳成功举办

你可能会喜欢