返回首页 > 您现在的位置: SEO秘密 > 正文

ChatGPT与科研:革新与隐患共存

发布日期:2023/2/22 10:05:00 浏览:143

面的研究,核心思路是让LLM自己去“揪”AI生成的文本。

去年12月,美国普林斯顿大学的计算机科学研究生EdwardTian推出了GPTZero。这是一个AI检测工具,能从两个角度分析文本。一种是“困惑度”(perplexity),这个指标检测LLM对某个文本的熟悉度。Tian的工具使用的是更早版本——GPT-2;如果它发现大部分词句都是可预测的,那么文本很有可能是AI生成的。这个工具还能检测文本的变化度,这个指标也称为“突发性”(burstiness):AI生成的文本比人类创作的文本在语调、起承转合和困惑度上更单调。

许多其他产品也在设法识别AI生成的内容。OpenAI本身已推出了GPT-2的检测器,并在1月发布了另一个检测工具。对科研人员来说,反剽窃软件开发公司Turnitin正在开发的一个工具显得格外重要,因为Turnitin的产品已经被全世界的中小学、大学、学术出版机构大量采用。该公司表示,自从GPT-3在2020年问世以来,他们一直在研究AI检测软件,预计将于今年上半年发布。

不过,这些工具中还没有哪个敢自称绝不出错,尤其是在AI生成的文本经过人工编辑的情况下。这些检测工具也会误将人类写的文章当成是AI生成的,美国得克萨斯大学奥斯汀分校的计算科学家、OpenAI的客座研究员ScottAaronson说道。OpenAI表示,在测试中,其最新工具将人类写的文本误判为AI生成文本的错误率为9,而且只能正确辨认出26的AI生成文本。Aaronson说,在单纯靠检测工具就指责学生偷偷使用了AI之前,我们可能还需要进一步证据。

另一种方法是给AI内容加水印。去年11月,Aaronson宣布他和OpenAI正在研究给ChatGPT生成的内容加水印的方法。该方法还未对外发布,但美国马里兰大学计算科学家TomGoldstein的团队在1月24日发布的一篇预印本论文[6]中提出了一个加水印的办法。具体做法是在LLM生成结果的某个时刻利用随机数字生成器,生成LLM在指令下从中可选的一连串替代词汇。这样就能在最终文本中留下所选词汇的线索,这在统计学上很容易辨认,但读者却很难发现。编辑可以把这些线索抹掉,但Goldstein认为,这种编辑需要把超过一半的词汇都换掉。

Aaronson指出,加水印的一个好处是不太会产生假阳性的结果。如果有水印,文本很可能就是AI生成的。当然,他说,这也不是绝对的。“如果你足够有决心,就肯定有办法破解任何加水印的策略。”检测工具和加水印只是让AI用于欺骗手段更难了,但没法绝对禁止。

与此同时,LLM的开发者正在构建更大型的数据集,打造更智能的聊天机器人(OpenAI拟在今年推出GPT-4),包括专门面向学术或医疗领域的机器人。去年12月底,谷歌和DeepMind发布了一篇预印本论文,提前预告了名为Med-PaLM的临床专业LLM[7]。这个工具可以回答一些开放式的医学问题,水平与普通人类医师相当,但仍有缺陷和不可靠的问题。

加州斯克利普斯研究所主任EricTopol表示,他希望将来整合了LLM功能的AI能将全身扫描与学术文献中的内容进行交叉验证,帮助诊断癌症,甚至理解癌症。但他强调,这一切都需要专业人士的监督。

生成式AI背后的计算机科学发展迅速,基本每个月都会有新成果。研究人员如何使用这些工具不仅决定了它们的未来,也决定了人类的未来。“要说2023年初,一切已尘埃落定,是不现实,”Topol说,“现在才刚刚开始。”

来源:改编自参考文献1

参考文献:

1.Pividori,M.&Greene,C.S.PreprintatbioRxivhttps://doi.org/10.1101/2023.01.21.525030(2023).

2.GPT,OsmanovicThunstr?m,A.&Steingrimsson,S.PreprintatHALhttps://hal.science/hal-03701250(2022).

3.NatureMach.Intell

上一页  [1] [2] 

最新深圳SEO

欢迎咨询
返回顶部