还在悄咪咪抄袭代码的你,已经被这段代码已经出卖了

简介:

悄咪咪抄袭别人代码或者散播恶意程序,可能以后要分分钟暴露了。

近日,美国德雷克塞尔大学的副教授Rachel Greenstadt和乔治华盛顿大学的助理教授Aylin Caliskan发现,机器学习算法通过分析一段代码样本的风格,可以找到程序背后的作者。

就像寻找论坛匿名帖的作者一样,只要训练数据充足,自动化工具就能通过用词、句式和语法推测你是谁,即去匿名化

从貌似千篇一律的代码中找出原作者,这事背后并不简单。

编程“指纹”

机器学习算法找到一段代码作者的过程大致如下——

首先,算法识别代码样本中的所有特征。看似“千码一面”其实也蛮有特色,就像每个人说话选择的单词、组合方式、句子长度等都不同。

锁定特征后,研究人员将特征范围从数十万缩小到大约50个,只留下能真正区分出编程人员是谁的那些。

之后,研究人员不依赖“代码是如何格式化”这样的底层特性,相反,他们创建“抽象语法树”反映代码的底层结构而非任意组件。就像判断word文档是哪个人写的,你得优先查看句子结构,而不是看每个段落是否缩进了。

算法奏效前也需要喂食一些例子训练。如果一白板GitHub用户发布了一个代码片段,这个算法就不一定能够识别背后是谁。不过,也并不需要你用毕生经历来训练算法,只需几个短样本,侦探AI带回家~

9d6bafdd39b51fd346d77435c0a0aa08e0c0fe37

这不是Caliskan和Greenstadt的首个“去匿名化”的研究,去年两人发现,即使是存储库网站GitHub上的一小段代码,也足够以高精确度区分出到底是哪个程序员编写的。

论文Git Blame Who?: Stylistic Authorship Attribution of Small, Incomplete Source Code Fragments地址:

https://arxiv.org/pdf/1701.05681.pdf

Caliskan在另一篇论文中表示,只用他们编译的二进制代码就可以去匿名化。在开发人员写完一段代码后,一个名为编译器的程序能将它转换成1和0组成的编码,机器读取后即知出自谁手。

论文When Coding Style Survives Compilation:De-anonymizing Programmers from Executable Binaries地址:

https://arxiv.org/pdf/1512.08546.pdf

而这个研究还有后续,Caliskan和其他研究人员也能将二进制文件转回C++语言,同时保留程序员独特的风格。

为了进行二进制实验,Caliskan还使用了谷歌年度Code Jam比赛的代码样本。在每个人提供8个代码样本的情况下,机器学习算法识别100个程序员的准确率为96%。即使将样本量扩大到600位程序员,算法仍能达到83%的准确率。

总体来说,编程有风格,所有人都会留下“指纹”的。

越熟练,越容易暴露

这项研究要是应用到实际问题中,可以称作是编程界的包青天了。

9325e64f004ea8890a4ca77c4292d01f82e6523f

Caliskan和Greenstadt表示,这个算法不仅能判断学生的编程作业是否抄袭,还能判断开发人员是否违反了雇佣合同中的竞业条款。往大了说,还能帮政府调查恶意程序背后的始作俑者,维护网络安全。

“人们应该意识到,在这种情况下,要百分之百地隐藏自己的身份是非常困难的。”Greenstadt说。

Greenstadt发现,这个算法目前还没遇到对手,即使软件工程师使代码更复杂,也并不能成功隐藏开发人员的独特风格。

相反,有经验的开发人员比新手更容易识别。也不难理解,部分初学者经常从Stack Overflow等网站复制代码下来直接使用,反而不好分辨哪些是他们自己的风格。你越熟练,你的工作就显得越独特。

此外,越是解决棘手的问题,反而越容易暴露身份。在实验中,62名程序员每人解决了七个“简单”问题,算法去匿名化的准确率为90%。但若每人解决7个难题,算法准确率将提高到95%。

在未来,若你想隐藏自己的编程风格,还得学习更复杂的对抗方法……

未来方向

这项研究并没有到此为止,未来,Greenstadt和Caliskan想要继续探索其他因素如何影响一个人的编程风格。

比如同一组织的成员合作时编程风格的变化,不同国家的程序员编程是否有不同的方式。例如,在一项初步研究中,他们发现算法可以区分加拿大和中国开发人员编写的代码样本,准确率超过90%。

此外,面对不同编程语言是否可以用标准化的方法进行推测也是研究人员下一步的讨论的议题。

虽然目前Greenstadt和Caliskan的方法被证明有效,但他们仍然强调,去匿名化仍然是一个神秘的过程。


原文发布时间为:2018-08-14

本文作者:铜灵

本文来自云栖社区合作伙伴“量子位”,了解相关信息可以关注“量子位”。

相关文章
|
8月前
|
程序员
有了这些不愁找不到对象,520表白代码
有了这些不愁找不到对象,520表白代码
49 0
|
前端开发 程序员 开发工具
你疯了吧,竟然在代码里面“下毒”?
除了有点味道以外,这回是不记住了,我们编程写代码的过程和我们日常生活的例子,往往都是这样可以对应上,有了真实可以触及的实物,再去了解编程就会更加容易,也很难忘记。但可能会写着写着代码,就傻笑起来!
|
程序员
笑出腹肌!有些程序员真会玩代码注释
笑出腹肌!有些程序员真会玩代码注释
64 0
笑出腹肌!有些程序员真会玩代码注释
|
SQL 存储 监控
聊聊那些年遇到过的奇葩代码
无论是开发新需求还是维护旧平台,在工作的过程中我们都会接触到各种样式的代码,有时候会碰到一些优秀的代码心中不免肃然起敬,但是更多的时候我们会遇到很多奇葩代码,有的时候骂骂咧咧的吐槽一段奇葩代码后定睛一看作者,居然是几个月以前自己的写的,心中难免浮现曹操的那句名言:不可能,绝对不可能。
聊聊那些年遇到过的奇葩代码
|
Python
又烧脑又炫技还没什么用,在代码里面打印自身
又烧脑又炫技还没什么用,在代码里面打印自身
157 0
又烧脑又炫技还没什么用,在代码里面打印自身
|
JSON Java 测试技术
如何写出让人抓狂的代码?
如何写出让人抓狂的代码?
如何写出让人抓狂的代码?
|
设计模式 XML 监控
偷偷看了同事的代码找到了优雅代码的秘密
对于一个软件平台来说,软件平台代码的好坏直接影响平台整体的质量与稳定性。同时也会影响着写代码同学的创作激情。想象一下如果你从git上面clone下来的的工程代码乱七八糟,代码晦涩难懂,难以阔爱站,有种想推到重写的冲动,那么程序猿在这个工程中写好代码的初始热情都没了。相反,如果clone下的代码结构清晰,代码优雅易懂,那么你在写代码的时候都不好意思写烂代码。这其中的差别相信工作过的同学都深有体会,那么我们看了那么多代码之后,到底什么样的代码才是好代码呢?它们有没有一些共同的特征或者原则?本文通过阐述优雅代码的设计原则来和大家聊聊怎么写好代码。
偷偷看了同事的代码找到了优雅代码的秘密
|
Java 程序员 Apache
写完这段代码,就被开除了……
最近在Java技术栈微信公众号粉丝微信群里看到一张图,说是刚写完这段下面这段代码就被开除了。
|
Cloud Native IDE 小程序
被解救的代码 - 代码即服务时代来了!
人类对自由的追求从未停止,我们用战斗获得民族自由,我们用代码获得双手自由,同时代码作为服务器的奴隶,也开始蠢蠢欲动,革命已经开始,当代码翻身做主,作为开发者的我们又该如何适应新时代的到来?
被解救的代码 - 代码即服务时代来了!
|
编译器
“整洁代码根本就是个骗局!”
怎样的代码才是整洁的代码,而怎样的代码不是呢?——事实上,没有人会写整洁的代码。