别在朋友圈随便发自拍了,小心哪天成了小黄片主角....

2017年12月16日 滴答澳洲站


授权转载自INSIGHT CHINA 

微信号:weinsight 

原作者:谷子


一部让人面红耳赤的小黄片,主演居然是著名国际影星!是她“下海”了还是演员长得像?都不是,只是一个技术宅用电脑“合成”出来的。最近,这样的事情就在美国真实发生了,而他所用的技术人人都可得到……到底是怎么回事?和主页君一起来看看。


话说,最近外网上流传着这么一些小视频。


这个是艾玛·沃特森:



这个是斯嘉丽·约翰逊:



而这位是麦茜·威廉姆斯,《权力的游戏》主演…



好了,这车再开下去主页君明天就见不到各位了……



不要误会,并不是这些女影星“下海”了,也不是 AV 演员长得像她们,以上这些作品全部出自一个美国程序员之手。这些小黄片是他用电脑“合成”出来的。


他到底是怎么做到的?



美国知名论坛 Reddit上,有一个 18X 版块 “CelebFakes(伪造名人)”,注册会员超过4万。


顾名思义,这个版块就是专门 PS 明星黄图的交流区。他们主要还是用普通色情图换上明星的脸,少数 GIF 和小视频质量很低,一看就很不自然。



但就在最近,一位名叫 deepfakes 网友发表的作品,却一下子在论坛内“一鸣惊人”,甚至还吸引来了主流媒体报道他的“作品”。


因为和只会 PS 的人不同,deepfakes 使用的是最近非常火爆的人工智能机器学习技术


使用谷歌提供的开源工具TensorFlow,加上从谷歌和 YouTube 找到的大量图像和图片数据,deepfakes 成功地复刻了神奇女侠主演 Gal Gadot 的脸蛋,并移花接木地把她“嫁接”到了一部成人电影的女主角脸上



这和之前制作色情 GIF 的抠图、贴图方式有质的区别,如果说前者的效果相当于“戴面具”的话,deepfakes 的做法就相当于完全给视频中的人换了张新脸


也正因为此,这段长达七分钟的视频看起来十分逼真,无论是低头,蹙眉,眨眼还是转脸,Gadot 都“表演”的很自然,对于不熟悉她的观众来说简直就是这位女影星下海的“实锤”了。


(当然,女神忠实粉丝还是能一眼看出来的——毕竟Gadot可没有这么丰满……)


上文那些小黄片,就是出自这位非常有想法的“汽车制造厂厂长”之手。



虽然这些视频还达不到百分百的以假乱真,例如口型对不上,眉毛错位,有些地方会出现方块等 bug,但总体而言的完成度已经是相当之高。


以上“作品”并不需要专业团队或复杂的软件和计算机,一台普通电脑,一套机器学习软件加上一个对此略有所知的程序员——齐了。而且对于硬件的要求也并不高,人工智能专家 Alex Champandard 在一封邮件中表示,用一块普通的民用消费级显卡,在几个小时内就可以制作完成,换成 CPU 也只需要几天时间


“这已经不是什么‘高科技’了。”deepfakes 对记者这样说。


TensorFlow 是谷歌专门为学生,教育机构和研究者提供的免费开源深度学习系统。实际上它的应用前景和范围都非常广泛,例如,它可以将普通照片变成梵高风格的油画;识别视频中出现的人的性别年龄;为黑白简笔画上色;增强机器翻译的准确度等等。



(这么牛逼的人工智能技术,你们就拿来做黄片,也是没谁了……_(:з」∠)_)




事实上,针对影像作品的“造假”手段,在近两年已经越来越成熟。


开发出大名鼎鼎的 Photoshop 的 Adobe 公司,在这方面一直致力于开发各种“黑科技”。在2016年推出的视频剪辑软件 Premiere Pro 中,有一项被称作「Morph Cut」的新技术。


简单来说,这个功能可以识别视频中人物头部和肢体的移动,在分析处理后,将所有有轻微移动的地方“抹平”,让被采访人物的对话看起来“毫无剪辑痕迹”。


这么说可能太难以理解,看下面这张动图就能理解了:


左边是处理后的效果,右边是原片


Adobe 的原意是为了让人物类视频能做的更加自然,但从另一个方面讲,这项功能也可以实现几乎完美的“断章取义”


假如你在采访中说了一句“我爱吃面条,不太喜欢面包”,媒体在后期中完全可以将其处理为“我爱吃面包”,一点痕迹都没有……


不仅仅是图像,声音也可以。


2016年底,在 Adobe Max 创意者大会上,工程师 Zeyu Jin 现场展示了最新声音处理软件 VoCo。


Jin 将喜剧演员 Keegan-Michael 的采访录音输入VoCo,之后仅仅是打了几个字,电脑就用 Michael 的声音对现场主持人 Jordan Peele 说出了一句“我亲吻了 Jordan 三次”。



Ordan 被吓得从椅子上跳起来,大喊“你这个巫师,你是魔鬼!”


而按照 Jin 的说法,只需一段20分钟的录音,VoCo 就可以模拟任何人的讲话,包括语气词,停顿等等。


同样在2016年,在国际计算机视觉大会上,来自德国纽伦堡大学的一个研究团队公布了一项被称作「Face2Face」的面部识别追踪技术。


研究者使用摄像头捕捉一个普通人的面部表情和光影,之后经过复杂算法渲染和重构,和视频背景进行复合,最终在荧屏上呈现出完全不同的另一个人的脸,无论是嬉笑怒骂还是口型动作都完全一致且近乎无延迟。



媒体惊叹于他们的成果时,这项技术也遭到了大量非议。有网友就直指这项技术一旦泛滥“完全可能被用于伪造犯罪记录和诈骗”,“只是想想,任何人都可以做出总统讲话的录像的话,我们的国家安全何在?”


研究者也深知这一点,Justus Thies 就表示出于安全原因,暂时不会对外公开 Face2Face 的源代码。但研究团队的成员 Matthias Niessner 告诉媒体,已经有相当数量的人和他们接触,请求将这项技术商业化


到底是什么人想用它做,什么呢……




毋庸置疑,任何一项新技术的发明初衷都是为了改善人类的生活,它们绝大多数也确实做到了。例如上文引起争议的“换脸”技术,其原型和相似技术几年前就广泛应用于影视行业之中了。


电影《终结者2018》中,导演利用特效技术让一代主演阿诺德施瓦辛格在其中出场一秒,这个桥段当年还被影迷津津乐道。


《速度与激情7》中,由于主演保罗·沃克意外去世,电影公司找来他的两个弟弟担任替身,在后期中使用 CGI 技术替换掉了弟弟的脸,让保罗成功“复活”,圆了无数粉丝一个梦。



但另一方面,这些技术带来的道德和法律风险也是显而易见的,上文提到的种种技术,最让人震惊的还不是它们的“拟真”程度,而是达到类似效果所需的素材和技术门槛低到简直不可思议


Deepfakes 仅仅是搜集了谷歌和 YouTube 上那些女明星的所有公开照片和视频,Jin 制造的 Michael “出柜录音”,所用素材也仅仅是他在一次颁奖典礼上的讲话。


想象一下你随手发在朋友圈,微博的照片,你分享给朋友的短视频,乃至你和别人的一次语音通话都,可能成为日后他人“栽赃”你的材料,这件事本身就足够细思恐极。


根据谷歌的统计数据,从2015年到2016年,单是上传到谷歌相册的自拍照片就多达240亿张,在这样一个互联网大数据时代,“造假”的门槛变得越来越低



比方说姑娘们,假如有一天你和男朋友吵架分手了,结果回头这个渣男用你朋友圈的照片和你平时打电话的录音合成了一段不雅视频,直接发到网上,你怕是跳进黄河也洗不清了……


研究者确实也想到了这一层。Jordan 在听完“自己被人亲”的录音以后就问 Jin“如果你这项技术落到了坏人手里怎么办?”Jin 则回应,“我们有研发相关的水印识别技术可以鉴别出修改后的录音,相信我们,我们花费了和研发同等的精力在如何防止滥用上。


这恐怕就是我们这个时代的种微妙的矛盾——在大部分网民依然本能地相信自己眼睛看到的东西。,但在图像处理科技日新月异发展的今天,要鉴别究竟什么才是“真实的”,确实将会变得越来越难。




收藏 已赞