第四范式戴文渊:做人工智能“BRAIN”的Win95 | 原创特稿
数据,是什么?著名杂志《经济学人》5月6日这一期的封面文章是《The world's most valuable resource(世界上最宝贵的资源)》,认为数据就像100年前的石油一样,成了数字经济的大时代中最新的大宗商品,其搜集、提炼和分析,已成为驱动所有科技创新的必须。
以此作喻,第四范式(4Paradigm),这家成立仅2年的人工智能领域的新秀,有点像是数据的“炼化工厂”——利用人工智能技术对大数据进行挖掘,研发惠及各行各业的人工智能平台级产品,降低人工智能的应用门槛。
“在我看来,数据还不仅仅是‘石油’,因为石油是不可再生的资源,而数据则可以源源不断地开采。”在接受「kok汇」专访时,第四范式创始人、CEO戴文渊说,数据的价值可能会比工业时代的石油更大,大数据加上人工智能,能够把很多不一样的东西变成一样的东西,这也是第四范式所致力于打造的通用型人工智能平台的价值。
著名信息咨询公司Gartner前不久发布了一份报告,评出了2017年度东亚人工智能领域最具代表性的五家公司,第四范式和其它三家中国公司就占据了四席。第四范式的拳头产品——国内首个人工智能全流程平台“先知”,去年还荣获了“吴文俊人工智能科学技术创新奖”的一等奖,这是中国在智能科技领域的最高奖。
这是一家学霸密集、人人都称得上是“最强大脑”的公司,而且是技术与商业化能力双强。创始人戴文渊在大学期间就和团队一起夺得ACM国际大学生程序设计竞赛世界冠军和三个亚洲冠军;曾带领百度凤巢团队搭建中国最大的机器学习系统,获百度最高奖;后进入华为诺亚方舟实验室担任主任科学家,获华为“President Award”。戴文渊所著的关于迁移学习的论文在全球被引用次数位列第三,而位列第一的就是第四范式的首席科学家杨强,这位香港科技大学计算机系教授,是华人界唯一的国际人工智能协会执委、ACM杰出科学家,两次获得国际数据挖掘领域最高级别竞赛KDD Cup世界冠军。
在这支AI梦之队创业初期,kok体育中国基金就成为它的Pre-A轮投资方——彼时人工智能概念还没有被大家普遍接受。谈及第四范式,kok体育中国基金合伙人计越说:“在2年前, 还没有什么人谈论人工智能的时候,我们就在Pre-A轮投资了第四范式,当时除了非常看重创始人与团队的核心能力外,我也坚信经过几十年的IT技术发展, 数据已经在很多行业广泛存在,数据本身并不缺少, 但很需要有像第四范式这样的公司,通过AI把数据的价值更好地释放出来,并且很有希望成为世界上第一个商业化的平台。所以,早在我们决定投资时,就对他们抱有极高的期待。”
“目前能够真正使用AI,并享受到AI红利的公司少之又少,更多尚未‘AI化’的公司在思考两大问题:如何拥有AI的能力;以及在纷繁复杂的信息里面,该如何选择最适合企业自身的算法及技术。”在5月末的一场业界峰会上,戴文渊首次提出了人工智能发展的BRAIN理论,5个字母分别代表人工智能成功应用的5个必要条件: B——Big data(大数据) R——Response(持续的反馈) A——Algorithm(顶尖的算法) I——Infrastructure(基础设施即计算资源) N——Needs(明确的需求)
而在戴文渊的愿景中,第四范式将扮演这个“BRAIN”的基础操作系统角色,一如1995年Windows95的问世,彻底将人类带入了人机图形交互界面的PC时代,从而有了各种应用IT的恣意生长。
从第一范式到第四范式:科学大爆炸
就像乔布斯把公司起名为“苹果”是为了纪念“计算机之父”图灵,第四范式的名字则像是对图灵奖得主、关系数据库鼻祖Jim Gray的致敬。Jim Gray在2007年失踪以前的最后一次演讲中,将人类科学的发展解释为四个范式的演化:
第一范式:以记录和描述自然现象为主的“实验科学”,比如钻木取火; 第二范式:利用模型归纳总结过去记录的现象,比如牛顿三定律为代表的“理论科学”; 第三范式:模拟复杂现象的“计算科学”; 第四范式:通过收集大量的数据,让计算机去总结规律的“数据科学”。
也就是说,在“第四范式”时代,过去由牛顿、爱因斯坦等少数人类的聪明大脑所从事的研究工作,未来可以交给计算机去做。而新一代数据科学家,则扮演牛顿老师的角色:教计算机怎么成为一个科学家的科学家。
这正是戴文渊正在成为的角色。被导师评价为“心思缜密,判断力超越同龄人”的他,2009年放弃攻读博士学位,加入百度担任广告变现算法核心负责人,百度凤巢系统的总架构师。在百度,戴文渊初步验证了人工智能的商业潜力。他带领一个几十人的团队,并与其它部门协作,一起研发的“凤巢个性化投放策略”,使得百度的广告变现能力提升了8倍,这让戴文渊的团队在2012年获得了百万美金的“百度最高奖”。
但当他想把这套平台推广给百度其他部门时,却发现大家却用不起来。戴发现了其中的问题,他打比方说,这就像最早开飞机的是莱特兄弟,但他开的是自己造的飞机,而别人却无法驾驶;只有等到波音等大型制造商开发出通用型的飞机后,才使得普通人能够通过培训也成为飞行员。
“我觉得AI也应该是这样,真正能让它遍地开花,必须要做一件事,就是让更多的人参与进来。”为了实现这个梦想,2015年初,戴文渊和自己的导师杨强、师弟陈雨强等顶尖科学家一起创立了第四范式,希望能将人工智能推广应用到更多行业。这也是戴和伙伴们没有选择某个垂直行业创业,而是致力于做基础平台的原因。“做AI+某个领域当然是OK的,也会成为一个很好的创业方向,但我们觉得兴趣不在于此,大家的理想就是要让AI这个行业能够得到发展。”戴文渊说。
他窥到的门道是:“这么多年来我好像跨度很大,广告、通信、手机、金融等行业都涉足过,在别人看来跨度很大的事情,其实在我看来很好理解,我只是训练机器学会完成这些任务。这就像人的大脑,吃饭、学习、开车都是用的同一个大脑,所以AI有一种潜力,能够把过去看起来很不一样的东西以某种算法统一化”。
做AI时代的Win95
创业之初,戴文渊和团队希望做一个更高效的工具级产品,让第四范式的人工智能专家能够用这个工具帮客户在一两个月内快速建立大数据分析能力,但很快发现这并不可行。“拜访金融行业客户,发现它们的需求特别分散,一个企业内就有好几百个场景。”戴发现,AI所能覆盖到的应用比他们想象的要多好几个数量级,不可能由一家公司去做。
很快,他们便进行了思路的转变,希望能让客户自己去做机器学习,而这样就需要去开发一个能够让非专业人士使用的机器学习平台。这也就是第四范式·先知平台的由来。从2015年4 月初开始筹备,到 8月份第四范式团队便写完了第一个1.0版本,这个版本完成了机器学习的全流程,但缺陷就是门槛比较高,就像是莱特兄弟造的飞机。2016年7月 20 日,第四范式对外发布了2.0版本,这次增加了非专业人士能够使用的机器学习算法,甚至只需要培训一个月左右的时间,就能够用先知平台迅速建模。先知平台封装了前沿的人工智能算法,比如最新的HE-TreeNet,最大程度地提升自动特征工程能力,显著降低建模过程中数据科学家的工作量;再比如模型实时预估服务,它可以改变过去凡涉及实时服务项目必须订制开发的局面,大幅度降低项目工作量。
“用我们圈里的行话,这叫‘炼丹’,就是你也不知道炼出来的丹有没有效果,反正就是扔进去试一下。”戴文渊解释说,先知平台,就是要把“炼丹”的过程变成一个类似傻瓜相机式的开发平台。从用户的角度来看,使用先知平台只需要做三件事情:第一,确定这个目标是什么;第二,收集这个目标的反馈;第三,点一下让机器解决。
今年1月,第四范式内部举行了一场名为“一颗赛艇”的比赛。这场特殊的比赛,对参赛选手唯一的身份要求就是非“数据科学家”、非“建模工程师”,是全球首个非专业人士参加的人工智能建模大赛。此前,纵然人工智能已经成为围棋、扑克的高手,但还没有任何一个公司敢挑战“让普通人做出AlphaGo”这一难题。
比赛规则是利用业务场景的数据建立模型,比拼模型对业务关注目标的预测能力。最终,在没有经过任何专业培训的情况下,有超过70%的参赛组合AUC成绩(AUC是衡量模型效果的专业指标,取值在0到1之间)跨过0.8大关。这个成绩意味着什么?在实际业务中,凡是AUC高于0.8的模型就已经达到值得振奋的工业水准;而在整个行业中,只有极少数深耕机器学习多年、拥有丰富大规模数据处理经验的数据科学家才能搭建出AUC 0.8以上的模型。
这验证了先知平台的能力,也让戴文渊离他的梦想接近了一步:让AI终能“for everyone”,让普通人都能够成为AI的参与者、使用者和创建者。就像Win95的出现和个人电脑的普及,让PC for everyone一样。
“kok是在跟我们一起创业”
2015年1月,第四范式刚刚成立不久,经朋友介绍,戴文渊和kok体育中国基金合伙人计越在上海第一次见面。戴当时并没有着急想融资,两人漫谈了3个多个小时。但让戴没想到的是,kok中国是认真的,在春节前,即敲定交易,成为第四范式的早期Pre-A轮投资方。
“那时AI是没有太多投资人在关注的,另外,企业级服务市场也不是热点,那时创业风口和投资热点都在做O2O上。”戴回忆接受kok投资的原因,“选投资方也像是找创业合伙人,双方要在对未来的趋势判断上达成共识。如果希望我们瞬间像滴滴那样爆发,那不是一个正确的预期。而kok则是在跟我们一起创业。”
戴提到了这样一个细节。最近,当他重新翻出彼时接受kok中国投资时做的BP,发现2年来,第四范式做的事情,正是当初他表达的初心和愿景,并没有改变。“我当时说我希望做的事情是希望AI技术能够用更高效的方式去帮助和应用到更多行业和企业中。如果让我换一件事情去做比如互联网金融,我可能就不想做了。我的创业动力不来自于这个”。
“很关键的是kok认同这条路。”戴文渊说。
戴还提到kok中国对其的帮助。在第四范式规模还较小时,计越就建议要考虑建立客户服务的团队。“当时我们觉得还早,现在回过头去想,却都觉得建得有点晚了,如果当时就着手,可能我们的发展比现在还要快一些”。
从人工智障到人工智能
以谷歌AlphaGO战胜李世石为标志性事件,人工智能概念在2016年迅速被大众所闻知,也成为炙手可热的投资领域。据风投数据公司CB Insights统计,2016年全球范围内共有550家人工智能初创企业获得50亿美元投资。
这其中,不乏有一些“蹭热点”企业也试图给自己贴上AI的标签,今年以来,出现了一波关于人工智能“泡沫论”的声音。不过,戴文渊对此不以为然:“如果看整个AI行业,我不觉得有泡沫,而且我觉得AI的能量仍然被低估了很多。”在他看来,AI现在并没有迎来真正的爆发,还不应到反思、唱衰的阶段,而受阻的最大原因是AI的从业者太少。人工智能技术,不再仅仅是革新生产工具,而是将创造出数量空前的 “新劳动者”。从创造新的生产工具,到创造新的劳动者,从而使生产力水平实现前所未有的飞跃,其影响程度将超越以往的任何一次科技革命,整个社会经济形态未来也会发生根本性变革。
由此,你可以明白第四范式为什么会推出范式大学了。面向没有专业背景的工程师,不需要精通机器学习算法和模型;不需要精通计算机、数学、统计学;不需要有大型数据挖掘经验、大规模数据处理和分析经验;唯一要求:有一定的程序员能力基础——从某种程度上说,这是在为整个AI行业的未来培养人才。
除“泡沫论”外,一些人心存疑虑的原因,还因为目前一些AI的应用并不那么让人满意,有些甚至看起来就像是“人工智障”。戴文渊认为,这里既有先天的算法模型不成熟的原因,也有后天的因素,某些领域,训练AI的数据量还不够。不过,“现在的AI虽然显得还比较笨,但它比人勤奋,只要通过不断喂给它大量数据,它会变得聪明”。就像人类掌握某种技能有一个一万小时理论一样,AI会在那些能够达到1千万以上样本的领域内率先看到应用成果。
“AI一定会在那些容易获得大量数据、试错成本不高的领域率先爆发。”戴文渊表示,人工智能之所以能够为企业的业绩增长带来突破,是因为人工智能可以在海量数据中挖掘真实的个体用户需求,并为每一个用户量身打造符合需求的产品及服务,从而提高用户响应率、增强用户体验、拉升用户黏性、扩展收入方式等。这不同于以往的“圈地”换取流量及入口,而是使用户与企业的互动由被动变为主动,运营效率大大提升。
精准定位用户、快速作出响应、灵活应对需求是人工智能技术应用的三大法宝。
首先,在营销的效率提升方面,人工智能可以做到精准推荐个性化商品或服务、降低资源错赔率,例如亚马逊和淘宝的智能商品推荐体系、让用户更轻易地找到符合心中所想的产品,今日头条的个性化阅读推荐、让用户在尺寸有限的手机屏幕里、获得更希望看到的新闻实事。
其次,信息更新速度的加快,也对企业决策的快速响应提出了更高要求。在瞬息万变的环境中快速识别任何稍纵即逝的机会、并完成实时决策应对,是人工智能提升运营效率的重要一环。
第三,当下用户的需求和行为在不断变化,从日新月异的环境中不断自学习、及时自修正策略并形成闭环、以适应外部的持续变化才能尽可能获得最大的收益,保持竞争优势。
未来人工智能技术将像互联网一样,渗透到每一个场景、每一台设备和每一种服务里。金融、互联网、电信、传媒、制造等行业的企业已经纷纷布局人工智能。以第四范式为例,其基于金融行业的产品营销、差异化定价、风险控制等解决方案让银行客户可以从海量数据中精准定位客户,识别风险,给予客户专属的个性化产品,并挖掘客户的潜在需求,让整个生产、消费环节效率提升,让企业在投入最少人力、财力的成本下获得最大收益。
AI最终会如何改变人类世界?在越过奇点之后,会成为人类更好的朋友,还是弗兰肯斯坦医生放出的怪兽?戴文渊说,他时常想起电影《蜘蛛侠》里那句经典台词:能力越大,责任越大。“在十年前,人类不需要考虑AI安全性问题,也没有必要考虑这个问题;但现在确实需要考虑这个问题了。”他说,“技术本身肯定是中立,但是科学家是人,需要考虑社会责任感。所以我们一直在不断思考这个问题,当我们能力变大的时候,什么样的方式是对整个社会更好的方式。”