米乐M6 米乐IC设计新秀创鑫智能凭什么在“高能效”方面打败NVIDIA
应半导体策略计划成立创鑫智能数据中心AI推论60%工作量在推荐系统创鑫智能专攻推荐系统做到世界第一
今年初开放工程联盟(MLCommons)的MLPerfAI推论(inference)性能基准测试中,有一家台湾公司端出了世界第一个专为数据中心推荐模型(Recommendation Model)设计的AI芯片RecAccelN3000的测试数据,并在服务器领域的能源效率(energy efficiency)打败英伟达(NVIDIA),成为世界第一能效的AI加速平台-它就是米乐 M6米乐IC设计新秀“创鑫智能”。
说起自2019年成立的创鑫智能,首席技术官高肇阳分享,创鑫智能成立的契机,要把时间轴拉回2018年科技部长陈良基推动的半导体策略计划来说。那时候还在清华大学信息工程系任教的教授林永隆响应计划,号召几位已经有工作经验的工程师一起来执行计划,而这个计划与其他计划的不同之处,在于计划需要与产业连接,也就是一开始就要设置产学界合作的实际方向。
他口中的林永隆正是创意电子的共同创办人之一。事实上,创鑫智能是林永隆退休后的第二次创业,高肇阳指出,最初团队是跟硅谷一家做语音IC的大厂合作,共同开发第一颗可以做串行式资料(sequence data)的AI处理芯片,可以广泛用在边缘设备(Edge Device)的终端产品,像是有麦克风的地方就可以应用这类的产品。
创鑫智能提供一个IP整进对方的芯片,现在这颗芯片很成功,已经在量产。高肇阳指出,到了2019年,创鑫智能就正式从清华大学分拆出来,并获得投资人的支持,因此开始思考下一轮产品研发方向,锁定的就是AI边缘设备的终端产品,会选择数据中心(data center)专用的AI芯片,主要就是因为台湾产业在这方面的着墨较少,目标要切入一个适合创业公司发挥的新舞台。
锁定数据中心的AI芯片后,高肇阳米乐 M6米乐说明,团队开始收集适合的资料,发现Google就曾说数据中心每日的AI推论的计算,超过60%是在做深度学习(DLRM)的推荐系统,而Facebook母公司Meta公布的资料显示,数据中心每日AI的工作量有70%以上是推荐系统。
高肇阳分享,从用户的角度,其许可以深刻感受到这件事,因为当用户在玩手机App时,页面就会一直出现新闻、广告、音乐、购物的推送,这些背后全部都是推荐系统。若从Google的使用体验来看,当用户输入关键字,每个人看到的页面显示结果都不太一样,所以可以想象推荐系统的应用很广,代表整个人信息料中心提供的主要服务就是推荐系统,因此锁定推荐系统用的专用AI芯片。
最重要的是, Facebook在2019年曾在开放运算计划(Open Compute Project)公开征求推荐系统的专用芯片,高肇阳指出,创鑫智能因此看到市场的趋势所在,所以决定从边缘运算端切换到数据中心。
选定公司接下来发展的主轴后,创鑫智能用短短四年就成功打造出AI芯片。创鑫智能的这颗AI芯片的性能是2.44倍,内置16万个乘加器(MAC)及150MB内存,只需要20Watt,每秒便可进行2,000万次DLRM推论,为全球唯一可达到每秒单一推论能耗1微焦耳,具备运算速度快、高性能、高省电的特点,并在2022年宣布投产台积电7纳米制程。当时, 7纳米一片芯片代工价格就超过40万元,一家大众都不熟悉的创业公司竟然有能力采用7纳米制程,令业界刮目相看。
针对创鑫智能这颗在省电“高能效”拼出世界第一的AI芯片关键技术所在,高肇阳分享,英伟达生产的是图形处理器(GPU),可以做的事情很多很广,但是创鑫智能做的是特定应用集成电路(ASIC),专门针对推荐系统的软件、硬件、架构、资料流、精准度等应用,特地优化设计出来的芯片和系统,而系统就包括软件、PCB加速板、芯片一整套为深度学习量身定做的推荐系统。
外界或许会好奇,创鑫智能的致胜策略究竟是什么?答案是“锁定一个特定的目标,把问题的范围缩小”。高肇阳强调,其实最初并没有想着要全面性打败英伟达的性能,反之,他们一开始就是锁定单点突破,因为MLPerf的评测就像是AI加速运算的奥运会,里面有很多不同类别的比赛,而英伟达的GPU是十项全能的运动高手,每一项比赛都可以参与到完赛,但是创鑫智能的AI芯片就是锁定深度学习推荐系统的单项做到最好。
而这家选择做自己最擅长领域、缩小打击范围,并做到最好的创业公司,面对着市场快速的变化,它也已经在规划下一代的产品,目标就是可以支持更多样的运算,然后更新种类的推荐系统,以及更好的性能功耗比,并确定仍会持续往推荐系统这条路来走。除了产品的推陈出新,创鑫智能还有另一项重要的目标,那就是期望两年内员工规模可以扩大到100人,真正地走向世界舞台与国际大厂竞争。
扫一扫关注微信公众帐号