芯东西 9 月 15 日报导,今天,在百度科技沙龙 AI 呀,我去 第二期活动上,具有多年从业经历的百度昆仑芯商业分析师宋春晓环绕芯片出产制作和使用环节进行共享,并透露了刚从百度独立出的 AI 芯片公司昆仑芯科技的产品道路规划。
昆仑芯科技前身是百度智能芯片及架构部,于 2021 年 3 月完结了独立融资,6 月顺利完结分拆,成立了昆仑芯(北京)科技有限公司,现在估值约 130 亿元。在刚刚落幕的 服贸会 上,昆仑芯与北京市海淀区政府签定协作协议,将为区域开展注入 芯动能 。
src=宋春晓完好回忆了昆仑芯科技开展进程、历代 AI 芯片产品和昆仑芯的任务与愿景,并提及接下来昆仑芯的产品道路 年推出云端 AI 芯片百度昆仑 1、2021 年推出昆仑芯 2 后,昆仑芯科技计划在未来推出昆仑芯 3、用于无人驾驶的昆仑芯和昆仑芯 4。
src=一、AI 芯片竞赛的终极目标在活动期间,宋春晓共享道,芯片纳米越小不必定越好,过火重视单芯片的算力、只用算力目标去评判芯片 厉不凶猛 ,是片面的。通用性、易用性及性价比,才是 AI 芯片之间竞赛的终极目标。
纳米(nm)是芯片制程工艺的一种命名办法,数值越小未必代表越先进。纳米的命名更像是工艺代际、乃至是商业和商场视点的命名,是个定性的对晶体管集成度的表述。
各种新的技能的呈现,比方晶体管的形状、摆放办法发生了改动,摩尔定律放缓了,命名也就没有了同一规范。
为什么造芯这么难?宋春晓为我们介绍了芯片的全体研制和出产流程。一款芯片的前端和后端规划要耗时 1~3 年,规划完结后的流片环节,需求 3~6 个月,还会有流片失利悉数重来的危险。流片失利 3-5 次是十分正常的现象。假如流片成功,依然还需求经过 3~12 个月的测验调优,才干完结终究的量产。
所以,一款芯片的线 年。而百度昆仑芯两代产品均在一年半左右完结规划,都是一次流片成功,这在必定程度上表现了百度昆仑芯的研制实力和务实情绪。
二、深耕造芯 10 余年,有完好国产化解决计划关于昆仑芯的下一步开展,宋春晓用完结更快(至少要连续摩尔定律)、更强(用核算赋能更多或许)、更省(让更多工业享用核算的盈利)来归纳,她说到未来是核算机体系结构的黄金时代,昆仑芯科技将从架构、芯片完结、软件和使用各个层次立异来饯别 用科技让杂乱的国际变简略 的任务。
百度从 2011 年起布局 AI 加快范畴,到现在,昆仑芯团队深耕 FPGA 到 ASIC 芯片已 10 余年,在体系结构、芯片完结、软件体系和场景使用均有深沉堆集。
2016 年,昆仑芯团队初次提出 100% 自研中心架构 XPU,面向通用 AI 核算,通用性和功率明显前进。
昆仑芯片产品是团队十年磨一剑的效果。芯片研制的杂乱程度注定了这是一场时刻与耐力的比拼,百度昆仑芯起步早、发展快,现已成为 AI 芯片职业的领军玩家。
昆仑芯片可用做推理和惯例练习,支撑通用 AI 算法,在核算机视觉、语音辨认、自然语言处理和引荐的算法上的功能目标高效且安稳。
作为百度 AI 渠道的中心组件,百度昆仑芯 AI 芯片原生支撑国内生态最抢先的开源深度学习结构飞桨、百度机器学习渠道(BML)及各垂类的 AI 才能引擎。
值得一提的是,昆仑芯不只支撑全球干流 CPU、操作体系、PyTorch 和 TensorFlow 等深度学习结构,还有完好的国产化解决计划,和多款国产通用处理器(包含飞扬、申威、海光等)、国产操作体系(麒麟、统信、深度)、国产深度学习结构(飞桨)完结端到端的体系适配。
三、昆仑芯1代量产超2万片,2 代功能前进 2-3 倍到现在,昆仑芯 1 代至今已量产超越 2 万片,在百度查找引擎、小度和广告事务中布置超越 2 万片,服务有 50 多家外部客户,是国内仅有一款支撑了互联网大规划中心引荐算法的 AI 芯片。
昆仑 1 代 AI 核算处理器(Baidu KUNLUN AI Computing Processor)为云端和边际端的 AI 事务而规划,于 2018 年正式推出,其根据百度自主研制先进 XPU 架构,旨在经过软硬件的协同立异,量级的前进核算效能,为各工业智能范畴供给易用、高效、安全、安稳的智能核算产品。
昆仑 1 代处理器选用 14nm 工艺、16GB HBM 先进内存和 2.5D 封装解决计划,供给高达 512GB/s 的内存带宽,在低于 150W 功率下可完结 256TOPS 的 INT8 处理才能。自推出以来,昆仑芯 1 代已被布置和使用于许多 AI 使用场景。
2021 年 8 月 18 日,百度创始人、董事长兼 CEO 李彦宏在百度国际大会上宣告第 2 代自研 AI 芯片——昆仑芯 2 正式发布。
昆仑芯 2 的功能、通用性、易用性较 1 代产品均有明显增强。该芯片搭载自研的第二代 XPU 架构,比较 1 代功能前进 2-3 倍。整数精度(INT8)算力到达 256TOPS,半精度(FP16)为 128TFLOPS,最大功耗为 120W。
src=硬件规划上,该芯片是国内首款选用 GDDR6 显存的通用 AI 芯片。此外,昆仑芯 2 还高度集成了 Arm CPU 算力,并支撑高速互联、安全和虚拟化。软件架构上,昆仑芯 2 大幅迭代了编译引擎和开发套件,支撑 C 和 C++ 编程,可编程性国内抢先、对标全球业界最先进水平。
场景方面,昆仑芯 2 抢先的规划使产品能够适用云、端、边等多场景,可使用于互联网中心算法、才智城市、才智工业等范畴,并还将赋能高功能核算机集群、生物核算、智能交通、无人驾驶等更广泛空间。
四、已在百度内部大规划使用宋春晓共享说,人均算力值是促进社会经济前进的重要目标。百度判别算力是未来社会开展的出产力,芯片是算力的来历。就像电力奠定工业社会开展的柱石相同,算力将成为智能社会的柱石。
百度也正使用其本身 AI 才能协助传统工业前进经济功率,以及赋能新工业来发明新的经济价值。而功能更强的昆仑芯将起到有力支撑。
据悉,昆仑芯片已在百度内部得到大规划使用,经过引进无损低精度推理的计划,软硬件的优化规划,既发挥了定点核算的功率优势,又避免了精度丢失。昆仑芯片在引进过程中改进了编程模型、动态优化缓存分配、数据流重构等一系列立异技能,充沛发掘算力和架构的优势。
在引进昆仑芯片后,百度查找事务效果在各个目标上都得到了大幅前进,功能比较原有 GPU FP32 和 FP16 有 2 倍以上的前进,代替万片以上 GPU 和相关服务器等,TCO 节约上亿下降固定资本投入。这也使事务能有更多的算力资源进行新算法开发 & 迭代。
在工业质检范畴,百度昆仑相同得到广泛使用。传统工业质检根据图形学特征提取的办法,质检质量受制于鲁棒性差、光源和布景改变,而深度学习办法能够满意现在对产品零件杂乱度高、规划大、产品代际更新快等特色的需求。
在布置了百度昆仑的智能工厂,机器主动对物体外表的缺点进行巨细、方位、形状的检测,任何细小的瑕疵都能够被直接符号。算法机一起处理 24 个模型,处理完一切流程仅需 480 毫秒;经过深度学习算法关于各种缺点进行学习后,能精确辨认产品的悉数 33 类缺点,漏检率控制在 0.1% 以内,并能使全检出货到达 AQL 0.4 规范。
该设备相关于标传统视觉检测的同类机型,出资回报率是传统机型的 6.5 倍。
结语:独立融资后,昆仑芯迈向下一征途除了具有自研 XPU 架构及多项自主规划,昆仑芯 AI 芯片也同飞扬等多款国产通用处理器、麒麟等多款国产操作体系以及百度自研的飞桨深度学习结构完结了端到端的适配,具有软硬一体的全栈国产 AI 才能。
在独立融资后,昆仑芯科技不只有望取得更多外部资金用于研制投入,也能将此前更多在百度内部使用所堆集的技能及落地经历向更广泛的用户输出。
Copyright © 作者:星空体育下载官网链接(中国)下注册登录APP版权所有 星空体育下载官网
全国服务电话:15853191456 传真:0531-87218226
公司地址:山东省济南市长清区文昌山庄153号