快出海  > Cloudflare  >  在Cloudflare Workers上探索WebAssembly AI服务

在Cloudflare Workers上探索WebAssembly AI服务

来源:Cloudflare
作者:Guest Author
时间:2021-04-20
边缘的AI带来诸多好处。一个是可扩展性——将所有数据发送到集中式云是不切实际的。事实上,一项研究预测,到2025年,全球数十亿物联网设备产生的数据将达到90兆字节。另一个是隐私性——许多用户不愿意将个人数据转移到云上,然而在边缘处理数据会更迅捷。

本文客座作者为来自Latent AI的Videet Parekh,Abelardo Lopez-Lagunas和Sek Chai。

边缘网络为人工智能(AI)的性能和适用性提供了重要的机会。人工智能技术使得运行引人入胜的应用程序成为了可能,例如对象和语音识别,导航,还有推荐(recommendations)。

边缘的AI带来诸多好处。一个是可扩展性——将所有数据发送到集中式云是不切实际的。事实上,一项研究预测,到2025年,全球数十亿物联网设备产生的数据将达到90兆字节。另一个是隐私性——许多用户不愿意将个人数据转移到云上,然而在边缘处理数据会更迅捷。

当AI服务的分布远离集中式数据中心,而更靠近服务边缘时,就可以在不移动不必要的数据的前提下提高整体应用程序速度。然而,要使深云(deep-cloud)中的AI在边缘硬件上高效运行仍然存在挑战。在这里,我们使用术语“深云”来指代高度集中的大型数据中心。部署边缘AI服务可能很困难,因为AI需要占用大量计算空间和内存带宽。我们需要调整AI模型,以便从根本上减少边缘的计算延迟和带宽。

分布式AI服务案例

分布式AI的边缘网络基础设施已经广泛可用。诸如Cloudflare之类的边缘网络可服务于当今很大一部分的互联网流量,并可充当设备与集中式云之间的桥梁。高性能AI服务之所以成为可能,是因为分布式处理与边缘数据具有极佳的空间接近性。

在Latent AI,我们正在探索将人工智能部署在边缘的方法,使用的技术为人工智能模型转换和压缩到边缘。边缘AI模型的大小比传感器数据小了很多个数量级(例如,边缘AI模型的大小是千字节或兆字节,而边缘数据是千兆字节)。我们正在探索在Cloudflare Workers环境中使用WebAssembly(WASM)。我们希望通过在可用的边缘基础设施上探索可实现的性能来为分布式人工智能服务确定可能的操作点。

探索架构方法

WebAssembly(WASM)是一种新的开放标准格式,用于运行在Web上的程序。它是一种支持基于web的高性能应用程序的流行方式。WASM更接近机器代码,因此比JavaScript(JS)或JIT更快。已提前完成的编译器优化减少了获取和解析应用程序代码的开销。如今,WASM具备JS的灵活性和可移植性,并且有着几乎最佳的已编译机器代码的性能。

众所周知,AI模型具有很大的内存使用需求,因为配置它们需要大量的参数。Cloudflare已经使用其Wrangler CLI扩展了对WASM的支持,我们选择将其用于我们的探索。Wrangler是用于管理Workers的开源CLI工具,旨在为开发者提供流畅的体验。

Latent AI如何加速分布式AI服务

Latent AI的使命是使环境计算成为可能,不受任何资源限制。我们开发了开发人员工具,这些工具大大减少了在边缘上处理AI所需的计算资源,同时完全不依赖硬件。

Latent AI的工具可显著压缩人工智能模型,以减少它们的内存大小。我们在最先进的模型上展示了高达10倍的压缩率。此功能解决了许多边缘网络部署面临的加载时间延迟问题。我们还提供了一个优化的运行时(runtime),可以本地执行神经网络。其结果是,在没有任何特定于硬件的加速器的情况下,运行时的速度提高了2-3倍。这种显著的性能提升为边缘提供了快速而有效的推理。

我们的压缩使用量化算法将AI模型的参数从32位浮点数转换为16位或8位模型,并且最小化精度损失。降低比特精度的主要好处是获得更高的功率效率和更少的存储需求。现在,人工智能推理(inference)可以在分布式边缘使用连续平台上的更高效的并行处理器硬件进行处理。

优化的AI服务可以处理最靠近源的数据,并在分布式边缘运行推理。

选择真实的WASM神经网络示例

为了进行探索,我们使用了称为MobileNet的最先进的深度神经网络。MobileNets专为智能手机等嵌入式平台而设计,可以在视觉目标检测中实现较高的识别精度。我们将MobileNets AI模型压缩得很快,以代表可以部署为分布式AI服务的各种用例。请参阅此博客以获取有关AI模型架构的更多详细信息。

我们使用MobileNetV2模型变体进行探索。使用可检测的不同视觉对象训练模型:(1)具有10个来自ImageNet数据集的对象的大型模型,以及;(2)一个较小的版本,只有两个来自COCO数据集的类。COCO数据集是公共开源图像数据库,被用作AI模型的基准。图像上标有检测对象,如人、车辆、自行车、交通灯等。使用Latent AI的压缩工具,我们能够将MobileNetV2模型压缩并编译为WASM程序。以WASM形式,我们可以用较小的存储空间快速有效地处理AI模型。

我们希望WASM神经网络尽可能快和高效。我们运行了一个Workers应用程序以接受来自客户端的图像,将图像转换并预处理为清理后的数据数组,在模型中运行它,然后返回该图像的类。对于大型和小型的MobileNetv2模型,我们创建了三种不同位精度的变体(32位浮点数、16位整数和8位整数)。大型AI模型的平均内存和推理时间分别为110ms和189ms;对于较小的AI模型,时间分别为159ms和15ms。

我们的分析表明,可以通过减少内存操作的开销来改善整体处理。对于大型模型,将位精度降低到8位会使内存操作从48%减少到26%。对于小型模型,内存加载时间在推理计算中占主导地位,内存操作中的延迟超过90%。

值得注意的是,我们的结果是基于我们的初步探索的,我们更关注功能而不是优化。我们通过在50-100次迭代中平均测量结果来确保结果的一致性。我们承认,与网络和系统相关的一些延迟仍可以进一步优化,但我们相信,此处描述的早期结果显示了分布式边缘上的AI模型推理具有一定的前景。

比较大型和小型DNN的内存和推理处理时间

从真实的WASM神经网络示例中学习

我们可以从示例用例中学到什么?

首先,我们建议对部署在网络边缘的AI模型使用最小的计算和内存占用。小的内存占用允许WASM AI模型更好地排列数据类型,从而减少内存负载开销。WASM从业者都知道,WASM的加速来自于JavaScript API和本地机器码之间的API的紧密耦合。因为WASM代码不需要推测数据类型,所以WASM的并行编译可以实现更好的优化。

此外,我们鼓励使用运行8位精度的AI模型来减少总体大小。这些8位AI模型易于针对目标硬件进行压缩和编译,从而大大减少承载模型进行推理的开销。此外,对于视频图像,可以省去将数字化的原始数据(例如,数字化并存储为整数的图像文件)转换为浮点值以供浮点AI模型使用的开销。

最后,我们建议对人工智能模型使用智能缓存,这样Workers就可以从根本上减少内存加载时间,并在运行时只专注于神经网络推理。同样,8位模型允许托管更多AI模型,并为推理做好准备。根据我们的探索结果,托管的小型AI模型可以在大约15毫秒的推理时间内提供服务,具有低延迟和本地处理般的特点,提供了非常引人注目的用户体验。与诸如Tensorflow.js的纯JS工具链相比,WASM API显着提高了性能。例如,对比WASM上189ms的大型AI模型的推理时间,我们观察到Tensorflow.js工作流的范围是1500ms,也即8倍的计算延迟。

解锁分布式边缘的未来

分布式边缘网络通过优化WASM神经网络,可以使推理更接近用户,提供更接近数据源的新边缘AI服务。利用Latent AI技术来压缩和编译WASM神经网络,分布式边缘网络可以(1)托管更多模型,(2)提供较低的延迟响应,以及(3)降低功耗的同时提供更高效的计算。

使用小型AI模型检测示例人员,10倍压缩至150KB

例如,想象一下,前面描述的小型AI模型可以区分人是否在视频源中。数字系统,如门铃和门口入口摄像头可以与Cloudflare Workers连接,以验证摄像头视场中是否有人。同样,其他AI服务也可以进行声音分析,以检查破窗和漏水。借助这些分布式AI服务,应用程序无需访问深云服务即可运行。此外,传感器平台可以采用超低成本,低功耗,并且尺寸非常紧凑的硬件。

应用程序开发人员现在可以通过神经网络训练、压缩和本地编译为WASM神经网络来提供人工智能服务。Latent AI开发人员工具可以压缩WASM神经网络并提供WASM运行时,从而为设备和基础架构边缘提供惊人的快速推理。有了规模和速度的优势,开发人员可以轻松地为他们的用户创建高性能的体验,无论他们身在何处,以及规模如何。更重要的是,我们可以在边缘上扩展企业应用程序,提供使用边缘网络的投资回报。

关于Latent AI

Latent AI是SRI International的一个早期风险投资项目。我们的使命是赋能开发人员并改变我们构建边缘AI的思考方式。我们开发的软件工具旨在帮助公司将AI添加到边缘设备,并为用户提供新的智能IoT应用程序。获取有关LEIP SDK可用性的更多信息,请随时通过info@latentai.com与我们联系或访问我们的网站。

立即登录,阅读全文
版权说明

本文内容来自于Cloudflare,本站不拥有所有权,不承担相关法律责任。文章内容系作者个人观点,不代表快出海对观点赞同或支持。如有侵权,请联系管理员(hj@kchuhai.com)删除!

相关文章
Moobot vs. Gatebot:Cloudflare自动阻止654 Gbps的僵尸网络DDoS攻击
Moobot vs. Gatebot:Cloudflare自动阻止654 Gbps的僵尸网络DDoS攻击
“Moobot”这个名字听起来很可爱,但其实一点都不可爱。根据360Netlab的解释,Moobot是一个基于Mirai的自传播恶意软件的代号,该恶意软件在2019年首次被发现。它使用可远程利用的漏洞或弱默认密码感染IoT(物联网)设备。IoT是一个术语,用于描述智能设备,比如安全中心、摄像机、智能电视、智能音箱、智能灯、传感器,甚至包括了联网冰箱。
Omer Yoachimik
2021-04-26
Cloudflare发布新功能,恶意脚本能够被预警
Cloudflare发布新功能,恶意脚本能够被预警
近期,Cloudflare发布了一项新功能,旨在保护网站免受Magecart和其他基于JavaScript的恶意攻击。
Alpha_h4ck
2021-04-26
Cloudflare架构以及BPF如何占据世界
Cloudflare架构以及BPF如何占据世界
最近,在布拉格Linux网络会议Netdev 0x13上,我做了一个简短的演讲,题目是“Cloudflare上的Linux”。演讲最后主要是关于BPF(柏克莱封包过滤器)的。似乎,不管问题是什么——BPF都是答案。
Marek Majkowski
2021-04-21
终端用户安全:使用 Cloudflare防护帐户盗用
终端用户安全:使用 Cloudflare防护帐户盗用
最终用户的帐户安全始终是头等大事,但也是难以解决的问题。更糟糕的是,验证用户身份并非易事。鉴于泄漏凭据日益泛滥,更先进的自动化爬虫程序在全网发动着凭据填充攻击,保护和监测身份验证端点成为安全团队面临的一个挑战。不但如此,很多身份验证端点依然仅仅依赖于提供正确的用户名和密码,使得恶意攻击者将未被甄别的凭证填充演变为账号盗用。
Michael Tremante
2021-04-21
在Cloudflare Workers上探索WebAssembly AI服务
在Cloudflare Workers上探索WebAssembly AI服务
边缘的AI带来诸多好处。一个是可扩展性——将所有数据发送到集中式云是不切实际的。事实上,一项研究预测,到2025年,全球数十亿物联网设备产生的数据将达到90兆字节。另一个是隐私性——许多用户不愿意将个人数据转移到云上,然而在边缘处理数据会更迅捷。
Guest Author
2021-04-20
扫描关注获取更多 Cloudflare 的相关信息
服务商推荐 更多 >
北京蓝色光标数字传媒科技有限公司
蓝瀚互动
专注于为出海企业提供全套价值链服务,包括海外市场洞察、品牌营销策略、创意设计、广告优化、 账户管理、全球KOL营销、粉丝页运营等一站式整合营销服务,满足出海广告主的多元化需求。
推广
百度国际MediaGo
百度国际MediaGo
百度国际是百度极具战略意义的海外业务发展部门,拥有超过10年的出海经验。旗下出海营销平台MediaGo旨在为全球广告主提供营销整合方案。成立以来,MediaGo不断进化,在磨炼一站式海外营销服务能力的同时,连接Snapchat、Pinterest、Reddit等优质海外平台,成为连接广告主与价值洼地的桥梁。
本地化变现推广
北京易掌云峰科技有限公司
环信即时通讯云
环信,国内领先的即时通讯、在线客服、智能客服机器人提供商。
云服务
iGlobe Advisory Inc.
爱个萝卜本地化 iGlobe
爱个萝卜总部位于加拿大温哥华,为游戏出海提供所有主要语言的母语级本地化翻译,并由专业项目经理为您保驾护航。并可向全球游戏伙伴提供全方位服务,包括目标市场开拓策略,以及各国本地化运营项目监督。
本地化
厦门比朋科技股份有限公司
比朋科技股份
云服务,软件服务,定制开发
云服务外包源码
福建博士通信息有限责任公司
博士通云通讯
福建博士通信息有限责任公司专注于融合短彩信运营、互联网精准投放、语音服务、流量营销、物联网卡等多种专业的通讯能力,为金融、互联网、汽车、物流、教育、游戏、公共服务等多个领域机构提供专业的融合通讯服务和系统平台定制化开发。公司成立于1999年,总部坐落于福州,在北京、上海、深圳、成都、山东等地建立了分公司和办事处。
云服务
扫码登录
打开扫一扫, 关注公众号后即可登录/注册
加载中
二维码已失效 请重试
刷新
账号登录/注册
小程序
公众号
商务合作
投稿采访
出海管家