您现在的位置是: 首页 > 科技 >

Netflix我们的Metaflow Python库现在是开源的 用于更快的数据科学

  • 2021-07-30 11:46:06
导读 最近Netflix我们的Metaflow Python库现在是开源的 用于更快的数据科学这个话题,相信很多小伙伴都是非常有兴趣了解的吧,一段好的故事可

最近Netflix我们的Metaflow Python库现在是开源的 用于更快的数据科学这个话题,相信很多小伙伴都是非常有兴趣了解的吧,一段好的故事可以给读者带来很多值得深思的新东西,甚至还可以在一定程度上让读者的视野在瞬间扩大,那么既然现在大家都想要知道此类的信息,今日小编将给带来关于Netflix我们的Metaflow Python库现在是开源的 用于更快的数据科学的资讯!

Netflix的数据科学团队开源了它的MetaflowPython库,这是它用于构建和部署数据科学工作流的“以人为中心”机器学习基础设施的关键部分。

这家视频流媒体巨头将机器学习应用于其业务的各个方面,从剧本分析,到优化生产计划,预测搅动,定价,翻译,以及优化其巨大的内容分发网络。

据Netflix软件工程师称,建立Metaflow是为了帮助提高其数据科学家的生产力,他们喜欢通过Python代码表达业务逻辑,但不想花太多时间思量工程问题,如对象层次结构、打包问题,或处理与他们的工作无关的晦涩API。

Metaflow背后的想法是让Netflix数据科学家能够及早了解原型模型是否会在生产中失败,让他们能够解决任何问题,并在理想情况下加快部署时间。今年2月的Netflix披露,Metaflow帮助将中位部署时间从4个月缩短到仅仅7天。

Netflix在新的metaflow.org网站上提供了Python库的这种简单描述:“metaflow帮助您设计工作流程,按规模运行,并将其部署到生产中。它自动对你的所有实验和数据进行版本和跟踪。它可以让你在笔记本上轻松地检查结果。”

它还可以与流行的Python数据科学库一起使用,包括PyTorch、Tensorflow和SciKitLearning。

众所周知,Netflix是亚马逊网络服务(AWS)的最大用户之一,因此,Metaflow与众多AWS服务集成,包括能够对Amazon S3中的所有代码和数据进行快照,这并不奇怪,Netflix使用的是它的“数据湖”。这种能力应该帮助用户使用AWS的存储、计算和机器学习服务快速扩展模型。

在S3中快照代码的能力是使Metaflow的自动版本操纵和实验跟踪能够安全地检查和恢复Metaflow的执行。

Metaflow还与“高性能的S3客户端捆绑在一起,可将数据加载到10Gbps”。

客户端同意 任何组织的数据科学家实现Netflix数据科学家在过去几年中所做的工作..Netflix今年4月透露,它使用Metaflow“推动Python的极限”,使其能够使用“并行化和优化的Python代码以10Gbps的速度猎取数据,处理内存中数亿个数据点,并在数万个CPU核心上编排计算”。

Netflix软件工程师今天表示:“这个客户端在我们的用户中已经大受欢迎,他们现在可以比以前更快地将数据加载到他们的工作流中,这使得迭代周期更快。”

Metaflow还集成了基于AWS容器的Batch计算平台。

Netflix认为,AWS上的Metaflow同意 开辟人员获得在笔记本电脑上开辟的速度,云中可用更深层次的计算资源。

“Metaflow使在本地执行模式和远程执行模式之间来回移动变得容易”,不需要对每个状态的代码或库进行更改,这反过来又会使故障排除变得容易。

版权声明:转载此文是出于传递更多信息之目的。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系,我们将及时更正、删除,谢谢您的支持与理解。
Top