您当前的位置：首页 >> 电视剧 > >>

使用PyTorch 2.0 加速Hugging Face和TIMM库的模型

来源: 时间：2022-12-24 13:37:12

点蓝色字关注“机器学习算法工程师”

设为星标，干货直达！

PyTorch 2.0引入了**torch.compile()**来加速模型，这篇文章我们将介绍如何使用**torch.compile()**来加速Hugging Face和TIMM库的模型。

【资料图】

torch.compile() 使得尝试不同的编译器后端变得容易，从而使用单行装饰器 torch.compile() 使 PyTorch 代码更快。它可以直接在 nn.Module 上工作，作为 torch.jit.script() 的直接替代品，但不需要您进行任何源代码更改。我们希望这一行代码更改能够为您已经运行的绝大多数模型提供 30%-2 倍的训练时间加速。

opt_module=torch.compile(module)

torch.compile 支持任意 PyTorch 代码、控制流、变异，并带有对动态形状的实验性支持。我们对这一发展感到非常兴奋，我们将其称为 PyTorch 2.0。

这个版本对我们来说不同的是，我们已经对一些最流行的开源 PyTorch 模型进行了基准测试，并获得了 30% 到 2 倍的大幅加速（见https://github.com/pytorch/torchdynamo/issues/681）。

这里没有技巧，我们已经 pip 安装了流行的库，比如https://github.com/huggingface/transformers, https://github.com/huggingface/accelerate 和 https://github.com/rwightman/pytorch-image-models等流行的库，然后对它们运行 torch.compile() 就可以了。

很难同时获得性能和便利性，但这就是核心团队发现 PyTorch 2.0 如此令人兴奋的原因。Hugging Face 团队也很兴奋，用他们的话说：

TIMM 的主要维护者 Ross Wightman：“PT 2.0 开箱即用，适用于推理和训练工作负载的大多数 timm 模型，无需更改代码。”

Sylvain Gugger 是 transformers 和 accelerate 的主要维护者：“只需添加一行代码，PyTorch 2.0 就可以在训练 Transformers 模型时提供 1.5 到 2.x 的加速。这是引入混合精度训练以来最激动人心的事情！”

本教程将向您展示如何使用这些加速，这样您就可以像我们一样对 PyTorch 2.0 感到兴奋。

安装教程

对于 GPU（新一代 GPU 的性能会大大提高）：

pip3installnumpy--pretorch--force-reinstall--extra-index-urlhttps://download.pytorch.org/whl/nightly/cu117

对于CPU：

pip3install--pretorch--extra-index-urlhttps://download.pytorch.org/whl/nightly/cpu

当安装好后，你可以通过以下方式来进行验证：

gitclonehttps://github.com/pytorch/pytorchcdtools/dynamopythonverify_dynamo.py

另外一种安装方式是采用docker，我们还在 PyTorch nightly 二进制文件中提供了所有必需的依赖项，您可以使用它们下载：

dockerpullghcr.io/pytorch/pytorch-nightly

对于临时实验，只需确保您的容器可以访问所有 GPU：

dockerrun--gpusall-itghcr.io/pytorch/pytorch-nightly:latest/bin/bash

使用教程

让我们从一个简单的例子开始，一步步把事情复杂化。请注意，您的 GPU 越新，您可能会看到更显着的加速。

importtorchdeffn(x,y):a=torch.sin(x).cuda()b=torch.sin(y).cuda()returna+bnew_fn=torch.compile(fn,backend="inductor")input_tensor=torch.randn(10000).to(device="cuda:0")a=new_fn()

这个例子实际上不会运行得更快，但它具有教育意义。

以 torch.cos() 和 torch.sin() 为特色的示例，它们是逐点操作的示例，因为它们在向量上逐个元素地进行操作。你可能真正想要使用的一个更著名的逐点运算是类似 torch.relu() 的东西。eager模式下的逐点操作不是最优的，因为每个操作都需要从内存中读取一个张量，进行一些更改，然后写回这些更改。

PyTorch 2.0 为您所做的最重要的优化是融合。

回到我们的示例，我们可以将 2 次读取和 2 次写入变成 1 次读取和 1 次写入，这对于较新的 GPU 来说尤其重要，因为瓶颈是内存带宽（您可以多快地向 GPU 发送数据）而不是计算（您的速度有多快） GPU 可以处理浮点运算）。

PyTorch 2.0 为您做的第二个最重要的优化是 CUDA graphs。CUDA graphs有助于消除从 python 程序启动单个内核的开销。

torch.compile() 支持许多不同的后端，但我们特别兴奋的一个是生成 Triton 内核（https://github.com/openai/triton，用 Python 编写的，但性能优于绝大多数手写的 CUDA 内核）的 Inductor。假设我们上面的示例名为 trig.py，我们实际上可以通过运行来检查代码生成的 triton 内核：

TORCHINDUCTOR_TRACE=1pythontrig.py

@pointwise(size_hints=[16384],filename=__file__,meta={"signature":{0:"*fp32",1:"*fp32",2:"i32"},"device":0,"constants":{},"configs":[instance_descriptor(divisible_by_16=(0,1,2),equal_to_1=())]})@triton.jitdefkernel(in_ptr0,out_ptr0,xnumel,XBLOCK:tl.constexpr):xnumel=10000xoffset=tl.program_id(0)*XBLOCKxindex=xoffset+tl.reshape(tl.arange(0,XBLOCK),[XBLOCK])xmask=xindex
你可以验证融合这两个 sins 确实发生了，因为这两个 sin 操作发生在一个单一的 Triton 内核中，并且临时变量保存在寄存器中，可以非常快速地访问。
下一步，让我们尝试一个真实的模型，比如来自 PyTorch hub 的 resnet50。
importtorchmodel=torch.hub.load("pytorch/vision:v0.10.0","resnet18",pretrained=True)opt_model=torch.compile(model,backend="inductor")model(torch.randn(1,3,64,64))
如果您实际运行，您可能会惊讶于第一次运行很慢，那是因为正在编译模型。后续运行会更快，因此在开始对模型进行基准测试之前预热模型是常见的做法。
您可能已经注意到我们如何在此处使用“inductor”显式传递编译器的名称，但它不是唯一可用的后端，您可以在 torch._dynamo.list_backends() 中运行以查看可用后端的完整列表。为了好玩，您应该尝试 aot_cudagraphs 或 nvfuser。
现在让我们做一些更有趣的事情，我们的社区经常使用来自 transformers （https://github.com/huggingface/transformers） 或 TIMM （https://github.com/rwightman/pytorch-image-models）的预训练模型和我们的设计之一PyTorch 2.0 的目标是任何新的编译器堆栈都需要开箱即用，可以与人们实际运行的绝大多数模型一起工作。因此，我们将直接从 Hugging Face hub 下载预训练模型并对其进行优化。
importtorchfromtransformersimportBertTokenizer,BertModel#Copypastedfromherehttps://huggingface.co/bert-base-uncasedtokenizer=BertTokenizer.from_pretrained("bert-base-uncased")model=BertModel.from_pretrained("bert-base-uncased").to(device="cuda:0")model=torch.compile(model)#Thisistheonlylineofcodethatwechangedtext="Replacemebyanytextyou"dlike."encoded_input=tokenizer(text,return_tensors="pt").to(device="cuda:0")output=model(**encoded_input)
如果您从模型和 encoded_input 中删除 to(device="cuda:0") ，那么 PyTorch 2.0 将生成 C++ 内核，这些内核将针对在您的 CPU 上运行进行优化。你可以检查 Triton 或 C++ 内核的 BERT，它们显然比我们上面的三角函数示例更复杂，但如果你了解 PyTorch，你也可以类似地浏览它并理解。
相同的代码也可以https://github.com/huggingface/accelerate 和 DDP 一起使用。
同样让我们尝试一个 TIMM 示例：
importtimmimporttorchmodel=timm.create_model("resnext101_32x8d",pretrained=True,num_classes=2)opt_model=torch.compile(model,backend="inductor")opt_model(torch.randn(64,3,7,7))
我们使用 PyTorch 的目标是构建一个广度优先的编译器，该编译器将加速人们在开源中运行的绝大多数实际模型。Hugging Face Hub 最终成为我们非常有价值的基准测试工具，确保我们所做的任何优化实际上都有助于加速人们想要运行的模型。
本文翻译自https://pytorch.org/blog/Accelerating-Hugging-Face-and-TIMM-models/
			  标签：

精彩推送

使用PyTorch 2.0 加速Hugging Face和TIMM库的模型

点蓝色字关注“机器学习算法工程师”设为星标，干货直达！PyTorch2 0引入了**torch compile()**来加...

来源：时间：2022-12-24 13:37:12
韵达股份: 独立董事提名人声明（张晓荣）|焦点热讯

证券代码：002120 证券简称：韵达股份公告编号：2022-122...

来源：时间：2022-12-23 20:43:54
环球信息:民情丨这个镇三天两头停水，咋办？水务局开出 “止渴药方”

近日，有网友通过四川日报全媒体问政四川平台和民情热线反映，这一两年来泸州市泸县玄滩镇停水频繁，居...

来源：时间：2022-12-23 15:26:21
异动快报：中广天择（603721）12月23日9点45分触及涨停板_世界头条

12月23日盘中消息，9点45分中广天择（603721）触及涨停板。目前价格16 25，上涨10 02%。其所属行业影...

来源：时间：2022-12-23 09:51:04
和讯SGI公司｜倍轻松亏损持续扩大，SGI指数评分谷底深陷，轻产品、重营销，倍轻松变“亏轻松”

倍轻松最新发布的2022年第三季度报告显示，今年前三季度，公司实现营业收入6 49亿元，同比减少20 20%...

来源：时间：2022-12-22 21:34:28
12月22日鹏辉能源跌5.86%，东方新能源汽车混合基金重仓该股

12月22日鹏辉能源（300438）跌5 86%，收盘报69 29元，换手率3 82%，成交量13 7万手，成交额9 66亿...

来源：时间：2022-12-22 15:29:10
中国中期：12月21日获融资买入183.40万元

同花顺数据中心显示，中国中期12月21日获融资买入183 40万元，占当日买入金额的27 06%，当前融资余额1...

来源：时间：2022-12-22 09:14:30
丰华股份: 国浩律师（重庆）事务所关于重庆丰华（集团）股份有限公司第九届董事会第二十一次会议有关事项之专项法律意见

国浩律师（重庆）事务所关于重庆丰华...

来源：时间：2022-12-21 19:32:18
今日快看!宁波海运董秘回复：公司主要经营国际国内的大宗干散货运输以及国内沿海成品油运输，公司航线根据经营需要安排

宁波海运(600798)12月21日在投资者关系平台上答复了投资者关心的问题。

来源：时间：2022-12-21 14:10:39
第22届广西名特优农交会将在桂林举办_全球头条

本报南宁讯（记者陈静）12月19日，记者从自治区农业农村厅获悉，以“山清水秀美广西，绿色生态好产品...

来源：时间：2022-12-21 07:52:43
环球热资讯！“小黄灯”照亮深夜小县城居民24小时均可线上买药

“小黄灯”照亮深夜小县城居民24小时均可线上买药2022年12月20日18:58中国网财经

来源：时间：2022-12-20 18:45:34
京东云与100城共谋高质量发展 “一城一策”搭建数字经济产业园-环球快报

著名经济学家周其仁，在《城乡中国》一书中，解释人往城里走的原因时，表示“经济上的动力更直截了当——

来源：时间：2022-12-20 11:48:10
卷款20万能判多少年啊

目前还没有具体的判罚制度进行下发，也没有那些跑路平台的处理结果进行公示，所以具体量刑情况不可知，...

来源：时间：2022-12-20 05:27:14
小学生打赏主播两千余元海口民警帮忙悉数追回[图]

日前，海口市公安局三江海岸派出所民警通过积极协调某直播平台客服，成功将未成年人小罗打赏多名主播的2...

来源：时间：2022-12-19 17:46:15
新光药业董秘回复：公司不生产退烧、止痛类化学药-全球焦点

新光药业(300519)12月19日在投资者关系平台上答复了投资者关心的问题。

来源：时间：2022-12-19 12:31:15
Free Arch：将 IdentityServer 部署到 Okteto

最终成果部署了一个免费的IdentityServer实例：https: id6-jeff-tian cloud okteto net 相关代码提交一共

来源：时间：2022-12-19 06:31:35
BMO首席经济学家：2023年美国经济至少是轻度衰退

BMO首席经济学家：2023年美国经济至少是轻度衰退

来源：时间：2022-12-18 18:24:12
康沣生物在港交所开启招股：持续大额亏损，朱军为总经理

（原标题：康沣生物在港交所开启招股：持续大额亏损，朱军为总经理）12月16日，康沣生物-B（HK:06922）...

来源：时间：2022-12-17 20:15:43
知识导航现户籍落户时间是什么意思

现户籍落户时间是指户籍落在当地的起算时间，在户口本个人《常住人口登记卡》最底下一行何时、何地因何...

来源：时间：2022-12-17 15:19:39
经验分享赛尔号星球大战卡鲁克斯怎么得

卡鲁克斯是精灵融合诞生的新精灵，但是很多玩家不知道该怎么获得这个精灵，今天就来告诉大家怎么获得卡...

来源：时间：2022-12-17 15:19:34
经验知识手机贴膜怎么贴

1、首先用湿巾擦拭手机屏幕，再用布擦干。2、然后撕开手机膜，注意不要触碰表面。3、最后贴的时候先对准...

来源：时间：2022-12-17 15:19:30
艺术手法指的是什么

艺术手法指的是表现手法，是作家、艺术家在创作中所运用的各种具体的表现方法，在文学创作中，有叙述、...

来源：时间：2022-12-17 15:19:26
知识分享薄荷叶泡水的方法

薄荷叶泡水共4个步骤，需准备食材：薄荷叶适量、冰糖适量、绿茶适量。以下是薄荷叶泡水的详细操作步骤：...

来源：时间：2022-12-17 15:19:21
讲解百科齐齐哈尔实验中学

齐齐哈尔市实验中学，创建于一九零五年，是黑龙江省第一所面向全省招生的中学。学校初始校名为黑龙江省...

来源：时间：2022-12-17 15:19:17
科普知识巧克力粉和可可粉的区别

可可粉和巧克力粉是两种不同的粉末，可可粉主要用于烘焙使用，巧克力粉多用于冲调饮品。可可粉听起来好...

来源：时间：2022-12-17 15:19:13
知识库嘉兴王店属于哪个区域
知识大全郑州富士康是干什么的
f117战斗机退役了吗
知识领域幽灵粒子是什么东西
知识探索在网上答题如何使用
探索百科 gt755m能玩绝地求生吗
百科大全天净沙秋思题目什么意思
百科全书榴莲产自哪里哪个国家
神马电力（603530）12月16日主力资金净买入1038.49万元_当前动态
同修仁德济世养生同仁堂医养集团免费送药助力抗疫
侯宝林大师收徒为何会有争议？
2023上海米其林指南发布壹零贰小馆成为新晋二星餐厅
荣威950最低多少钱「荣威550」|天天热点评
特斯拉或推两用厢式货车，基于皮卡车型打造，有望在2024年推出
工人工作两天就手指断了医药费也赔偿了全球观点
内乡宝天曼入选南阳网红打卡地十佳景区
托普云农拟在深交所创业板上市募资2.86亿元，投资者可保持关注-要闻
快资讯丨*ST博天: 博天环境集团股份有限公司简式权益变动报告书（深圳高新投）
【全球速看料】12月12日基金净值：银华中证创新药产业ETF最新净值0.9474，涨0.46%
每日精选：金刚线板块10月26日涨3.4%，东尼电子领涨，主力资金净流出4352.91万元
打击“拒执罪”有了时间表省公检法联合发文对办理“拒执罪”案件进行分工细化
应对奥密克戎，上海四位医学专家共同发出健康提示——:世界新动态
反弹号角吹响长盛基金旗下多只指数产品助力投资者把握反弹行情_天天热门
12月8日天元股份涨停分析：可降解塑料，包装印刷概念热股
键凯科技：公司暂无增发股份、发行可转债和银行贷款的计划:聚焦

X 关闭

电视剧

使用PyTorch 2.0 加速Hugging Face和TIMM库的模型 2022-12-24

韵达股份: 独立董事提名人声明（张晓荣）|焦点热讯 2022-12-23

X 关闭

电影

热播

百科全书榴莲产自哪里哪个国家 2022-12-17

郑州市经开区明湖办事处：别样的温暖、别样的生日 2022-05-20