发新帖
开启左侧

李飞飞高徒教你从0到1构建GPT,马斯克点赞

[复制链接]
532 2

一键注册,加入手机圈

您需要 登录 才可以下载或查看,没有帐号?立即注册   

x
詹士 发自 凹非寺
量子位 | 公众号 QbitAI
“从0到1手搓GPT”教程来了!
视频1个多小时,从道理到代码都逐一显现,练习微调也涵盖在内,手把手带着你搞定。

李飞飞高徒教你从0到1构建GPT,马斯克点赞-1.jpg
该内容刚发出来,在Twitter已吸引400万关注量,HackerNews上Points也破了900。
连马斯克也了局支撑。

李飞飞高徒教你从0到1构建GPT,马斯克点赞-2.jpg
批评区更是一片锣鼓喧天鞭炮齐鸣,网友们纷纷马住。

李飞飞高徒教你从0到1构建GPT,马斯克点赞-3.jpg
有人评价,Andrej确切是一位超卓的“事物诠释者”,也热情于回答大师的题目。

李飞飞高徒教你从0到1构建GPT,马斯克点赞-4.jpg
还有网友更夸大,称该教程几近是来“拯救”。

李飞飞高徒教你从0到1构建GPT,马斯克点赞-5.jpg
那末,这位活菩萨是谁?
正是前特斯拉AI总监,李飞飞高徒——Andrej Karpathy

李飞飞高徒教你从0到1构建GPT,马斯克点赞-6.jpg
教程具体说了什么?
这就来展开讲讲。
从零构建GPT,总共几步?

视频教程先从理论讲起。
第一部分首要关于建立基准说话模子(二元)以及Transformer焦点留意力机制,以及该机制内节点之间的信息传递,自留意力机制理论也有触及。
该part内容长度跨越1小时,不但有概念诠释,还教你若何利用矩阵乘法、增加softmax归一化,可谓“夯实根抵”式讲授。

李飞飞高徒教你从0到1构建GPT,马斯克点赞-7.jpg
接着报告构建Transformer。
这傍边触及了多头留意力(包含若何插入自留意力构建块)、多层感知机(MLP)、残差毗连、归一化方式LayerNorm以及若何在Transformer中增加Dropout notes…….
然后,作者会带大师练习一个模子,傍边会用到一个名为nanoGPT的库,可挪用GPT-2参数,快速完成GPT模子的练习。
教程中,作者还将所得模子与Open AI的GPT-3比力。两者范围差异达1万-100万倍,但神经收集是不异的。另一个将拿来比力的是人尽皆知的ChatGPT,固然,我们今朝所得只是预练习模子。

李飞飞高徒教你从0到1构建GPT,马斯克点赞-8.jpg
在上述内容指导下,我们已得一个10M参数范围的模子,在一个GPU上练习15分钟,喂给1MB巨细的莎士比亚文本数据集,它就能像莎士比亚一样输出。
比以下面两张图,你能分辨哪个是真人莎士比亚写的吗?

李飞飞高徒教你从0到1构建GPT,马斯克点赞-9.jpg
批评区有人猎奇选什么GPU资本。作者也分享了下——本人用的是Lambda的云上GPU,这是他今朝打仗按需计费GPU中,最简单的渠道。
言而不行不可,作者还给出一些课后练习,总共四道题,包含:

  • N维张量把握应战;
  • 在本人挑选的数据集上练习GPT;
  • 找一个很是大的数据集,基于它练习Transformer,然后初始化再基于莎士比亚数据集微调,看能否经过预练习获得更低的考证损失?
  • 参考Transformer相关论文,看看之前研讨中哪些操纵能进一步提升性能;
神器nanoGPT也刚公布

前文说起,作者之所以能快速完成练习GPT,有赖于一个名nanoGPT的库。
这也是本教程作者头几天刚公布的利器,由2年前的minGPT升级而来,只是换了个更“题目党”的名字,自称纳米级(nano)。今朝,其在GitHub所获star已超8k,网友连连点赞。

李飞飞高徒教你从0到1构建GPT,马斯克点赞-10.jpg
据作者先容,该库里面包括一个约300行的GPT模子界说(文件名:model.py),可以从OpenAI加载GPT-2权重。
还有一个练习模子PyTorch榜样(文件名:train.py),一样也是300多行。
对想上手的AI玩家来说,不管是重新初步练习新模子,还是基于预练习停止微调(今朝可用的最大模子为1.3B参数的GPT-2),各路需求均能满足。

李飞飞高徒教你从0到1构建GPT,马斯克点赞-11.jpg

△ 一个练习实例展现

据作者今朝本人的测试,他在1 个 A100 40GB GPU 上练习一晚,损如约为 3.74。假如是在4个GPU上练习损如约为3.60。
假如在8个A100 40GB节点上停止约50万次迭代,时长约为1天,atim的练习降至约3.1,init随机几率是10.82,已将功效带到了baseline范围。

李飞飞高徒教你从0到1构建GPT,马斯克点赞-12.jpg
对macbook或一些“气力”不敷的小破本,靠nanoGPT也能开训。
不外,作者倡议利用莎士比亚(shakespeare)数据集,该数据集前文已说起,巨细约1MB,然后在一个很小的收集上运转。
据他本人亲身树模,建立了一个小很多的Transformer(4层,4个head,64嵌入巨细),在作者本人的苹果AIR M1本上,每次迭代大约需要400毫秒。
(GitHub上nanoGPT链接附在文末,有需要的朋友自取)
One More Thing

此番教程作者Karpathy Andrej在圈内早已很著名望,他在斯坦福时,师从华人AI大牛李飞飞,后又曾工作于Open AI。
此前,Karpathy就在努力于让更多人打仗了解神经收集和相关数据集。2020年8月,他就曾公布nanoGPT前一代,MinGPT,一样旨在让GPT做到玲珑、简洁、可诠释,一样主打——300行代码处置题目。
Karpathy另一个身份是前特斯拉AI焦点人物。
在马斯克麾下,他历任特斯拉高级AI主管、特斯拉自动驾驶AutoPilot负责人、特斯拉超算Dojo负责人、特斯拉擎天柱人形机械人负责人…
2022年7月,Karpathy Andrej离职,在业内激发不小会商。那时他就暗示,未来将花更多时候在AI、开源技术教育上。
这回公布的从0初步构建GPT课程,正是他讲授计划的一部分。

  • nanoGPT GitHub链接:
https://github.com/karpathy/nanoGPT

  • 课程视频:
https://www.youtube.com/watch?v=kCc8FmEb1nY
参考链接:
[1]https://twitter.com/karpathy/status/1615398117683388417?s=46&t=69hVy8CNcEBXBYmQHXhdxA
[2]https://news.ycombinator.com/item?id=34414716

—完—
@量子位 · 追踪AI技术和产物新静态
深有感慨的朋友,欢迎附和、关注、分享三连վ'ᴗ' ի❤

-----------------------------
精选高品质二手iPhone,上爱锋贝APP

精彩评论2

彼岸] 社区微信达人  新会员  发表于 2023-1-22 18:44:54 | 显示全部楼层
特斯拉自动驾驶前负责人,能否是更有爆点[机智]
精选高品质二手iPhone,上爱锋贝APP
二笙. 社区微信达人  新会员  发表于 2023-1-22 20:04:18 | 显示全部楼层
李飞飞高徒?我感觉Karpathy已经不需要这个名头来增加著名度了。
精选高品质二手iPhone,上爱锋贝APP
您需要登录后才可以回帖 登录 | 立即注册   

本版积分规则

快速回复 返回顶部 返回列表