分享
一站式LLM底层技术原理入门指南
输入“/”快速插入内容
🚨
一站式LLM底层技术原理入门指南
飞书用户2749
27460
44989
💜
5.10更新:最初版本未更新的Prompting、InstructGPT、Chain of Thoughts、涌现现均已更新完毕;只是为了快速入门ChatGPT的原理的话,
文档学习路径更改为:第六章、第二章、第四章、第七章、第八章、第十章、第十二章与第十三章,其余部分均为Optional
。
此外,在第十五章,做了一个总结性质的大表格,归纳了技术的发展路径,表中有索引,可以快速实现文档内跳转。
本文档会持续迭代,欢迎批评指正!
#PC阅读体验比较好,想要快速进入正题的话可以直接从
第六章
开始看
#强烈建议只先去看第6章,如果觉得好玩儿、感兴趣,再回去看第二和第四章,搞懂MLP和RNN。尤其是MLP那一章,它会直接揭开神经网络的神秘面纱,让我们感觉,嗯,原来也不过如此!
看完了第六章,并迅速浏览第二章与第四章后,就可以开始看第7和第10章了,这有助于快速弄懂Transformer是什么(
我觉得这篇文档里对Transformer的介绍在所有的科普文档里都排得上TOP的!
);
搞懂Transformer后,回看第8章,我们会对预训练这件事情有一个基本的理解。理解了预训练和Transformer后,再去看第12章的GPT,就很合乎自然了:GPT就是个堆叠了很多很多解码器的大号以语言模型任务预训练的Transformer。
写在前面:
这篇文档写给谁看?
•
这是一篇用于零基础入门大语言模型(Large Language Model, LLM)底层技术原理的
飞书文档
。
其最直接面向群体为非科班出身但想要了解AI技术原理的投资人
,此外兼顾任何对ChatGPT等大语言模型感兴趣,希望入门了解大语言模型这件事,知道这个世界上正在发生什么的朋友。
•
虽然这篇文档号称“零门槛”,但
人工智能在本质上是永远绕不开微积分、概率论和线性代数的
。具备这些数学的基础,
至少要了解导数和极小值、多元函数求微分的链式法则、条件概率,条件概率的链式展开与概率分布函数、向量于矩阵的意义及运算等
,这些基本的数学知识对于读懂这篇文档非常重要,
•
这篇文档从浅到深,覆盖非常非常多的内容细节。
从最基础的多层感知器MLP,到卷积神经网络CNN、循环神经网络RNN(及其变体LSTM和GRU)、强化学习RL,再到seq2seq架构、自监督学习,再到Transformer模型、GPT模型(及IFT、SFT、RLHF、思维链提示CoT)、BERT模型等,都会有所覆盖
。
•
这篇文档会持续更新迭代,把关于LLM的最新的技术进展及相关原理持续的搬运进来。
为什么懂技术很重要?
不论是对于创业者还是对于投资人而言,懂技术都非常的重要
。近期和非常多的朋友们聊过AI这件事情,也接触了许多投资人和创业的朋友,有如下感受:
•
ChatGPT等大语言模型表现出的惊人的能力已经让许多人处于不理智的状态。
•
对于创业者,如果不够了解技术却又被AGI的潜力所震撼,很容易进入一种对AGI的不理智而狂热的崇拜。
•
对于投资人,了解技术原理及发展情况,才可以判断什么是AI能做的,什么是AI不能做的;于是才能更好地甄别在创业者疯狂的想象力中,哪些更可能真正重塑人类的未来,而哪些更像是过于不切实际的想象。
•
对于任何人来说,AI的浪潮都无疑正在重塑整个世界。若不懂技术,只是作为旁观者,可能会缺乏足够的危机感;若持续关注AI技术迅速的迭代的过程中出现的眼花缭乱的信息,在缺乏足够的认识水平下,我们也可能会陷入过度的焦虑。
⭐
我相信:在这个AI技术以远超我们的预期的速度飞快迭代的时点下,懂AI的技术不仅是工作的需要,更是在这个迅速变化的世界中,让自己保持好奇、保持从容、保持自洽的一个必要条件
。
关于文档中的一些底色标注
#橙红底色,是为了Highlight这个文档将要重点包括什么、将会省略什么。
#黄色底色,是为了Highlight一些重要的常识(Common Sense),了解这些常识有助于学习AI相关内容。作为入门读物,本文档不对这些常识进行论证(eg. 神经网络可以很好的拟合各种概率函数),但可能会附上参考链接,以供阅读者了解具体的原理。
#橙色底色,是我单纯的觉得一些文字比较重要,希望读者多多关注。
#蓝色底色,是为了Highlight一些重要的定义(Definition)。
#绿色底色,往往与蓝色底色配套出现,是为了Highlight一个有助于理解蓝色底色所Highlight的定义的例子。
#灰色底色,是一些无关紧要的文字,大概就是我自己想要皮一下。
本文档大量地利用AI工具进行辅助写作,而且包含巨量的引用
#本文档的写作大量的利用ChatGPT等AI工具进行辅助。
#文档中会大量的推荐优质的学习资料。
#文档中大多数的图都不是作者自己画的,会在每一章节的末尾引注原文来源。
#我把1~5章的内容折叠了,建议直接从第六章开始看,不然耐心会在进入正题前就先被用完。
商科生 help 商科生,可以拿去写研报,但一定要注明出处
文档收到了很多同行的正反馈,尤其有不少在研究所的计算机组的朋友表示感谢。
写这个文档的目的本身就是让非科班出身但对LLM有研究任务的商科生们也能在学习之后得以胜任自己的工作,所以可以尽情引用,但无论如何一定要注明出处。
1.
Introduction:人工智能概述
试看课
联系微信
:AIGC7654
#参考目录,这里非常非常基础。对于已经对人工智能有基本的了解的阅读者大可跳过。