北京大学出版社

基本信息 Information

大规模语言模型开发基础与实践

作者王振丽编著

丛书名无

ISBN 9787301352595

出版年 2024

定价 ¥89

目录 content

第1章大模型基础1.1人工智能1.1.1 人工智能的发展历程1.1.2 人工智能的研究领域1.1.3 人工智能对人们生活的影响1.2机器学习和深度学习1.2.1 机器学习1.2.2 深度学习1.2.3 机器学习和深度学习的区别1.3大模型简介1.3.1 大模型的作用1.3.2 数据1.3.3 数据和大模型的关系1.4大模型开发与应用的技术栈第2章数据集的加载、基本处理和制作2.1数据集的加载2.1.1 PyTorch加载数据集2.1.2 TensorFlow加载数据集2.2数据集的基本处理2.2.1 转换为Tensor格式2.2.2 标准化处理2.2.3 调整大小和裁剪2.2.4 随机翻转和旋转2.3数据集的制作2.3.1 自定义数据集2.3.2 制作简易图片数据集2.3.3 制作有标签的数据集第3章数据集的预处理3.1数据清洗和处理3.1.1 缺失值处理3.1.2 异常值检测与处理3.1.3 重复数据处理3.2数据转换与整合3.2.1 特征选择与抽取3.2.2 特征变换与降维3.2.3 数据集成与关联3.3数据标准化与归一化3.3.1 标准化及其重要性3.3.2 特征缩放和归一化3.3.3 数据转换和规范化3.3.4 “最小-最大 ”缩放3.4数据增强技术3.4.1 数据增强的意义3.4.2 图像数据增强3.4.3 自然语言数据增强第4章卷积神经网络模型 4.1卷积神经网络简介4.1.1 卷积神经网络的发展背景4.1.2 卷积神经网络的结构4.2卷积神经网络模型开发实战4.2.1 使用TensorFlow创建一个卷积神经网络模型并评估4.2.2 使用PyTorch创建手写数字模型第5章循环神经网络模型5.1文本处理与循环神经网络简介5.1.1 循环神经网络基础5.1.2 文本分类5.2循环神经网络模型开发实战5.2.1 使用PyTorch开发歌词生成器模型5.2.2 使用TensorFlow制作情感分析模型第6章特征提取6.1特征提取简介6.1.1 特征在大模型中的关键作用6.1.2 特征提取与数据预处理的关系6.2特征的类型和重要性6.2.1 数值特征和类别特征6.2.2 高维数据的挑战6.3特征选择6.3.1 特征选择的必要性6.3.2 特征选择的方法6.4特征抽取6.4.1 特征抽取的概念6.4.2 主成分分析6.4.3 独立成分分析6.4.4 自动编码器6.5文本数据的特征提取6.5.1 嵌入6.5.2 词袋模型6.5.3 TF-IDF特征6.6 图像数据的特征提取6.6.1 预训练的图像特征提取模型6.6.2 基本图像特征：边缘检测、颜色直方图等第7章注意力机制7.1注意力机制基础7.1.1 注意力机制简介7.1.2 注意力机制的变体7.1.3 注意力机制解决的问题7.2TensorFlow 机器翻译系统7.2.1 项目简介7.2.2 下载并准备数据集7.2.3 文本预处理7.2.4 编码器模型7.2.5 绘制可视化注意力图7.2.6 解码器7.2.7 训练7.2.8 翻译7.3 PyTorch 机器翻译系统7.3.1 准备数据集7.3.2 数据预处理7.3.3 实现Seq2Seq 模型7.3.4 训练模型7.3.5 模型评估7.3.6 训练和评估7.3.7 注意力的可视化第8章模型训练与调优8.1模型训练优化8.1.1 底层优化8.1.2 样本权重和分类权重8.2损失函数和优化算法8.2.1 损失函数和优化算法的概念8.2.2 TensorFlow损失函数和优化算法8.2.3 PyTorch损失函数和优化算法8.3批量训练和随机训练8.3.1 批量训练和随机训练的概念8.3.2 小批量随机梯度下降8.3.3 批量归一化8.3.4 丢弃8.4模型验证和调优8.4.1 训练集、验证集和测试集8.4.2 交叉验证优化8.4.3 超参数调优第9章模型推理和评估9.1模型推理9.1.1 模型推理的步骤9.1.2 前向传播和输出计算的过程9.1.3 模型推理的优化和加速9.2模型评估9.2.1 模型评估的方法和指标9.2.2 交叉验证和统计显著性测试的应用第10章大模型优化算法和技术10.1常见的大模型优化算法和技术10.2梯度下降法10.2.1 梯度下降法简介10.2.2 TensorFlow梯度下降法优化实践10.2.3 PyTorch梯度下降法优化实践10.3模型并行和数据并行10.3.1 模型并行和数据并行的基本概念10.3.2 TensorFlow模型并行和数据并行实践10.3.3 PyTorch模型并行和数据并行实践10.4学习率调度10.4.1 学习率调度的方法10.4.2 TensorFlow学习率调度优化实践10.4.3 PyTorch学习率调度优化实践10.5权重初始化策略10.6迁移学习10.6.1 迁移学习的基本概念10.6.2 TensorFlow迁移学习优化实践10.6.3 PyTorch迁移学习优化实践10.7其他大模型优化算法和技术10.7.1 分布式训练10.7.2 正则化10.7.3 梯度裁剪10.7.4 混合精度训练优化10.7.5 量化优化技术10.7.6 剪枝优化技术第11章 AI智能问答系统（TensorFlow+TensorFlow. js+SQuAD 2.0+Mobile-BERT）11.1背景简介11.1.1 互联网的影响11.1.2 问答系统的发展11.2问答系统的发展趋势：AI 问答系统11.3技术架构11.3.1 TensorFlow.js11.3.2 SQuAD 2.011.3.3 BERT11.3.4 知识蒸馏11.4具体实现11.4.1 编写HTML文件11.4.2 脚本处理11.4.3 加载训练模型11.4.4 查询处理11.4.5 文章处理11.4.6 加载处理11.4.7 寻找答案11.4.8 提取最佳答案11.4.9 将答案转换回原始文本11.5调试运行第12章 AI人脸识别系统（PyTorch+OpenCV+Scikit-Image+MobileNet+ArcFace）12.1 系统简介12.1.1 背景简介12.1.2 人脸识别的发展历史和现状12.2系统需求分析12.2.1 系统功能分析12.2.2 技术分析12.2.3 实现流程分析12.3数据集12.3.1 准备数据集12.3.2 提取人脸12.4训练模型12.4.1 ArcFace算法12.4.2 MobileNet算法12.4.3 开始训练12.5评估模型12.5.1 评估的重要性12.5.2 评估程序12.6人脸识别12.6.1 图像预处理12.6.2 人脸识别模型12.6.3 开始识别

前言 preface

前言随着人工智能领域的快速发展，大规模语言模型（以下简称大模型）已经成为推动技术进步和应用创新的核心。从自然语言处理到计算机视觉，从医疗健康到金融领域，大模型的应用正在深刻地改变着人们的生活和工作方式。然而，开发和应用大模型并非一项轻松的任务，其涉及复杂的技术和实践，需要深厚的理论基础和实际操作经验。在该背景下，本书应运而生。本书旨在为读者提供一份全面而实用的指南，帮助他们掌握大模型开发的核心技术并将其应用于不同领域。无论是对人工智能感兴趣的初学者，还是希望深入了解大模型技术的专业人士，本书都将成为他们的重要参考资料。本书首先以系统性的方式探讨了人工智能、机器学习和深度学习的基础知识，为读者建立了牢固的理论基础；接着，本书从数据集的加载、预处理，到模型的开发、训练和推理，一步步地引导读者掌握从零开始构建大模型的流程；同时，本书强调了数据的重要性，详细介绍了数据预处理、增强和特征提取等关键技术，帮助读者充分挖掘数据的潜力。本书特色本书作为一本深入探讨大模型开发与应用的实用指南，具有以下显著特色：（1）全面系统的内容。本书从人工智能、机器学习和深度学习的基础知识出发，系统性地介绍了大模型的核心概念、技术和方法，从而为读者打下坚实的理论基础。（2）实践导向的案例。本书的内容涵盖了多个实际应用领域，如图像识别、文本处理、问答系统等。每个案例都详细呈现了从问题定义到解决方案实现的过程，帮助读者在实践中深入理解技术。（3）突出了数据处理与数据增强的用法。本书中详细介绍了数据集的加载、预处理和增强技术，强调数据在大模型开发中的关键地位，使读者能够高效地利用数据提升模型性能。（4）深度优化策略剖析。本书深入讨论了大模型的优化算法和技术，包括梯度下降法、迁移学习、学习率调度等，为读者提供了在模型训练和调优方面的实际指导。（5）多框架实践。本书涵盖了多个流行的深度学习框架，如TensorFlow和PyTorch，为读者提供了使用不同框架开发大模型的丰富经验。（6）理论与实践相结合。本书每个章节均融合了理论讲解与实际操作，帮助读者建立深刻的理论理解并能够将其应用到实际项目中。（7）前沿技术的涵盖。本书涉及了注意力机制、迁移学习、权重初始化、模型并行等前沿技术，帮助读者紧跟技术发展的最新趋势。（8）行业应用的广度。本书案例覆盖了多个行业，包括自然语言处理、计算机视觉、智能问答、人脸识别等，读者可以根据自己的兴趣和领域找到合适的应用范例。（9）专业指导的实现。本书每个章节都附有详细的操作步骤和实现代码，读者能够直接从中学习和复现实际项目。（10）深度与广度并重。本书的内容从基础概念到高级优化，从理论知识到实际案例，在深度和广度上都保持了均衡，为读者提供了全面的学习体验。综上所述，本书以其系统性、实践导向和前沿技术涵盖等特色，将成为大型模型开发与应用领域的一本重要参考书，为读者进一步探索人工智能世界提供有力支持。本书内容及知识体系本书以全面深入的方式涵盖了大模型开发技术中的各个核心技术，为读者提供了从基础概念到实际应用的全面指南。本书主要内容概述如下：第1章　大模型基础。本章从人工智能、机器学习和深度学习的角度入手，为读者打下坚实的理论基础，同时介绍了大模型的概念和作用。第2章　数据集的加载、基本处理和制作。本章详细介绍了如何加载、处理和制作数据集，为后续模型开发做好数据准备。第3章　数据集的预处理。本章讨论了数据清洗、特征选择、标准化等数据预处理技术，以及如何进行数据增强，提升模型的鲁棒性。第4章　卷积神经网络模型。本章深入介绍了卷积神经网络的原理和开发方法，以及使用TensorFlow和PyTorch分别创建卷积神经网络模型。第5章　循环神经网络模型。本章探讨了文本处理和情感分析的循环神经网络模型开发，涵盖了PyTorch和TensorFlow的实践。第6章　特征提取。本章介绍了特征在大模型中的重要性，以及数值和文本数据的特征提取方法。第7章　注意力机制。本章详细解析了注意力机制的基本概念和应用，以TensorFlow和PyTorch为例构建了机器翻译系统。第8章　模型训练与调优。本章涵盖了模型训练的优化策略、损失函数、批量训练、验证与调优等关键技术。第9章　模型推理和评估。本章探讨了模型推理和评估的流程，以及模型优化和加速方法。第10章　大模型优化算法和技术。本章深入介绍了大模型优化的各种算法和技术，包括梯度下降法、模型并行、学习率调度、权重初始化、迁移学习等。第11章　AI智能问答系统。本章以TensorFlow、TensorFlow.js和SQuAD 2.0为基础，展示了搭建AI智能问答系统的全过程。第12章　AI人脸识别系统。本章基于PyTorch、OpenCV、Scikit-Image、MobileNet和ArcFace，详细讲解了实现人脸识别系统的步骤和技术。本书涵盖了从基础知识到高级应用的全面内容，通过理论介绍和实际案例演示，帮助读者全面掌握大模型的开发、优化和应用。无论读者是初学者还是有一定经验的开发者，都能在本书中找到对应的内容，为自己的大模型开发之旅赋予新的动力。本书读者对象（1）人工智能初学者：对人工智能领域感兴趣的初学者可以通过本书建立关于人工智能、机器学习和深度学习的基本概念，逐步深入了解大模型的核心技术。（2）数据科学爱好者：对数据分析和处理有兴趣的读者可以通过本书学习数据集的加载、处理和增强技术，了解如何高效地利用数据提升模型性能。（3）深度学习开发者：已经有一定深度学习经验的开发者可以通过本书深入学习大模型的优化算法、特征提取技术等高级内容，进一步提升自己的技术水平。（4）人工智能工程师：从事人工智能领域工作的专业人士可以通过本书了解不同领域的实际应用案例，获得跨领域的应用经验。（5）大数据分析师：在大数据领域工作的专业人员可以通过本书学习如何处理和分析大规模数据集，为模型开发提供数据支持。（6）研究人员和学生：从事人工智能研究的学者和学生可以通过本书了解当前大模型领域的最新研究进展和应用方向。（7）技术决策者：企业、机构的技术决策者可以通过本书了解大模型在不同行业中的应用案例，为业务决策提供参考。（8）技术培训师：人工智能领域的培训师可以将本书作为教材，为学员提供全面的大模型开发与应用教学。（9）高校老师：高校老师可以将本书作为教材，用于教授人工智能、机器学习和深度学习等课程。本书内容覆盖了从基础到高级的知识，有助于培养学生的实际应用能力和创新思维。总之，无论读者是初学者还是有一定经验的专业人士，无论是从事技术研究还是实际应用，都能从本书中获得有价值的知识和经验。　致谢在编写本书的过程中，作者得到了北京大学出版社编辑的大力支持，正是各位专业人士的求实、耐心和高效，才使得本书能够在这么短的时间内出版。另外，也十分感谢我的家人给予的巨大支持。最后申明，由于作者水平和精力有限，书中不妥和疏漏之处在所难免，诚请读者提出宝贵的意见或建议，以便修订并使之更臻完善。最后感谢您购买本书，希望本书能成为您编程路上的领航者，祝您阅读快乐！

本书特色 features

内容全面深入，技术覆盖范围广大量实操案例，算法技能提升快精通数据处理，性能提升策略全

作者简介 author

王振丽 ---------------------------- 王振丽，华中科技大学计算机硕士，精通C、C#、C++、Java、Python等多门编程语言。现任腾讯AI产品架构师，主要从事移动端底层系统架构、驱动程序、AI应用的研究和开发工作，对人工智能的架构设计和实现原理有非常深刻的认识和理解。精通各种多模态预训练算法，熟悉Prompt Engineering和模型Tuning方法，在协同大模型垂直领域的训练和调优方面经验丰富，在提升大模型业务的产品落地领域有着丰富的见解。

内容简介 Content

本书循序渐进、详细讲解了大模型开发技术的核心知识，并通过具体实例的实现过程演练了使用TensorFlow和PyTorch开发大模型程序的方法和流程。全书共12章，分别讲解了大模型基础，数据集的加载、基本处理和制作，数据集的预处理，卷积神经网络模型，循环神经网络模型，特征提取，注意力机制，模型训练与调优，模型推理和评估，大模型优化算法和技术，AI智能问答系统和AI人脸识别系统。全书简洁而不失其技术深度，内容丰富全面。本书易于阅读，以极简的文字介绍了复杂的案例，是学习大模型开发的实用教程。本书适用于已经了解Python基础开发的读者，以及想进一步学习大模型开发、模型优化、模型应用和模型架构的读者，还可以作为大专院校相关专业的师生用书和培训学校的专业性教材。

微信公众号

京ICP备09072562号-1 京公网安备 11010802024978号