PaddleEduLogo

深度学习基础篇

  • 深度学习
    • 基础知识
      • 神经元
      • 单层感知机
      • 多层感知机
    • 距离计算
      • 向量距离与相似度
    • 评估方式
      • 机器学习常用评估指标
      • Precision、Recall、mAP
      • GAN评估指标
      • Perplexity
      • BLEU
      • ROUGE
    • 优化策略
      • 梯度下降算法背景
      • Momentum
      • NAG
      • AdaGrad
      • AdaDelta
      • RMSProp
      • Adam
      • AdaMax
      • Nadam
      • AMSGrad
      • AdaBound
      • AdamW
      • RAdam
      • Lookahead
    • 激活函数
      • 激活函数
    • 损失函数
      • 交叉熵损失
      • MSE损失
      • CTC损失
      • Lb损失
    • 模型调优
      • 学习率
      • 注意力机制
      • 正则化
      • Batch Size
      • 参数初始化
    • 归一化算法
      • 归一化
      • 层归一化
  • 卷积模型
    • CNN综述
      • 计算机视觉综述
      • 计算机视觉的发展历程
      • 卷积神经网络
    • 池化
      • 1 基础概念
      • 2 特点
      • 3 池化中填充的方式
      • 4 应用示例
    • CNN模型的参数量与计算量计算
      • 1. 卷积层
      • 2. 归一化层
      • 3. 线性层
      • 4. 实例演示
    • 卷积算子
      • 标准卷积
      • 1*1卷积
      • 3D卷积
      • 转置卷积
      • 空洞卷积
      • 分组卷积
      • 可分离卷积
      • 可变形卷积
  • 序列模型
    • 词表示
      • One-Hot编码: 一种简单的单词表示方式
      • Word Embedding: 一种分布式单词表示方式
      • Word2Vec: 一种词向量的训练方法
      • 关于词向量的一些有趣应用
    • 循环神经网络RNN
      • 1. 循环神经网络RNN是什么
      • 2. RNN的公式推导
      • 3. RNN的缺陷
      • 4. RNN的几种常见模式
      • 5. 引用
    • 长短时记忆网络LSTM
      • 1. LSTM的设计思路
      • 2. LSTM是怎样工作的
      • 3. 从公式层面理解LSTM
      • 4. 使用LSTM设计情感分析任务
    • 门控循环单元GRU
      • 1.更新门
      • 2.重置门
      • 3. 当前记忆内容
      • 4. 当前时间步的最终记忆
      • 参考文献

深度学习进阶篇

  • 预训练模型
    • 预训练模型是什么
    • 预训练分词Subword
      • 1. Subword介绍
      • 2. 基于空格的分词方法
      • 3. 基于字母的分词方法
      • 4. 基于子词的分词方法
      • 4.1 Byte Pair Encoding (BPE)
      • 4.2 WordPiece
      • 4.3 Unigram Language Model (ULM)
      • 三种子词分词器的关系
    • ELMo
      • 1.介绍
      • 2.ELMo原理
      • 3.ELMo 训练
      • 4. ELMo使用步骤
      • 5. 优缺点
      • 6. 参考文献
    • Transformer
      • 1.介绍
      • 2.Transformer直观认识
      • 3. Transformer的结构
      • 3.1 Embedding
      • 3.2 Encoder
      • 3.3 Decoder
      • 3.4 Transformer的最后一层和Softmax
      • 3.5 Transformer的权重共享
      • 4 总结
      • 5. 参考文献
    • Transformer-XL
      • 1. Transformer-XL的由来
      • 2. Transformer-XL 建模更长序列
      • 3. 相关资料
    • Longformer
      • 1. Longformer的由来
      • 2. Longformer提出的Self-Attention
      • 3. Longformer Attention的实现
      • 4. 相关资料
    • GPT
      • 1. 介绍
      • 2. 模型结构
      • 3. GPT训练过程
      • 4. GPT特点
      • 5. GPT 与 ELMo的区别
      • 参考文献
    • XLNet
      • 1. 从AR和AE模型到XLNet模型
      • 2. Permutation Language Model
      • 3. Permutation Language Model如何建模
      • 4. 相关资料
    • BERT
      • BERT介绍
      • BERT框架
      • BERT可视化
      • BERT的预训练任务
      • BERT的微调
      • BERT,GPT,ELMO的区别
      • 优缺点
    • SpanBERT
      • 1. SpanBERT的技术改进点
      • 2. BERT模型中的预训练任务
      • 3. SpanBERT的预训练任务
      • 4. 相关资料
    • RoBERTa
      • 1. Dynamic Masking
      • 2. Full-Sentences without NSP
      • 3. Larger Batch Size
      • 4. Byte-Level BPE
      • 5. More Data and More Training Steps
      • 6. 相关资料
    • ERINE
      • 1. ERINE是什么
      • 2. Knowledge Masking Task
    • ERNIE 3.0
      • 1. ERNIE 3.0的设计思路
      • 2. ERNIE 3.0的模型结构
      • 3. 不同类型的预训练任务
      • 4. 相关资料
    • ERNIE-Gram
      • 1. ERNIE-Gram的由来
      • 2. ERNIE和N-Gram的融入方式
      • 3. 使用生成器显式建模N-gram Relation
      • 4. 相关资料
    • ERNIE-Doc
      • 1. ERNIE-Doc的由来
      • 2. 经典/Recurrence Transformer的计算
      • 3. Retrospective feed mechanism
      • 4. Enhanced Recurrence Mechanism
      • 5. Segment-Reordering Objective
      • 6. 相关资料
    • THU-ERNIE
      • 1. THU-ERNIE的由来
      • 2. THU-ERNIE的模型结构
      • 3. K-Encoder融合文本信息和KG知识
      • 4. THU-ERNIE的预训练任务
      • 6. 参考资料
    • KBERT
      • 1. KBERT的由来
      • 2. KBERT的模型结构
      • 3. 相关资料
    • ALBERT
      • 介绍
      • 模型结构
      • No Dropout
    • ELECTRA
      • 1.介绍
      • 2.模型结构
      • 3.训练策略
      • 4. 实验
      • 5.分析
      • 6. 总结
      • 7. 参考文献
    • Performer
      • 1. 介绍
      • 2. 两种常规的注意力机制回顾
      • 3. 广义注意力
      • 4. FAVOR+:通过矩阵相关性实现快速注意力
      • 5. 实验结果
      • 6. 案例:蛋白质序列建模
      • 7. 总结
      • 参考文献
  • 对抗神经网络
    • 基本概念
      • 博弈论
      • 纳什均衡
      • 输入噪声
      • 生成器
      • 判别器
      • 损失函数
      • 模型训练
      • 模型训练不稳定
      • 模式崩溃
    • 编码器和解码器
      • 编码器
      • 解码器
    • GAN应用
      • 应用
    • GAN综述
      • Overview

深度学习应用篇

  • 计算机视觉
    • 图像增广
      • 一、数据增广
      • 二、常用数据增广方法
      • 三、图像变换类
      • 四、图像裁剪类
      • 五、图像混叠
      • 六、实验
      • 参考文献
      • 测试时增强
    • 图像分类
      • LeNet
      • AlexNet
      • VGG
      • GoogLeNet
      • DarkNet
      • ResNet
      • ResNeXt
      • Res2Net
      • Swin Transformer
      • ViT
    • 目标检测
      • 目标检测综述
      • 边界框(bounding box)
      • 锚框(Anchor box)
      • 交并比
      • NMS
      • SoftNMS
    • 语义分割
      • DeepLabV3
      • 综述
    • OCR
      • OCR综述
      • OCR检测方法
      • OCR识别方法
    • 视频分类
      • TSM
      • TimeSformer
  • 自然语言处理
    • 命名实体识别
      • 命名实体识别是什么
      • 一文读懂BiLSTM+CRF实现命名实体识别
    • N-Gram
      • 介绍
      • 概率计算
    • SimCSE
      • 1.介绍
      • 2.对比学习背景
      • 3.无监督SimCSE
      • 4.有监督SimCSE
      • 5.各向异性问题
      • 6.实验细节
      • 7.总结
      • 8.参考文献
  • 推荐系统
    • 推荐系统基础
      • 推荐系统的产生
      • 应用场景
      • 推荐系统的方法
      • 推荐系统的组成
    • 推荐系统的评价指标
      • 场景转化指标
      • 消费满意度
      • 离线评估验证方法
      • 离线评估的主要指标
      • Replay
      • 用户数据指标
    • DSSM
      • 背景
      • DSSM
      • 参考文献
    • DeepFM
      • 1.模型简介
      • 2.DeepFM模型结构
      • 3.FM
      • 4.DNN
      • 5.Loss及Auc计算
      • 6.与其他模型的对比
      • 7.参考文献
  • 元学习
    • 元学习概述
      • 1 元学习概念
      • 2 元学习含义
      • 3 元学习单位
      • 4 基学习器和元学习器
      • 5 元学习工作原理
      • 6 元学习关键
      • 7 元学习分类
    • 基于优化的元学习
      • MAML
      • Reptile
      • LEO
    • 基于度量的元学习
      • SNAIL
      • RN
      • PN
      • MN
    • 基于模型的元学习
      • Learning to Learn
      • Meta-Learner LSTM

产业实践篇

  • 模型压缩
    • 模型压缩概述
      • 1. 为什么需要模型压缩
      • 2. 模型压缩的基本方法
    • 模型蒸馏
      • Patient-KD
      • DistilBERT
      • DynaBERT
      • TinyBERT
  • 模型部署

强化学习篇

  • 强化学习
    • 强化学习基础知识点
    • 马尔科夫决策过程
    • 策略梯度定理
    • 蒙特卡洛策略梯度定理
    • REINFORCE 算法
    • SARSA
      • 介绍
      • 基础概念
      • 应用举例
      • 优缺点
    • Q-Learning
      • 介绍
      • 基础概念
      • 应用举例
      • 优缺点
    • DQN
      • 1. 网络概述及其创新点
      • 2. 算法流程
    • Actor-Critic
      • 介绍
      • Actor-Critic
      • Actor-Critic算法流程
      • Actor-Critic优缺点

面试宝典

  • 面试问题
    • 深度学习基础
    • 卷积模型
    • 预训练模型
    • 对抗神经网络
    • 计算机视觉
    • 自然语言处理
    • 推荐系统
    • 模型压缩
    • 强化学习
PaddleEdu
  • »
  • 面试问题 »
  • 深度学习基础
  • Edit on GitHub

深度学习基础¶

  • 为什么归一化能够提高求解最优解的速度?

  • 为什么要归一化?

  • 归一化与标准化有什么联系和区别?

  • 归一化有哪些类型?

  • Min-max归一化一般在什么情况下使用?

  • Z-score归一化在什么情况下使用?

  • 学习率过大或过小对网络会有什么影响?

  • batch size的大小对网络有什么影响?

  • 在参数初始化时,为什么不能全零初始化?

  • 激活函数的作用?

  • sigmoid函数有什么优缺点?

  • RELU函数有什么优缺点?

  • 如何选择合适的激活函数?

  • 为什么 relu 不是全程可微/可导也能用于基于梯度的学习?

  • 怎么计算mAP?

  • 交叉熵为什么可以作为分类任务的损失函数?

  • CTC方法主要使用了什么方式来解决了什么问题?

  • 机器学习指标精确率,召回率,f1指标是怎样计算的?

卷积模型¶

  • 相较于全连接网络,卷积在图像处理方面有什么样的优势?

  • 卷积中感受野的计算方式?

  • 1*1卷积的作用是什么?

  • 深度可分离卷积的计算方式以及意义是什么?

预训练模型¶

  • BPE生成词汇表的算法步骤是什么?

  • Multi-Head Attention的时间复杂度是多少?

  • Transformer的权重共享在哪个地方?

  • Transformer的self-attention的计算过程是什么?

  • 讲一下BERT的基本原理

  • 讲一下BERT的三个Embedding是做什么的?

  • BERT的预训练做了些什么?

  • BERT,GPT,ELMO的区别

  • 请列举一下BERT的优缺点

  • ALBERT相对于BERT做了哪些改进?

  • NSP和SOP的区别是什么?

对抗神经网络¶

  • GAN是怎么训练的?

  • GAN生成器输入为什么是随机噪声

  • GAN生成器最后一层激活函数为什么通常使用tanh()?

  • GAN使用的损失函数是什么?

  • GAN中模式坍塌(model callapse指什么?)

  • GAN模式坍塌解决办法

  • GAN模型训练不稳定的原因

  • GAN模式训练不稳定解决办法 or 训练GAN的经验/技巧

计算机视觉¶

  • ResNet中Residual block解决了什么问题?

  • 使用Cutout进行数据增广有什么样的优势?

  • GoogLeNet使用了怎样的方式进行了网络创新?

  • ViT算法中是如何将Transformer结构应用到图像分类领域的?

  • NMS的原理以及具体实现?

  • OCR常用检测方法有哪几种、各有什么优缺点

  • 介绍一下DBNet算法原理

  • DBNet 输出是什么?

  • DBNet loss

  • 介绍以下CRNN算法原理

  • 介绍一下CTC原理

  • OCR常用的评估指标

  • OCR目前还存在哪些挑战/难点?

自然语言处理¶

  • RNN一般有哪几种常用建模方式?

  • LSTM是如何改进RNN,保持长期依赖的?

  • LSTM在每个时刻是如何融合之前信息和当前信息的?

  • 使用LSTM如何简单构造一个情感分析任务?

  • 介绍一下GRU的原理

  • word2vec提出了哪两种词向量训练方式

  • word2vec提出了负采样的策略,它的原理是什么,解决了什么样的问题?

  • word2vec通过什么样任务来训练词向量的?

  • 如果让你实现一个命名实体识别任务,你会怎么设计?

  • 在命名实体识别中,一般在编码网络的后边添加CRF层有什么意义

  • 介绍一下CRF的原理

  • CRF是如何计算一条路径分数的?

  • CRF是如何解码序列的?

  • 使用bilstm+CRF做命名实体识别时,任务的损失函数是怎么设计的?

  • BERT的结构和原理是什么?

  • BERT使用了什么预训练任务?

  • 说一下self-attention的原理?

推荐系统¶

  • DSSM模型的原理是什么?

  • DSSM怎样解决OOV问题的?

  • 推荐系统的PV和UV代表什么?

  • 协同过滤推荐和基于内容的推荐的区别是什么?

  • 说一说推荐系统的交叉验证的方法?

模型压缩¶

  • 为什么需要进行模型压缩?

  • 模型压缩的基本方法有哪些?

  • DynaBERT模型的创新点是什么?

  • TinyBERT是如何对BERT进行蒸馏的?

强化学习¶

  • DQN网络的创新点是什么?

  • 什么是马尔可夫决策过程?

  • 什么是SARSA?

  • 什么是Q-Learning?

Previous

© Copyright 2021, nlpers. Revision b063757f.

Built with Sphinx using a theme provided by Read the Docs.
Read the Docs v: latest
Versions
latest
Downloads
On Read the Docs
Project Home
Builds