深度学习基础篇
深度学习进阶篇
深度学习应用篇
产业实践篇
强化学习篇
面试宝典
为什么归一化能够提高求解最优解的速度?
为什么要归一化?
归一化与标准化有什么联系和区别?
归一化有哪些类型?
Min-max归一化一般在什么情况下使用?
Z-score归一化在什么情况下使用?
学习率过大或过小对网络会有什么影响?
batch size的大小对网络有什么影响?
在参数初始化时,为什么不能全零初始化?
激活函数的作用?
sigmoid函数有什么优缺点?
RELU函数有什么优缺点?
如何选择合适的激活函数?
为什么 relu 不是全程可微/可导也能用于基于梯度的学习?
怎么计算mAP?
交叉熵为什么可以作为分类任务的损失函数?
CTC方法主要使用了什么方式来解决了什么问题?
机器学习指标精确率,召回率,f1指标是怎样计算的?
相较于全连接网络,卷积在图像处理方面有什么样的优势?
卷积中感受野的计算方式?
1*1卷积的作用是什么?
深度可分离卷积的计算方式以及意义是什么?
BPE生成词汇表的算法步骤是什么?
Multi-Head Attention的时间复杂度是多少?
Transformer的权重共享在哪个地方?
Transformer的self-attention的计算过程是什么?
讲一下BERT的基本原理
讲一下BERT的三个Embedding是做什么的?
BERT的预训练做了些什么?
BERT,GPT,ELMO的区别
请列举一下BERT的优缺点
ALBERT相对于BERT做了哪些改进?
NSP和SOP的区别是什么?
GAN是怎么训练的?
GAN生成器输入为什么是随机噪声
GAN生成器最后一层激活函数为什么通常使用tanh()?
GAN使用的损失函数是什么?
GAN中模式坍塌(model callapse指什么?)
GAN模式坍塌解决办法
GAN模型训练不稳定的原因
GAN模式训练不稳定解决办法 or 训练GAN的经验/技巧
ResNet中Residual block解决了什么问题?
使用Cutout进行数据增广有什么样的优势?
GoogLeNet使用了怎样的方式进行了网络创新?
ViT算法中是如何将Transformer结构应用到图像分类领域的?
NMS的原理以及具体实现?
OCR常用检测方法有哪几种、各有什么优缺点
介绍一下DBNet算法原理
DBNet 输出是什么?
DBNet loss
介绍以下CRNN算法原理
介绍一下CTC原理
OCR常用的评估指标
OCR目前还存在哪些挑战/难点?
RNN一般有哪几种常用建模方式?
LSTM是如何改进RNN,保持长期依赖的?
LSTM在每个时刻是如何融合之前信息和当前信息的?
使用LSTM如何简单构造一个情感分析任务?
介绍一下GRU的原理
word2vec提出了哪两种词向量训练方式
word2vec提出了负采样的策略,它的原理是什么,解决了什么样的问题?
word2vec通过什么样任务来训练词向量的?
如果让你实现一个命名实体识别任务,你会怎么设计?
在命名实体识别中,一般在编码网络的后边添加CRF层有什么意义
介绍一下CRF的原理
CRF是如何计算一条路径分数的?
CRF是如何解码序列的?
使用bilstm+CRF做命名实体识别时,任务的损失函数是怎么设计的?
BERT的结构和原理是什么?
BERT使用了什么预训练任务?
说一下self-attention的原理?
DSSM模型的原理是什么?
DSSM怎样解决OOV问题的?
推荐系统的PV和UV代表什么?
协同过滤推荐和基于内容的推荐的区别是什么?
说一说推荐系统的交叉验证的方法?
为什么需要进行模型压缩?
模型压缩的基本方法有哪些?
DynaBERT模型的创新点是什么?
TinyBERT是如何对BERT进行蒸馏的?
DQN网络的创新点是什么?
什么是马尔可夫决策过程?
什么是SARSA?
什么是Q-Learning?