东莞百域网站建设公司,百度热搜 百度指数,wordpress 内容页模板,广州制作外贸网站公司目录 一面/技术面 2024/08/30二面/技术面 2024/09/13 一面/技术面 2024/08/30
深挖实习#xff08;最近的一段实习#xff09;深挖论文#xff08;让我共享屏幕#xff0c;然后对着自己的论文讲#xff09;论文做了多久完成的#xff1f;主要都做了哪些工作#xff1f;… 目录 一面/技术面 2024/08/30二面/技术面 2024/09/13 一面/技术面 2024/08/30
深挖实习最近的一段实习深挖论文让我共享屏幕然后对着自己的论文讲论文做了多久完成的主要都做了哪些工作如何计算语言模型的困惑度常见的PEFT方法都有哪些LoRA有哪些关键的超参数常用的backbone都有哪些面试官想让我回答encoder、decoder、encoder-decoder这些batch norm、layer norm、instance norm、group norm之间有什么区别batch norm是在哪几个维度上norm的为什么NLP要用layer norm而不是batch norm手撕代码现场写Attention边写边讲思路并要求跑通为什么Q和K乘完要除以根号dBERT、T5、GPT之间有什么区别分别用了什么样的预训练任务
二面/技术面 2024/09/13
介绍最近的一段实习挑一些重要的项目展开讲讲对分布式这一块是否了解比如Megatron框架是如何提升效率的深挖另一段实习讲一下Adapter它作用在哪些层LoRA可以作用在哪些层你有没有尝试过不同的层效果有多大差异假设你要对7B的模型做全量微调大概要占用多少显存使用LoRA微调的话一般会节约多少显存介绍一下你知道的推理加速方法KV-cache是怎样工作的推理时常见的参数比如top-p、top-k、temperature都展开讲讲对Hive SQL或Spark等大数据处理工具了解吗对传统的机器学习模型了解吗比如决策树、随机森林这些Bagging和Boosting的区别Transformer、BERT和GPT在网络结构上有何区别为什么现在的大模型都是decoder-only的架构手撕代码在无重复元素的整数数组中寻找和为 target 的所有不同组合返回结果应当是 List[List[int]]。数组中的同一个元素可以被无限制重复选取。
二面快结束的时候跟面试官闲聊了一会聊着聊着发现base地在深圳我问面试官我不是投的杭州base吗面试官说他也不知道最后只能主动放弃了。