NLP杂货店
坐标杭州,纵看大模型浪潮风起云涌,作为新…
目前大模型的外推的工作基本上都是基于Ro…
大模型的起始是Tokenizer,那么市…
以Phi3模型报告中出现的学术基准测试为…
目前开源大模型对于预训练模型和参数也渐渐…
参考Yi、InternLM2和XVERS…
大模型预训练数据处理似乎是一道坎,我们一…
RoPE旋转编码已经成为大模型的基础建设…
继续预训练不可避免会遇到灾难遗忘问题,以…
MoE模型已经成为大模型不可或缺的一环。…