过去三年,AI 行业花了几千亿美元训练大模型,参数量从几十亿卷到几千亿。但有一件事很少有人停下来想:不管模型多大,微调之后,它处理每一个用户请求时用的都是同一套固定参数。任务一多、方向一矛盾,这套参数就被迫在互相冲突的需求之间妥协,每件事都在打折扣。
在基座模型持续进化的征途中,如何平衡“通用性”与“适配性”始终是一项技术挑战。传统的微调 (Fine-tuning) 或PEFT (如LoRA) 虽然解决了模型“学新知识”的问题,但本质上仍是在静态权重空间内的“存量博弈”——每适配一个新任务,都可能对旧有能力造成不可逆的挤压。
2月10日,腾讯混元开源面向消费级硬件场景的“极小”模型HY-1.8B-2Bit,该模型基于1.8B参数的小尺寸模型,通过2Bit量化技术,等效参数量约为0.3B,实际存储占用仅约600MB,比常用的一些手机应用还小,实现了端侧部署的新突破。目前,模型已在开源模型社区Huggingface和Github上线。
12月11日,腾讯混元发文称,之前有不少用户反馈腾讯混元英文名(Tencent Hunyuan)不好识别和发音。经过慎重考虑,我们决定把腾讯混元英文名称从Tencent Hunyuan简化为Tencent HY。从混元2.0开始,我们将使用这一名称,最新推出的模型为:Tencent HY 2.0 Think和Tencent HY 2.0 ...
当前正在显示可能无法访问的结果。
隐藏无法访问的结果