经过CoOp的阅读,我们了解到了在单机上如何通过机器自己优化“soft prompt”来提高图像的识别,而promptFL则是在此基础上更进一步,将CoOp展现的强大迁移能力应用至联邦学习领域。
优势
- 成本:在传统联邦学习中,我们需要将大量的数据参数上传至服务器,而promptFL只需要上传提示词参数,在实验对比中,promptFL取得了惊人的成果:
| 指标 | PromptFL | Finetuning FL | 差距 |
|---|---|---|---|
| 每轮上传量 | 6.3 MB | 693 MB | 110倍 |
| 可训练参数 | 0.01%~0.1% | 100% | |
| 训练数据需求 | 202 张 | 50500 张 | 250倍 |
| GPU 训练时间 | 2444s | 7189s | ~3倍 |
-
Non-IID 下不崩:Table 2 的 Extreme Non-IID 列非常关键:Finetuning FL 在 Non-IID 下准确率从 90% 暴跌到 29%,而 PromptFL 从 90% 只掉到 88%。因为 CLIP 冻结不动,prompt 只是轻微调整方向,不容易被某个客户端的偏置数据带偏。
-
Few-shot 有效: 每个客户端只需 2~16 张图就能训练,符合联邦场景下各设备数据量小的现实。
局限
局限一:所有客户端共享同一个 Global Prompt。 不区分客户端的域差异。比如客户端 A 拍的是白天户外的猫,客户端 B 拍的是夜间室内的猫,它们需要的"最佳开场白"显然不同,但 PromptFL 强制所有人用同一个。
局限二:没有考虑 Domain Generalization。 PromptFL 只在训练过的域上评估,没有测试"在完全没见过的新域上表现如何"。
局限三:Prompt Learner 极其简单。 就是 CoOp 的原封不动搬过来,没有任何针对联邦场景的适配。
以后打算简短记一些笔记,这样读论文的压力比较小,也比较容易坚持,遇到很感兴趣的论文再精记笔记吧。