PromptFL阅读笔记

经过CoOp的阅读，我们了解到了在单机上如何通过机器自己优化“soft prompt”来提高图像的识别，而promptFL则是在此基础上更进一步，将CoOp展现的强大迁移能力应用至联邦学习领域。

优势

指标	PromptFL	Finetuning FL	差距
每轮上传量	6.3 MB	693 MB	110倍
可训练参数	0.01%~0.1%	100%
训练数据需求	202 张	50500 张	250倍
GPU 训练时间	2444s	7189s	~3倍

Non-IID 下不崩：Table 2 的 Extreme Non-IID 列非常关键：Finetuning FL 在 Non-IID 下准确率从 90% 暴跌到 29%，而 PromptFL 从 90% 只掉到 88%。因为 CLIP 冻结不动，prompt 只是轻微调整方向，不容易被某个客户端的偏置数据带偏。
Few-shot 有效: 每个客户端只需 2~16 张图就能训练，符合联邦场景下各设备数据量小的现实。

局限一：所有客户端共享同一个 Global Prompt。 不区分客户端的域差异。比如客户端 A 拍的是白天户外的猫，客户端 B 拍的是夜间室内的猫，它们需要的"最佳开场白"显然不同，但 PromptFL 强制所有人用同一个。

局限二：没有考虑 Domain Generalization。 PromptFL 只在训练过的域上评估，没有测试"在完全没见过的新域上表现如何"。

局限三：Prompt Learner 极其简单。 就是 CoOp 的原封不动搬过来，没有任何针对联邦场景的适配。

以后打算简短记一些笔记，这样读论文的压力比较小，也比较容易坚持，遇到很感兴趣的论文再精记笔记吧。