Literature

经过CoOp的阅读，我们了解到了在单机上如何通过机器自己优化“soft prompt”来提高图像的识别，而promptFL则是在此基础上更进一步，将CoOp展现的强大迁移能力应用至联邦学习领域。优势成本：在传统联邦学习中，我们需要将大量的数据参数上传至服务器，而promptFL只需要上传提示词参数，在实验对比中，promptFL取得了惊人的成果：指标 PromptFL Finetuning FL 差距每轮上传量 6.3 MB 693 MB 110倍可训练参数 0.01%~0.1% 100% 训练数据需求 202 张 50500 张 250倍 GPU 训练时间 2444s 7189s ~3倍 Non-IID 下不崩：Table 2 的 Extreme Non-IID 列非常关键：Finetuning FL 在 Non-IID 下准确率从 90% 暴跌到 29%，而 PromptFL 从 90% 只掉到 88%。因为 CLIP 冻结不动，prompt 只是轻微调整方向，不容易被某个客户端的偏置数据带偏。 Few-shot 有效: 每个客户端只需 2~16 张图就能训练，符合联邦场景下各设备数据量小的现实。局限局限一：所有客户端共享同一个 Global Prompt。不区分客户端的域差异。比如客户端 A 拍的是白天户外的猫，客户端 B 拍的是夜间室内的猫，它们需要的"最佳开场白"显然不同，但 PromptFL 强制所有人用同一个。局限二：没有考虑 Domain Generalization。 PromptFL 只在训练过的域上评估，没有测试"在完全没见过的新域上表现如何"。 ...

确定方向后第一篇论文精读笔记，随看随做。第一遍 Abstract 在图像识别领域，传统做法是用视觉模型提取图像特征，然后匹配一组随机初始化的固定权重向量（每个类别一个向量），这些权重就代表视觉概念。而这就存在一个缺陷：这些向量只是数字，没有语义信息，如“狗”、“猫”、“飞机”在模型眼中只是01、02、03，而无法意识到狗和猫比狗和飞机在语义上更接近。这就引出了作者的一个发现：像 CLIP 这样的大型预训练视觉-语言模型在学习可跨越广泛下游任务迁移的表示方面展现了巨大潜力。每个类别不再是数字编号，而是一段自然语言描述（“a photo of a dog”）。模型学到的是图像和文本在共享语义空间里的对齐关系。 CoOp 论文想表达的核心对比：正因为 CLIP 用了语言监督而非离散标签，它学到的表征空间天然更 transferable（可迁移）。但要用好这个能力，你得写对 prompt——这就引出了 CoOp 的研究动机：让机器自己学 prompt，别靠人手写。 Introduction 传统视觉模型无法较好泛化，模型将“一只猫”，“一只狗”替换为编号，很大程度上丢失了文本语义信息，使其无法处理新类别，因为学习新分类器需要额外的数据。最近，视觉-语言预训练成为有前景的一个方向，但提示词工程要求极其玄学的输入，一个词语的增删都会对结果造成显著影响。实验人员需要广泛的测试提示词，造成效率极其低下。所以，作者从提示学习（NLP）中找到灵感，提出一种简单方法：上下文优化（context optimization，简称CoOp） conclusion 大致意思就是这个实验方向很新，效果很不错，还有很多地方可以细化展开，我们的文章主要做为一个引入。第二遍阅读 CLIP是本文绕不开的一个话题。CLIP是openAI发布的开源模型，关联了图像和文字。我主要介绍两个概念：特征空间：对于计算机来说，它是无法真正识别图像和文字的，我们需要将他们转换成一串数字（向量）。特征空间就是一个 512 维的数学坐标系，图像和文字都会被转换成这512维的向量，如果一张图片和一串文字在这个坐标系里算出来的距离很近（点积很大），那就说明他们成功匹配了。有趣的是，人类并不知道这512维每一个维度代表什么，这些都是模型在训练中自己决定的。编码器（Encoder）：图像编码器：输入一张图片，输出一串512维的向量。文字编码器：输入一句话，输出一串512维的向量。在CLIP出来之前，CV和NLP之间有巨大的鸿沟。openAI通过4亿对图片与文字进行对比学习，最后训练出CLIP，完美对齐了视觉和语义。具体实验流程不放了，下面进入复现复现代码第一次尝试复现代码，流程实在是繁琐。首先下载代码后需要进行环境配置，环境配置好后，需要下载数据集。数据集需要放入指定文件夹，然后在脚本中修改路径。这两步用copilot可以快速完成。太tm难复现了这代码，到此为止。。。（3.12记）

Literature

PromptFL阅读笔记

FedDG阅读：Learning to Prompt for Vision-Language Models