|
论文推荐:书写风格自适应的手写文本识别!论文推荐| [CVPR 2021] MetaHTR:书写风格自适应的手写文本识别! 本文简要介绍 CVPR 2021 录用论文 “MetaHTR: Towards Writer-Adaptive Handwritten Text Recognition”的主要工作。该论文认为手写文本识别模型在推理阶段应该可以通过少量样本来适应新的书写风格,并提出一个基于元学习来解决该问题的模型。 一、研究背景 书写风格的多样性使得手写文本识别是一个具有挑战性的问题。基于现代深度学习的手写文本识别模型通过在大量的数据中训练来解决这个问题。但本文提出一个假设,“总会存在新的书写风格,且与训练集中的书写风格截然不同。”例如作者的iPad可以很好地识别他4岁儿子写的字,但却难以识别他自己写的字。作者希望通过书写一个特定的句子,使得iPad可以适应他的书写风格,从而提升识别效果。这个动机与元学习[1]非常相似,即“先在相关任务中获取信息,接着通过在测试过程中使用一小部分样本进行快速适应来将其推广到新的任务中。” 二、方法原理简述
图1 网络训练过程 MetaHTR基于Model Agnostic Meta-learning(MAML)[1]算法,其关键在于训练过程,识别模型部分可以是任意的主流文本识别模型[2-4]。图1展示了MetaHTR的训练过程。MetaHTR训练的目的是为了得到的模型在少量新书写风格的数据中经过一次参数更新后,即可较好地适应该风格。 在训练阶段,每一次迭代分为内循环和外循环两部分:内循环是模拟用少量样本去适应新的书写风格这个过程,产生一个临时的模型;外循环是用临时模型去推理该风格的新样本。每一次迭代要用到某一个Writer的两部分不重叠的样本。在内循环中,用初始模型处理第一部分样本并根据Loss更新参数,得到临时模型。这里的Loss衡量识别结果与GT的差距。接着进行外循环,用临时模型处理第二部分样本,并根据Loss对初始参数进行更新,得到迭代一次的模型。值得注意的是,这里通过二阶导数将梯度从临时模型回传到初始模型。上述过程重复进行直到训练结束。在推理阶段,训练好的模型先在少量某个Writer的数据中Fine-tune一次,然后再开始推理。 在主流的文本识别任务中,最终的Loss是取预测结果中各个字符的交叉熵Loss的平均值。但作者认为不同的字符在各种风格中的差异程度不一样,为了快速适应新风格,需要给部分字符更高的优先度。所以在内循环的Loss中,各个字符的交叉熵Loss的权重不一样,由3层MLP根据梯度信息来预测。 三、主要实验结果及可视化效果
图2 风格适应前后效果对比 表1 Comparison Among Baselines, Naive Fine-tuning, And MetaHTR For Using Lexicon (L), No Lexicon (NL). GAP: Difference Between MetaHTR (NL) Vs Baseline (NL). We Almost Get Around 5-7% WRA Improvement Over Respective Baselines Under NL Setting.
表2 Performance Analysis With Different Approaches. 本文在IAM和RIMES上验证MetaHTR的效果。由于测试集中没有定义适应集(Adaptation Set, 用来给模型适应新的书写风格),所以对于每个测试集中的Writer,作者随机选取16个样本作为适应集。表1验证了MetaHTR要优于正常训练然后直接用适应集来Fine-tune的方法。在表2中,作者对比了其他方法,包括一些基于元学习的方法,可以看到MetaHTR的提升最大。 四、总结及讨论 作者首次提出书写风格适应问题,即模型在推理过程中只需要很少的样本就能适应新的书写风格,并采用扩展的Model Agnostic Meta-learning(MAML)算法来训练书写风格自适应手写文本识别网络。该网络在不改变其结构的情况下应用于三个现有的文本识别模型,在两个主流的手写数据集上验证了其更好效果。 |