非常诱人的美食图片(各种菜单100种图片)怎么可以错过
信息来源:互联网 发布时间:2023-09-24
如何根据不直接描述图像内容的长文本生成图片?我们建立了一个系统。
选自 arxiv.org作者:Ori Bar El等翻译:杨鹏跃校译:尚京华学术顾问:陈诚在本文中,我们提出了从没有直接描述图像可视内容的长文本去生成图像的新任务为此,我们建立了一个系统,用于根据食谱生成25×256高分辨率的食物图像。
以文本描述为条件生成高分辨率图像是计算机视觉中的基本问题这个问题正受到广泛研究,各种解决方法也被提出来创建反映长文本内容的图像是一个需要创造力的复杂过程比如,根据摘要创建书籍封面或电影海报或根据食谱创建食物图像。
本论文中提出了通过文本食谱生成食物图像的任务,食谱文本(没有标题)与图像的视觉内容之间的关系是模糊的,并且食谱的文本结构很复杂,由两个部分(配料和说明)组成并都包含多个句子我们使用recipe1M [数据集来训练和评估基于StackGAN-v2架构的模型。
1.简介 从文本生成图像是一项具有挑战性的任务,它在计算机视觉中有许多应用最近的研究表明,生成对抗网络(GAN)可以有效地从低变异性和低分辨率的数据集中合成高质量、逼真的图像[8,3]进一步的研究还表明,给出一个文本描述,条件GAN(cGAN)[5]会生成直接与文本内容相关又令人信服的图像[9]。
所有最近的与cGAN图像合成有关的文本都使用了图像的简短视觉描述,其具有低复杂性和一致的描述模式,并且图像本身具有低可变性例如,Zhange等人[15,16]使用了CUB数据集[14],其中包含200种鸟类,11,788张图像和相应的描述,以及Oxford-102数据集[6],其中包含来自102个不同类别的8,189种花卉图像(见图1)。
最近,包含800K对食谱及其相应图像的数据集recipe1M作为[11]的一部分发布了与CUB和Oxford-102数据集相比,这个数据集由于食物种类和子类别的多样性,其变异性很大此外,与图像有关的文本非常复杂。
它由2个部分(成分和结构)组成,它们可能包含数十行(例如图2)
图1. 图像来自于CUB和Oxford-102数据集及其相应的文本描述我们提出了一种从长文本合成图像的新任务,它与图像有关但不包含对图像的视觉描述具体来说,我们通过结合最先进的Stacked Generative Adversarial Network [15]和im2recipe [11]计算的两个食谱嵌入提议来生成以其食谱为条件的食物图像,为此任务提出了基线。
我们还使用真人评分,MS-SSIM [13]和初始评分[10]进行了广泛的定性和定量实验,以比较两种嵌入方法的有效性代码获取:https://github.com/netanelyo/Recipe2ImageGAN
2.学习嵌入我们的cGAN使用整个食谱的嵌入(其标题的前身)作为条件为了生成嵌入,我们利用[11]中使用的方法它们[11]提出了两种类型的嵌入方法,其中第二种方法添加了语义规范化损失组件在本文中,我们将第一种没有语义规范化的方法称为NOREG,而将第二种语义规范化的方法称为REG。
嵌入方法由以下步骤组成(具体架构见原论文)初步嵌入配料初步嵌入烹饪说明使用食谱-图像对的嵌入之间的余弦相似性损失,将整个食谱(使用之前初步嵌入的连串描述)和图像的神经嵌入结合起来放入公共空间使用高级分类目标添加语义规范化损失(仅在REG中使用)。
我们采用原论文中解释的这些方法。
图2.从[11]中采样的食物图像及其相应的文字描述(食谱)3.堆叠生成对抗网络最初,GAN [4]是两种被训练去相互竞争的模型的组合在训练过程中,发生器G和鉴别器D都受到了训练通过生成鉴别器D难以与真实图像区分开的图像,G得以优化,以再现与原始数据分布类似的图像。
而D被训练来区分真实图像和由G生成的伪合成图像这种训练类似于解决有两个玩家的游戏的极小极大值,它具有目标函数,[4]min max V (D; G) = Expdata[logD(x)] +G D(1)
Ez pz [log(1 D(G(z)))];其中x是从真实分布Pdata中采样的图像,z是噪声矢量,它是从先前的分布pz(例如,均匀或高斯)中采样的,G用它们来生成合成图像在条件GAN [12,15,16,9]的情况下,发生器和鉴别器都被迫考虑另一个变量c。
我们将D(x; c)和G(z; c)分别表示为发生器G和由c调节的鉴别器D这意味着G能够生成图像,并且D以c为条件区分它们张等人在StackGAN ++中引入的StackGAN-v2模型[15],是一个端到端网络,用于模拟一系列多种尺寸的图像分布。
该模型的结构由树状结构的几个发生器和鉴别器组成(具体结构见原论文)给定一个噪声向量z pz和条件c StackGAN-v2可以从树的不同分支生成低分辨率到高分辨率的图像在我们的例子中,c是第4节中的嵌入食谱之一。
总的来说,两种嵌入中的每一种都有一个模型4.实施细节我们比较了[11]中的两种嵌入方法第一种方法仅基于余弦相似性损失,大小为1024第二种方法额外使用了高级分类目标以计算1048尺寸的嵌入为了训练StackGAN-v2 [15]模型,我们使用了24的批量尺寸。
尝试使用更大的批量尺寸导致了模式的崩溃StackGAN-v2中提供的文本嵌入维度参数大小为128起初我们在训练中使用了这个参数并且得到了较差的结果我们意识到,通过把丰富的文本投射(嵌入)到小维度上,我们可以省略不同食谱之间的细微差别。
因此,我们使用1024作为两个嵌入方法的文本嵌入维度参数为了加速训练过程,我们使用hdf5(分层数据格式)将文件绘制到内存所有神经模型都是使用Py-Torch框架实现的所有其他参数与[11]和[15]相同。
这些模型在3 Nvidia Titan-X GPU上进行训练,每个都有12GB的内存,每个嵌入方法有100个时间点
图3.真实图像的组使用语义规范化(REG)生成的图像以及没有规范化(NOREG)生成的图像的比较,大多数人喜欢规范化图像的组。
图4. 真实图像的组不使用语义规范化(NOREG)生成的图像以及使用语义规范化(REG)生成的图像的比较,大多数人喜欢非规范化图像的组5.实验为了评估我们的模型,我们以Inception Score(IS)[10]的形式进行定量评估,并以真人评分(HR)的形式进行定性评估。
我们比较了上述评估方法对两种不同文本嵌入方法生成的图像的评分,这两种方法都是使用[11]计算的此外,我们也展示了几种先进技术和之前的先进文本到图像合成模型的输出,结果表明在描述的基础上生成现实食物图像是一项具有挑战性的任务,在食谱的基础上生成图像更是如此。
此外,我们还使用MS-SSIM[13]检查了生成图像的多样性
图5. 从上到下,真实图像使用语义规范化(REG)生成的图像和没有使用语义规范化(NOREG)生成的图像以及相应食谱的比较人们可以注意到,使用语义规范化(右侧)生成的图像具有显著的绿色,这可能是由于配料中有欧芹,因此它与真实图像不同。
5.1 数据集和评估指标Recipe1M [11]包含超过100万个食谱和80万张食物图像由于硬件限制,我们使用了5.2万训练集和2.4万食谱-图像对的评估集在预处理阶段,图像从256×256缩小到128×128再到64×64,以便在不同的图像尺寸上进行训练。
此外,这些图像被裁剪并随机水平翻转尽管这是专注于图像中的食物对象的最佳努力了,但裁剪时不时地会消除原始图像中的重要细节评估指标尽管评估生成模型通常是一项艰巨的任务(如[1]中所述),但为了对两种嵌入方法中生成的图像进行定量(数值)比较,我们使用了Inspection-Score,。
IS = exp(ExDKL(p(yjx)jj p(y))); (2)其中x表示单个生成的样本,y是预测标签,p(yjx)和p(y)分别是条件分布和边际分布,DKL是交叉熵IS直观地测量了ImageNet [2]类的多样性以及生成图像的清晰度。
因此,一个成功生成器的交叉熵(因此IS)应该很大我们评估的是评估集上的IS,其中包含2.4万随机选择的样本尽管在[1]中陈述了IS的次优性,但它是评估生成模型的最受欢迎的方法EmbeddingTypeREG
NOREGMetricInception4.42 0.174.55 0.20ScoreHumanQ 12.622.88Q 22.242.70RankingQ 33.053.72表1.我们所得结果的Inception score和
平均真人评分。
图6. 以文本描述为基础的HDGAN [17],AttnGAN [12]和StackGAN ++ [15]生成的食物图像的示例结果由于上述IS的次优性以及它不能反映生成图像与其所依据的食谱之间的相关性这一事实,我们使用了定性评估度量。
因此,有30人受邀对总共10个样本从以下几个方面进行打分:生成的图像与其相应食谱之间关系的强度生成的图像与其对应的真实图像之间关系的强度在何种程度上,图像看起来是真实的食物图像最终的真人评分是上述方面的平均值。
Embedding TypeMS-SSIM scoreREG0.17NOREG0.07表2. 我们所得结果中随机选择的图像的MS-SSIM [13]得分5.2 定量和定性结果正如人们可以从图6所示的例子中看到的那样,尽管有简洁又具视觉描述性的文本这样的生成条件,最先进的和之前的先进文本-图像合成模型产生结果并不令人满意。
我们比较了两种提到的文本嵌入方法之间的模型,即有语义规范化嵌入和没有语义规范化嵌入表1中报告了我们模型的Inception score和平均真人评分从表中可以看出,没有语义规范化的嵌入在所有方面得到了更好的IS和HR分数。
图3,4和5对有代表性的实例进行了比较真人评分从每个嵌入方法评估结果(即以相同食谱生成的图像)中选择出了10对相应的生成图像我们的受试者被要求按照上述方面对图像进行评分,分数为1到5如前所述,以基于余弦相似性的嵌入方法为条件进行训练的模型产生了接近真实图像的结果。
值得一提的是,与生成的图像(在余弦相似性嵌入评估中)相比,有些真实的食物图像得到了更低或持平的分数5.3多样性如[7]中提到的,评估图像相似性最成功的方法是多尺寸的结构相似性(MS-SSIM [13])。
该方法试图忽略对人眼来说不重要的图像方面为了评估由我们的模型生成图像的多样性,我们随机选择了来自评估集的200个图像;并且我们计算了每对的MS-SSIM得分结果可以在表2中看到我们可以看到,没有语义规范化的嵌入方法获得了更好的分数(越低越好),即:生成了更多样化的图像。
这些结果可以解释为:当使用语义规范化时,基于分类的规范化试图以离散的方式将食谱嵌入归入1048类中的一个,而不是利用整个空间6.结论在本文中,我们提出了一种使用Stacked Generative Adversarial Network(StackGAN-v2)进行从高分辨率长文本到图像合成的端到端系统。
我们比较了两种嵌入类型,一种基于余弦相似性(NOREG),另一种结合了高级分类目标(REG)这两种方法都能够从文本食谱(仅限配料和说明)中生成如照片般逼真的食物图像在这里,我们为这项新任务提供基准值得一提的是,与CUB [14]和Oxford-102数据集[6]中的图像相比,recipe1M数据集[11]中的图像质量较低。
这反映在两方面:一是有许多曝光条件差以及“粥状”的模糊图像,二是图像不是方形(这使得训练模型变得困难)这个事实可能会解释这两个模型都成功生成了粥状的食物图像(例如意大利面,米饭,汤,沙拉),但却难以生成具有独特形状的食物图像(例如汉堡包,鸡肉 ,饮料)。
从结果来看,很明显NOREG方法优于REG方法,前者生成了更逼真生动且更具细节的图像此外,前者的初始得分和多样性指标优于后者总而言之,我们得知虽然REG在分类任务中胜过NOREG(见[11]),但它在生成新图像方面却更具劣势。
参考文献[1]S. Barratt and R. Sharma. A Note on the Inception Score.ArXiv e-prints, Jan. 2018. 4[2]J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei. Imagenet: A large-scale hierarchical image database. In Computer Vision and Pattern Recognition, 2009. CVPR 2009. IEEE Conference on, pages 248–255. Ieee, 2009. 4
[3]E. Denton, S. Chintala, A. Szlam, and R. Fergus. Deep Gen-erative Image Models using a Laplacian Pyramid of Adver-sarial Networks. ArXiv e-prints, June 2015. 1
[4]I. J. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu,D.Warde-Farley, S. Ozair, A. Courville, and Y. Bengio. Generative Adversarial Networks. ArXiv e-prints, June 2014. 2
[5]M. Mirza and S. Osindero. Conditional Generative Adver-sarial Nets. ArXiv e-prints, Nov. 2014. 1[6]M.-E. Nilsback and A. Zisserman. Automated flower classi-fication over a large number of classes. In Proceedings of the Indian Conference on Computer Vision, Graphics and Image Processing, Dec 2008. 1, 5
[7]A. Odena, C. Olah, and J. Shlens. Conditional Image Syn-thesis With Auxiliary Classifier GANs. ArXiv e-prints, Oct. 2016. 5
[8]A. Radford, L. Metz, and S. Chintala. Unsupervised Repre-sentation Learning with Deep Convolutional Generative Ad-versarial Networks. ArXiv e-prints, Nov. 2015. 1
[9]S. Reed, Z. Akata, X. Yan, L. Logeswaran, B. Schiele, and Lee. Generative Adversarial Text to Image Synthesis.ArXiv e-prints, May 2016. 1, 2
[10]T. Salimans, I. J. Goodfellow, W. Zaremba, V. Cheung,Radford, and X. Chen. Improved techniques for training gans. CoRR, abs/1606.03498, 2016. 2, 3
[11]Salvador, N. Hynes, Y. Aytar, J. Marin, F. Ofli, I. We-ber, and A. Torralba. Learning cross-modal embeddings for
cooking recipes and food images. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recog-nition, 2017. 1, 2, 3, 4, 5
[12] Q. H. H. Z. Z. G. X. H. X. H. Tao Xu, Pengchuan Zhang. At-tngan: Fine-grained text to image generation
with attentional generative adversarial networks. 2018. 2, 4[13] Z. Wang, E. P. Simoncelli, and A. C. Bovik. Multiscale struc-tural similarity for image quality assessment. In The Thrity-Seventh Asilomar Conference on Signals, Systems Comput-ers, 2003, volume 2, pages 1398–1402 Vol.2, Nov 2003. 2, 4, 5
[14] P. Welinder, S. Branson, T. Mita, C. Wah, F. Schroff, S. Be-longie, and P. Perona. Caltech-UCSD Birds 200. Technical Report CNS-TR-2010-001, California Institute of Technol-ogy, 2010. 1, 5
[15] H. Zhang, T. Xu, H. Li, S. Zhang, X. Wang, X. Huang, and Metaxas. Stackgan++: Realistic image synthesis with stacked generative adversarial networks. arXiv: 1710.10916, 2017. 1, 2, 3, 4
[16] H. Zhang, T. Xu, H. Li, S. Zhang, X. Wang, X. Huang, and Metaxas. Stackgan: Text to photo-realistic image synthe-sis with stacked generative adversarial networks. In ICCV, 2017. 1, 2
[17] Z. Zhang, Y. Xie, and L. Yang. Photographic text-to-image synthesis with a hierarchically-nested adversarial network. CoRR, abs/1802.09178, 2018. 2, 4
原论文地址:https://arxiv.org/abs/1901.02404
免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186

