普乐智能

查看: 4694|回复: 0

人人都在谈论GPT,但它究竟是什么?

[复制链接]

338

主题

424

帖子

1670

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
1670
发表于 2023-7-7 09:28:36 | 显示全部楼层 |阅读模式
ChatGPT是由美国OpenAI研发的能够通过自然语言驱动的人工智能技术工具,因为它强大的执行力和任务处理能力,一经亮相就引起了极大的关注。与之类似,在图像智能生成方面,新近崛起许多新型模型的AI,如Dall-E2 Midjourney V5等, 通过算法可以产生的逼真影像,让许多摄影师感觉到危机。一时间,人们都在热议我们究竟要如何与人工智能相处,摄影的未来会如何被AI所改变?

基于这样的话题背景,《中国摄影》杂志邀请美国加州库埃斯塔学院终身教授,艺术系数字设计方向主任刘灿国撰写了《AI摄影与GPT图像》一文,尝试厘清GPT和AI的基础概念和底层逻辑,并探讨AI与摄影相结合的各种可能。

这是刘灿国教授第二次为我们撰写讨论人工智能的文章。2019年1月刊上曾经发表了他的《平坦之境,或映成之影》,文中作为对科学技术对艺术的影响进行了展望,仅仅过去了4年时间,他的文章的一些预言已经成为了现实。未来已来,我们要如何应对人工智能的大潮,希望本文能为您提供一些思考的线索。

《AI摄影与GPT图像》原文刊发于《中国摄影》杂志4月刊,我们摘录了文章的核心观点在此呈现。如欲了解本文的全貌,欢迎点击文末的杂志封面购买4月刊杂志。

InstructPix2Pix: 给定图像和书面指令,然后按照指令来编辑图像。

GPT是什么?

GPT的含义

GPT 又称 (Generative Pre-trained Transformer) 是一种基于 Transformer(转换器) 的语言模型,通过大规模的自然语言数据训练,机器可以掌握和“学习”自然的语言表述方式和规律。

经过不断的演化,GPT-3基于万亿级别的单字训练,创建了史无前例的自然语言模型AI服务——ChatGPT。GPT的图像版本称之为 Dall E2,系使用同样的类似训练方法来发展。GPT的成功,代表了一种有效的知识学习模型,可以反向对于人类的学习和研究提供启迪和思路。

G 所代表的“生成式”(Generative)即一种创作仿生。

P 指“预训练”(Pre-Trained)说明了预先训练基础数据从而形成知识对创作的重要性。

“预训练”(Pre-Trained)的系统在摄影领域里早已存在

对于摄影领域而言,可用于个人 “预训练”(Pre-Trained)的系统化的知识早已存在和相对完善。譬如,对于设置器材、设备、灯光、存储等的技术控制特点的特性的认识,从而了解到其中的优缺点,在实际使用中进行最佳的组合。摄影基础理论,包括曝光、光学、镜头焦距,景深,空间构图等方面的知识,以及按摄影门类的拍摄技巧和后期技术都是系统化的知识。摄影史论,摄影作者和作品,则形成了这些基础理论知识的具体验证和匹配的模型。

百多年来的摄影知识体系是我们一切发展的基础。那么在这个基础上,算力和模型就是接下来要着重关注的要点。


基于NVIDIA的StyleGAN算法以及NVIDIA CUDA的“此人不存在网站”。每次刷新网页,就会由AI生成一个“真人”图像。


T 指代的Transformer(转换器)是由谷歌研究团队在2017年美国加州第31届神经信息处理系统会议上发表的一篇名为 “《你只需要注意力》(Attention Is All You Need)”(Vaswani et al., 2017) 的开创性论文中提出的一种神经网络架构。这篇文章指出,传统的神经信息大都需要通过编码器和解码器过程来进行语言分析,但该论文提出了一种新的简化的结构,完全基于一种称之为“注意力(Attention)”的机制。这是一种机器学习技术,用于对序列数据进行建模。


注意力机制与摄影注意力

前文提到了“注意力(Attention)”,那么什么是“注意力”机制?它对摄影有什么启示并和摄影有什么关联?Attention指的是一种机器学习技术,用于对序列数据进行建模。具体而言,在传统的序列模型中,如循环神经网络(RNN)和卷积神经网络(CNN),每个时间步只能访问输入序列中的一个位置。然而,在实际应用中,有些输入位置可能更加重要,需要更多考虑。这就是 “注意力” 机制的作用,它允许模型在计算输出时,动态地为每个输入位置分配不同的权重,以便更加关注重要的位置和数据。简而言之,只抓最关键的点。

就像我们的摄影创作一样,我们在场景中面对复杂的视觉“数据”,但我们总是会关注那些对我们来说的重点对象,随后才能将注意力集中于构图、取景和拍摄。摄影中的构图是指摄影师通过调整拍摄角度、取景范围和线条构成等方式,使得照片的布局和结构更加清晰、有条理,同时能够吸引观众的视线。

Transformer 的 “注意力” 机制也是通过对输入序列的不同部分进行加权,从而实现对序列的建模和组织。在摄影后期中,当我们打开图像,我们会优先关注需要优化调整的部分,强化重要的、更好的部分,然后忽略对主题无意义的内容和无效细节。这就是类似的 “注意力”在起作用。



回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|11wo.com

Copyright © 2001-2013 Comsenz Inc.Template by Comsenz Inc.All Rights Reserved.

Powered by Discuz!X3.4( 备案号:桂ICP备18000909号-1 )QQ

快速回复 返回顶部 返回列表