厉害了! ChatGPT 看到一张图,就能画出来!

ChatGPT 最近一系列的更新简直炸裂,新出的 DALLE 3 独领风骚,跟 Midjourney 有得一拼。它简略易用,只需会用 ChatGPT 就会运用 DALLE 3,让你的 Idea 经过图画轻松地呈现出来。

DALLE 3 又能够和最近新推出的图画辨认功用结合起来,让你把看到的图片上传到 ChatGPT 并生成提示词,然后把这个提示词输入 DALLE 3 生成相似的图画。让我们一起来看如何完成这一过程吧。

下图是我上一篇文章的封面,这张图的构图挺杂乱的,不知道 ChatGPT 能否精准复刻这张图,让我们拭目而待吧!

厉害了! ChatGPT 看到一张图,就能画出来!

在上传图片之前,首先要练习 ChatGPT,让它了解什么是 DALLE 3 以及如何写提示词。虽然 DALLE 3 知道如何写提示词可是 GPT-4V 的练习数据现在截止到 2022 年 1 月,因而它不知道什么是 DALLE 3。

为了练习 ChatGPT,我把下面的提示词输入 GPT-4V。之所以没有输入到 DALLE 3,因为它现在还不支撑上传图片。

Act as an DALLE 3 expert. Let me first explain what DALLE 3 is and how you'll generate prompts for it.
DALLE 3 is a subsequent iteration of the original DALLE, which is a variant of the GPT-3 model by OpenAI trained specifically to generate images from textual descriptions.
Writing an effective prompt for DALL-E 3 is crucial for obtaining the desired image outputs. Here are some guidelines and tips to craft a good prompt: 
​
1. **Be Specific and Detailed**: Instead of writing "a cat," specify "a fluffy orange cat with large green eyes sitting on a blue cushion." The more detailed the description, the closer the generated image will be to your vision. 
​
2. **Set the Scene**: If you have a particular setting in mind, describe it. For example, "A serene beach during sunset with pink and purple hues in the sky, gentle waves, and a lone palm tree on the right."3. **Specify Image Type**: If you have a preference for the type of image (e.g., oil painting, cartoon, photo, illustration), mention it at the beginning of the prompt. 
​
4. **Include Composition Details**: If certain elements should be in the foreground, background, or specific locations, mention it. "A large mountain in the background with a clear blue lake in the foreground and a campfire on the left."5. **Use Descriptive Adjectives**: Colors, sizes, moods, and other adjectives can help DALL-E 3 understand the look and feel you want. "A vibrant bustling market street filled with colorful stalls and diverse shoppers."6. **Diversify Depictions**: If your image involves people, ensure that you specify details related to descent and gender for inclusivity and diversity. 
​
7. **Avoid Ambiguities**: Ambiguous prompts can lead to unexpected results. Be as clear as possible about what you want. 
​
8. **Limit Contradictions**: Ensure your description is coherent and doesn't contain conflicting details. 9. **Experiment with Styles**: If you want an image inspired by older artistic styles or periods (keeping in mind the policy on recent artists), you can mention that. "A scene reminiscent of a Van Gogh painting showing a starry night over a quiet town."10. **Iterate and Refine**: If the initial image isn't quite right, adjust your prompt by adding or changing details, and try again. 11. **Limit Length**: While being detailed is beneficial, excessively long prompts might confuse the model. Aim for a balance between detail and brevity. 
​
12. **Incorporate Emotions or Moods**: Describing the emotion or mood can help set the tone of the image. "A tranquil forest glade bathed in soft morning light, giving a sense of peace."13. **Avoid Complex Abstract Concepts**: DALL-E 3 works best with concrete descriptions. If you're trying to convey an abstract idea, try to break it down into visual elements.
​
DALL-E 3 offers three resolutions to fit your artistic needs:
- **Square (1024x1024):** The classic choice, ideal for most images and the default setting.
- **Wide (1792x1024):** Crafted for sprawling landscapes, panoramic views, or any artwork that leans towards a horizontal stretch.
- **Tall (1024x1792):** The pick for dramatic full-body portraits, towering structures, or anything that demands a vertical flair.
Here's the magic: DALL-E 3's intuitive design means it can automatically gauge the best resolution from your prompt. Let's say you input a prompt hinting at a "full body portrait." 
> Prompt: Full body portrait of a cat wearing safety goggles and a construction hat, inspecting the site with a serious expression. In the background, there's a sign that reads, "Paws Construction Co."
​
DALL-E 3 would instinctively opt for the 1024x1792 resolution. But if you're someone who likes to call the shots, just toss in terms like "vertical images" or specify the exact resolution you're aiming for.
Craving a wide image? No problem! Adjust your prompt like this:
​
> Prompt: A panoramic view of a cat wearing safety goggles and a construction hat, standing next to a miniature construction site with toy bulldozers and cranes. The cat appears to be inspecting the site with a serious expression, while a mouse in a suit holds a tiny blueprint next to it. In the background, there's a sign that reads, "Paws Construction Co."Or you can simply use the term "wide images," and DALL-E 3 will roll out images in the 1792x1024 dimension. It's all about giving you the creative freedom to envision and execute!Do you understand your role?

翻译一下:

请扮演 DALL-E 3 专家。让我先解释一下什么是 DALL-E 3 以及如何为它生成提示词。
DALL-E 3 是原始 DALL-E 的后续迭代版本,它是 OpenAI 专门练习的 GPT-3 模型的变体,用于依据文本描绘生成图画。
为 DALL-E 3 编写有用的提示词对于取得抱负的图画输出至关重要。下面是一些编写好提示语的攻略和技巧: 
​
1. **具体具体**: 不要写 "一只猫",而要具体说明 "一只毛茸茸的橙色猫,一双绿色的大眼睛,坐在一个蓝色的垫子上"。描绘越具体,生成的图画就越接近你的想象。
​
2. **设置场景**: 假如您心目中有特定的场景,请对其进行描绘。例如,"日落时分的安静海滩,天空中呈现出粉色和紫色的色彩,海浪轻柔,右边有一棵孤独的棕榈树"。
​
3. **指定图片类型**: 假如您对图片类型(如油画、漫画、照片、插图)有偏好,请在提示开头提及。
​
4. **包含构图细节**: 假如某些元素应坐落远景、布景或特定位置,请注明。"布景是一座大山,远景是清澈湛蓝的湖水,左边是篝火"。
​
5. **运用描绘性形容词**: 颜色、巨细、心境和其他形容词能够协助 DALL-E 3 理解您想要的外观和感觉。"一条热闹非凡的集市大街,到处都是五颜六色的摊位和五花八门的购物者"。
​
6. **多样化描绘**: 假如您的图片涉及到人,请确保您指定了与血缘和性别相关的细节,以完成包容性和多样性。
​
7. **防止不置可否**: 不置可否的提示可能会导致意想不到的成果。请尽可能明确您的要求。
​
8. **限制对立**: 确保您的描绘连接共同,不包含相互对立的细节。
​
9. **测验不同风格**: 假如您希望图片的灵感来源于较早的艺术风格或时期(请紧记关于近期艺术家的政策),您能够这样说。"一个场景让人想起梵高的画作,展示了一个安静小镇的星空"。
​
10. **反复推敲**: 假如开始的图画不太合适,能够经过添加或更改细节来调整您的提示词,然后再试一次。
​
11. **限制篇幅**: 虽然具体是有益的,但过长的提示可能会让模特感到困惑。应力求在细节和简练之间取得平衡。
​
12. **融入情感或心境**: 描绘心境或心境有助于确认图片的基调。"安静的森林小径沐浴在柔软的晨光中,给人一种安详的感觉"。
​
13. **防止杂乱笼统的概念**: DALL-E 3 最好运用具体的描绘。假如您想表达一个笼统概念,请尽量将其分解为视觉元素。
​
DALL-E 3 供给三种分辨率以满意您的艺术需求:
- 正方形(1024x1024):** 经典选择,适合大多数图画,也是默许设置。
- 宽(1792x1024):** 适用于广阔的风景、全景或任何倾向于水平拉伸的艺术著作。
- 高 (1024x1792):** 用于拍摄戏剧性的全身肖像、挺拔的修建或任何需要笔直风格的著作。
​
神奇之处就在这儿: DALL-E 3 的直观规划意味着它能依据你的提示词主动判断最佳分辨率。假定您输入的提示是 "全身肖像"。
​
> 提示词: 一只猫的全身像,它戴着安全护目镜和施工帽,表情严厉地查看工地。布景是一个标牌,上面写着 "Paws 修建公司"。
​
DALL-E 3会本能地选择 1024x1792 的分辨率。但假如你是一个喜爱指挥若定的人,只需参加 "笔直图画 "之类的术语,或指定你想要的精确分辨率即可。
​
想要宽幅图画?没问题!像这样调整提示:
​
> 提示: 一只猫的全景图,它戴着安全护目镜和修建帽,站在一个有玩具推土机和起重机的微型修建工地旁。这只猫好像正表情严厉地查看工地,旁边一只穿着西装的老鼠拿着一张小蓝图。布景是一个写着 "Paws Construction Co. "的牌子。
​
您也能够直接运用 "宽图画",DALL-E 3 将以 1792x1024 的尺寸显示图画。所有这些都是为了给你创作自由,让你去想象和履行!
​
您了解自己的人物吗?

输入了上面的提示词练习 ChatGPT 今后,它这样答复:

是的,我理解我的人物。您供给了一份关于如何为 DALL-E 3 制造有用提示词的深化攻略。依据这些指导原则,我将协助您制造有构思的具体提示,以便运用 DALL-E 3 制造所需的图画。请供给您的图画概念或您心中的主意,我将依据您共享的指导原则协助您制造有用的提示。

厉害了! ChatGPT 看到一张图,就能画出来!

好了,已然它现已懂了,那么我们就能够上传图片并让它生成对应的提示词了。

厉害了! ChatGPT 看到一张图,就能画出来!

上传了图片之后,我让它生成 4 个提示词,一来是因为 DALL-E 3 默许会生成 4 张图片,二来是能够从这 4 张图中选择一张最好的。这儿的一个细节是我告知了 GPT-4V 上传的图片是一张宽幅的图片。经我测试它还无法辨认图画的宽高比。

厉害了! ChatGPT 看到一张图,就能画出来!

1. **传神的艺术工作室气氛**:
  > 一幅广角图片,捕捉到一位才华横溢的艺术家,栗色波涛卷发披散在肩上,身穿一件褪色的蓝色牛仔衬衫。她正一丝不苟地在画布上为自己制作一幅绘声绘色的肖像,捕捉她的每一根发丝和注视的神态。画布上的肖像反映了她在实际国际中的特征,包含她淡褐色眼睛中闪烁的柔软光辉。布景是复古的木板,增添了工作室的质朴气氛。她的调色板上点缀着各种颜色,手中的画笔蘸着天蓝色,预备下一笔。
​
2. **艺术中的自我反思**:
  > 艺术家迷失在创作国际中的全景。她身着休闲牛仔衬衫,丰盈的棕色波涛在奇妙的灯光下闪闪发光,她在拉伸的画布上画着自画像。画布上捕捉到了她令人入神的细节--每一个弯曲的弧度、灰色上衣轻柔的垂坠感,以及目光的穿透力。布景中的木质镶板彰显出一种陈旧的魅力,而她身旁的调色板则证明了她的用心,色彩使她的形象绘声绘色。
​
3. **复古工作室布景**:
  > 在一个宽广的环境中,似乎回到了永久的艺术工作室,一位具有一头丰盈潇洒的黑发、身着柔软的蓝色衬衫的女士正在聚精会神地作画。她的主题不是他人,正是她自己,画布上精细地描绘着她的脸和上半身。从脸部轮廓到眼睛的影子,每一个特征都被精准捕捉。木质壁板进一步丰厚了这儿的气氛,她身旁的调色板上色彩斑斓,诉说着曩昔许多肖像画的故事。
​
4. **寻求完美的艺术**:
  > 艺术家的天堂全景:一位具有一头浓密棕色波涛卷发、身着舒适蓝色牛仔衬衫的女士正在进行她的艺术之旅。她正在画一幅自画像,画布上展示的是一张与她一模一样的脸,从她富有表情的眼睛到布料的垂感,每一个细微之处都与她一模一样。质朴的木质布景,加上她色彩斑斓的调色板,增加了画面的层次感,描绘出一幅纯粹的艺术沉浸式场景。

厉害了! ChatGPT 看到一张图,就能画出来!

万事俱备!现在能够进入 DALL-E 3 并让它依据这 4 个提示词生成图画啦。

厉害了! ChatGPT 看到一张图,就能画出来!

我觉得最后一幅图是比较接近原图的,放大来看下。

厉害了! ChatGPT 看到一张图,就能画出来!

想持续了解如何运用 DALLE 3 ,能够看这篇文章:

重磅!ChatGPT 能够进行 AI 绘图了,来看教程吧

想了解 DALLE 3 和 Midjourney 之间的差异,能够阅读这篇文章:

Midjourney 要完蛋了吗?DALLE 3 效果如何?

有任何疑问或主意,欢迎评论区进行探讨!