用 FLUX 还原 1970s 美国办公室:电影感插画的 prompt 工程
9 分钟阅读
投资大师之路里有一个很重的部分是"场景背景"。每一个章节都要还原一个具体的历史时刻:1973 年的奥马哈办公室、1988 年可口可乐的董事会、2003 年 SARS 阴影下的香港股市大堂……加起来差不多 60 个场景。
这个量级靠人手画肯定是不可能的。但用扩散模型画又有个非常痛的问题:**怎么让它画的不是"AI 味十足的 stock photo",而是有美学风格统一性的电影感插画?**
### 第一版:朴素 prompt 的下场
最初我用最朴素的 prompt:`omaha office in 1973`。FLUX 给我画了一个明亮、干净、毫无年代感的现代办公室——有玻璃幕墙、白色 macbook、北欧风桌椅。完全不对。
加细节:`1973 office, vintage, retro`。这次出来的是一个"复古风婚礼请柬"风格的图——粉色、玫瑰金、亮闪闪。AI 对"vintage"的理解被现代审美污染了。
### 找到锚点:达里奥《Principles for Success》
卡了几天后,我无意中又看了一遍达里奥那个 30 分钟的动画短片《Principles for Success》(2019)。我意识到这就是我想要的视觉风格:
- **暖色调主导**:橙、棕、米黄、深红
- **平涂为主,但有戏剧性的明暗对比**:人物剪影或半剪影
- **构图有电影分镜感**:低角度、过肩、特写
- **细节克制**:脸部不画过细的眉眼,靠姿态和服装传达情绪
- **背景元素少而精**:办公室就一张桌、一盏灯、一摞文件,不要堆满杂物
这套风格的要点是:**不是"还原真实",是"还原真实给人留下的记忆感受"**。1973 年人们不会觉得自己活在"暖橙调"里——这是 50 年后我们用 kodachrome 老胶片回看那个年代时的视觉印象。
> Andrej Karpathy 在 "Don't fight your tools" 那个分享里讲过一句话:**"成功的产品都不是逆着工具的偏好做出来的,是顺着工具的偏好把它推到极致。"** 同样的道理对 AI 出图也适用——与其和 FLUX 死磕"画得真实",不如顺着它擅长的"画一种印象",把它推到一个有审美的方向。
### v2 prompt 模板
我最后稳定下来的 prompt 长这样:
```
A cinematic editorial illustration in 1970s kodachrome film tones.
Warm orange and amber color palette, deep brown shadows, paper-yellow highlights.
Inspired by the visual language of Ray Dalio's "Principles for Success" animated film
and Saul Bass film posters of the 1960s-70s.
Scene: A man in his 40s wearing a dark wool suit, sitting at a wooden desk
in a small office. The desk has a pile of annual reports, a black rotary phone,
and a brass lamp casting warm light. Floor-to-ceiling window behind shows
a quiet small-town street at sunrise, distant bare trees of a Nebraska autumn.
Style: Flat illustration with strong directional lighting, slightly textured
brush strokes, no outlines around figures. Minimal background elements.
Cinematic low-angle composition, depth of field. No facial details (face
in 3/4 shadow). Editorial magazine quality.
Avoid: Photo-realistic rendering, modern furniture, glass/chrome surfaces,
colorful neon, overly saturated colors, anime style, cluttered backgrounds.
```
这个 prompt 的关键设计有四点:
**1. 风格锚点是名作而不是形容词**
我没用 `vintage / retro / classic` 这类形容词——它们的语义已经被滥用得稀烂。我直接说"Ray Dalio's Principles for Success animated film" 和 "Saul Bass film posters"。这两个都是 FLUX 训练数据里见过的具体作品,模型对它们的理解非常稳定。
**2. 色彩用色名而不是温度**
`warm orange / amber / deep brown / paper-yellow` 这种具体色名比 `warm tones / vintage palette` 准确得多。FLUX 的色彩控制器对具体颜色更敏感。
**3. 构图用电影术语**
`low-angle / depth of field / 3/4 shadow / cinematic composition` 这套词比 `good composition` 有效十倍——因为 FLUX 训练数据里大量电影截图都被这样标注过。
**4. Negative prompt 至关重要**
`Avoid: Photo-realistic rendering, modern furniture...` 这一段消除掉 FLUX 默认的现代审美污染。特别是 `Avoid: glass/chrome surfaces` 是关键——FLUX 默认很喜欢画现代玻璃幕墙,必须明确禁掉。
### 真名替换的安全词策略
还有一个隐藏问题:如果我直接写 `Warren Buffett in his Omaha office`,OpenAI 和 Stability 会直接拦截——所有商业图像模型都把在世名人列入了内容审核黑名单。
解决办法是把名字替换成纯特征描述。`Warren Buffett` → `a man in his 40s, white hair, wire-rimmed glasses, plain dark suit, holding a thick annual report`。这个原则同样适用于品牌("Coca-Cola" → "a red soft drink can with classic typography")和具体地点("Berkshire Hathaway HQ" → "a small unmarked office building on a quiet street")。
### 一些没解决的难题
做了 60 个场景后,FLUX 还是有几个我没攻克的痛点:
**人物连贯性**。同一个人物在不同场景里五官会有微妙变化。即使我用 IP-Adapter 锁人脸,也只能勉强维持"看起来像同一类型人",做不到"看起来是同一个人"。这个问题大概要等多模态模型再演进。
**手部细节**。1970s 办公室场景里经常需要一个手拿钢笔的特写镜头——FLUX 出来的手十次有八次是错的。我最后的妥协是"刻意让人物手部在阴影里"或者"用书本/文件遮住手"。
**透视一致性**。FLUX 在画"很多书架"或"很多年报"时,常会画出违反透视的伪深度。我最后改成"少而精"原则,每个场景最多 3-4 个主要物件。
> **AI 出图工具的本质,不是替代美术师,是让"懂美学"的非美术从业者也能做出有美学的产品。** 风格控制比技术细节更重要——找到一个清晰的美学锚点(达里奥短片),然后用工程化的 prompt 模板把它稳定推向那个方向,比无止境地追求"更细节"有用得多。
