比 AI 作图更离谱 AI 声音克隆是否为大众所接受？

随着 ChatGPT 和 AI 绘图的持续火热，人工智能已不可阻挡地被推上风口浪尖。

ChatGPT 完成了从 3.5 到 4.0 大模型的飞跃，StableDiffusion 同样经历了从原始 SD 模型，到借助 Lura、ControlNet 等插件和其他模型的快速进阶，其所生成的图片已达到真假难辨的效果，让即便没有美术功底的用户，也能生成大师级的绘画作品，且效率惊人。

相较于 ChatGPT，AI 绘图的入口更多，且可以本地部署，甚至不需要联网。尤其是以 StableDiffusion 为首的免费开源程序，随着越来越多自由创作者的加入，已经延伸出许多功能强大的插件和风格各异的模型，其所生成的图片相较于 ChatGPT 也更具娱乐性和传播性，可以预测其在不久的将来还会更加强大。

与之相似的还有 AI 声音克隆工具，同样可以本地部署，通过输入同一个人的不同声音进行训练，能够还原出所训练对象的音色，达到以假乱真的效果。

如果使用自己的音色，则可以借助 AI 生成自己所要表达的话语内容，还可以使用歌手的声音来训练，还原歌手的音色来翻唱其他歌曲。

人工智能所发展的速度超乎了许多人的想象，因此也不可避免的带来了许多问题。比如 AI 绘画作品的版权纠纷问题，AI 绘画使用名人图片进行训练的侵权行为，借助 AI 绘画生成不良图片并传播的违法行为等等。

而比 AI 绘图要冷门的 AI 声音克隆，其所暴露的问题可能更加突出。

由于线上的口语传播具有很强的隐蔽性，AI 声音克隆所生成的内容很可能被用来远程诈骗，即便有些人能够分辨真人和 AI 生成语音的区别，但对于一些文化程度低或年龄较高的中老年人来说，还是容易上当受骗。

而如果用来制造虚假消息，其很大程度上降低了造谣的成本，很容易利用互联网的病毒式传播散布谣言。

在未得到正视以及法律保障之前，有关 AI 的这些问题估计很难为大众所接受，更多需要用户自发来约束自己的行为。

另一方面，如果尽可能规避负面影响，AI 能够帮助用户极大地提升工作效率，这一点是毋庸置疑的，且随着人工智能的快速发展，我们可以预见 AI 将会与我们的工作和生活息息相关。

运用 AI 工具进行创作还有一定门槛限制，比如 StableDiffusion 绘图要调用模型的参数，需要强有力的 GPU 硬件来协助完成，显存和算力越高做图效率以及图形质量会更好，创作 512 x 512 分辨率图片大约占用 5G 显存，创作 1024x 1024 分辨率图片大约占用 14G 显存，创作 1920x 1080 分辨率图片大约占用 21G 显卡显存。