AI绘图模型不会写字的难题解决了

news/2024/7/10 20:17:12 标签: 人工智能, AI作画, aigc, 开源, ai绘画, ai, stable diffusion
aidu_pl">

介绍

大家好,最近有个aiYuan.html" title=开源>开源项目比较有意思,解决了图像中不支持带有中文的问题。
https://github.com/tyxsspa/AnyText。

为什么不能带有中文?

数据集局限

Stable Diffusion的训练数据集以英文数据为主,没有大量包含其他语言文本的图像数据。这导致模型对非英文语言的理解和生成能力比较弱。

DALL·E 3 也是类似情况,带有英文情况可以,带有其它语言效果不理想。

多语言处理能力有限

Stable Diffusion的底层语言模型是英文预训练的,没有经过中文细化。它对中文词汇、语法、语义的理解和生成能力有限。

文本渲染能力有限

将文本渲染成逼真图像方面存在局限性,较难生成自然、连贯的中文文本。

DALL·E 3

AnyText的绘图工具

阿里巴巴推出aiYuan.html" title=开源>开源项目,指定位置精准地向图中加入文字。

项目支持中英日韩四种语言,如图。

https://github.com/tyxsspa/AnyText/blob/m<a class=ain/docs/sample.jpg" />

快速使用

官网提供两个环境。
https://huggingface.co/spaces/modelscope/AnyText
https://modelscope.cn/studios/damo/studio_anytext/summary
https://modelscope.cn/studios/damo/studio_anytext/summary
https://modelscope.cn/studios/damo/studio_anytext/summary

在这里插入图片描述

架构

AnyText
AnyText的架构,一个基于扩散方法设计的文本生成和编辑系统。

  1. 辅助潜在模块:

    • 输入包括文本字形、位置和遮蔽图像。
    • 生成有助于在图像中创建或修改文本的潜在特征。
  2. 文本嵌入模块:

    • 利用光学字符识别(OCR)模型将笔画数据编码成嵌入。
    • 这些嵌入与由分词器产生的图像标题嵌入相结合。
    • 结果是与图像背景无缝融合的文本。

为了训练这个模型,使用了特定的损失函数:

  • 文本控制扩散损失: 旨在确保生成的文本准确地遵循控制条件(如位置、风格)。
  • 文本感知损失: 提高文本的感知精度,确保其与图像的视觉方面(如字体和比例)保持一致。

这个系统允许准确地生成文本,与图像内容的上下文和视觉效果协调一致。

总结

现在不支持stable diffusion webui 插件,使用只能在官方Demo或者写代码执行。

欢迎交流分享这方面问题,我也深入再尝试下。

朋友们帮忙点赞关注收藏!


http://www.niftyadmin.cn/n/5305619.html

相关文章

六、HTML 段落

HTML 可以将文档分割为若干段落。 一、HTML 段落 段落是通过 <p> 标签定义的。 <p>这是一个段落 </p> <p>这是另一个段落</p> 注意&#xff1a;浏览器会自动地在段落的前后添加空行。&#xff08;</p> 是块级元素&#xff09; 二、不…

使用printJS使网页打印成PDF、网页html结合printJS导出为pdf

先放几个参考链接 感谢&#xff01; Vue使用PrintJS实现页面打印功能_vue print.js 设置打印pdf的大小-CSDN博客 前台导出pdf经验汇总 &#xff08;html2canvas.js和浏览器自带的打印功能-print.js&#xff09;以及后台一些导出pdf的方法_iqc后台管理系统怎么做到导出pdf-CSD…

数据分析-25-电商用户行为可视化分析

文章目录 0. 数据代码获取1. 项目介绍1.1 分析背景1.2 分析目的1.3 分析思路 2. 数据清洗2.1 加载必要的库2.2 读取数据2.3 统计缺失值2.4 处理数据a. 删除重复值b. 转换时间格式c. 提取日期和时间d. 转换数据类型 3. 分析内容3.1 用户活跃规律a. 日均pv与uvb. 日新增pv、uv趋势…

连续学习(Continual Learning)或者增量学习的场景中,multiband和replay分别是什么?起到什么作用

multiband和replay是两种不同的训练策略&#xff0c;通常用在处理连续学习或者增量学习的场景中。这些策略旨在解决新知识学习导致旧知识遗忘的问题&#xff0c;即所谓的灾难性遗忘。以下是multiband和replay两种策略的基本区别&#xff1a; Multiband: 定义: multiband通常是…

MySQL数据管理(一)

一、列类型 列类型指规定数据库中该列存放的数据类型 列类型分类 数值类型字符串类型日期和时间型数值类型 数值类型 字符串类型 日期和时间类型 MySQL允许“不严格”语法&#xff0c;任何标点符号都可以作为日期部分之间的间隔符&#xff0c;如“24-01-03”、“24.01.03”…

java常见面试题:什么是注解(Annotation)?注解在Java中有哪些应用场景?

注解&#xff08;Annotation&#xff09;是Java编程语言中的一个特殊形式的元数据&#xff0c;用于为程序的各个元素&#xff08;例如类、方法、字段等&#xff09;添加额外的信息和属性。注解在Java 5中被引入&#xff0c;通过在代码中使用注解&#xff0c;开发人员可以提供关…

软考网络工程师考试大纲(2018年最新版)

本书是全国计算机专业技术资格考试办公室组织编写的网络工程师考试大纲,本书除大纲内容外,还包括了人力资源和社会保障部、工业和信息化部的有关文件以及考试简介。 网络工程师考试大纲是针对本考试的计算机网络中级资格制定的。通过本考试的考生,可被用人单位择优聘任为工…

家政小程序 php 源码 上门保洁家政服务派单小程序系统开发制作源码 全开源可二开

随着社会的发展和人们生活水平的提高&#xff0c;家政服务逐渐成为我们生活中不可或缺的一部分。为了满足市场的需求&#xff0c;家政小程序的开发应运而生。下面分享一款家政小程序 php 源码&#xff0c;上门保洁家政服务派单小程序系统开发制作源码&#xff0c;源码开源可二开…