图像处理识别-图像处理识别文档介绍内容-移动阿里云

通义万相-图像生成与编辑2.6

parameters object（可选）图像处理参数。属性 negative_prompt string（可选）反向提示词，用于描述不希望在图像中出现的内容，对画面进行限制。支持中英文，长度不超过500个字符，超出部分将自动截断。示例值：低分辨率、错误、最差质量...

捕捉控件

考虑到匹配的准确性与效率，我们一般推荐您使用基于自动匹配的模式，若您希望捕捉的控件或其所在的界面无法被该模式识别，您也可以通过CV图像录制的模式，来截取目标操作区域，RPA会通过图像识别的方式对其进行匹配。2.1.自动匹配模式/win...

Java SDK

本文介绍Paraformer实时语音识别Java SDK的参数和接口细节。用户指南：关于模型介绍和选型建议请参见实时语音识别-Fun-ASR/Gummy/Paraformer。在线体验：仅paraformer-realtime-v2、paraformer-realtime-8k-v2和paraformer-realtime-v1...

图像背景生成

parameters object（可选）图像处理参数。属性 n integer（可选）图片生成的数量，支持1~4 张，默认值1。model_version string（可选）模型版本。可选值有：v2：旧版模型，速度快，默认值。v3：新版模型，速度慢，但效果更好，推荐切换到...

图像识别计费介绍

本文主要介绍图像识别收费能力的计费方式及费用详情。其余未收费能力当前还处于公测阶段，可免费使用。咨询服务如果您有任何购买问题需要咨询阿里云视觉智能开放平台，欢迎各位企业用户、开发商、服务商或者开发者通过钉钉搜索群号 ...

Java SDK

本文介绍Fun-ASR实时语音识别Java SDK的参数和接口细节。用户指南：关于模型介绍和选型建议请参见实时语音识别-Fun-ASR/Gummy/Paraformer。前提条件已开通服务并获取与配置 API Key。请配置API Key到环境变量，而非硬编码在代码中，...

RecognizeCarInvoice-机动车销售统一发票识别

多类型覆盖支持模糊、光照不均、透视畸变、任意背景等低质量图像识别。高精度识别总体识别准确率可达 98%。如何使用本接口步骤概述 1 开通票据凭证识别服务。开通服务前后，您可以通过体验馆免费体验本功能识别效果。2 购买机动车...

计费项

图像分析处理 新冠病毒肺炎辅助诊断、胸部CT肺结节检测、胸部CT平扫筛查视觉搜索同图检测视频理解视频封面、镜头解析、视频内容理解、视频OCR、视频拆条、视频画质评估视频生产视频校色、视频字幕擦除、视频标志擦除、视频画幅变换、...

RecognizeMixedInvoices-混贴发票识别

支持各类票据的发票代码、价税合计、合计金额、购买方识别号、开票日期等关键字段结构化识别输出。接口说明本接口适用场景阿里云混贴发票识别，是阿里云官方自研 OCR 文字识别产品，适用于获取多种发票集合在一个页面的场景，需要获取...

PDF识别

本文介绍文字识别（ocr）类目下的PDF识别RecognizePdf的语法及示例。功能描述 PDF识别能力可以对PDF上的文字进行结构化识别。说明您可以进入在线咨询获取在线人工帮助。当前能力可在视觉智能开放平台有完整的免费产品体验，您可以单击 ...

RecognizeBirthCertification-出生证明识别

多类型覆盖支持模糊、光照不均、透视畸变、任意背景等低质量图像识别。高精度识别总体识别准确率可达 98%。如何使用本接口步骤概述 1 开通个人证照识别服务。开通服务前后，您可以通过体验馆免费体验本功能识别效果。2 购买出生...

多媒体分析

年龄分析 1次基础模型服务 识别图像中主体人脸（唯一）的年龄区间。如果图像中有多个人脸，则只会返回区域最大的主体人脸的结果。如果图像中没有检测到人脸，将返回错误提示。年龄区间包含：'0-2'、'3-9'、'10-19'、'20-29'、'30-39'、'40-...

计费方式

300～999千次 1.50元/千次 1000～2999千次 1.20元/千次 3000～4999千次 0.80元/千次 5000千次以上 0.60元/千次计费案例案例一：当调用量不足最小计价单位时，费用为：（使用量÷最小计价单位）×单价例如，使用录音文件识别处理了30分钟...

API详情

概述 Paraformer语音识别提供的文件转写API，能够对常见的音频或音视频文件进行语音识别，并将结果返回给调用者。常见的音频或音视频文件一般采用16kHz及以上的采样率进行录制，可选择paraformer-v1模型进行中英文语音识别，或选择...

Java SDK

关键接口 NlsClient：语音处理客户端，利用该客户端可以进行一句话识别、实时语音识别和语音合成的语音处理任务。该客户端为线程安全，建议全局仅创建一个实例。SpeechRecognizer：一句话识别处理类，通过该接口设置请求参数，发送请求及...

图像识别常见错误码

图像加载错误码此类错误也可以看作是图像URL错误，例如图像下载错误、地域错误。当前系统推荐使用华东2（上海）地域，如果您通过OSS生成URL，那么您在OSS上创建的Bucket所属地域应该为华东2（上海）。更多信息，请参见文件URL处理。...

文字提取

h_bar*w_bar 表示缩放后的图像长宽，模型在处理图像前会进行预处理，将其缩放至特定像素上限内，像素上限与 max_pixels 参数的取值有关。token_pixels 表示每 Token 对应的像素值 qwen-vl-ocr-2025-11-20、qwen-vl-ocr-latest 固定为 32*32...

设置图像转换

选择速度优化页签，单击图像转换开关后，可以通过在请求URL中添加图片处理参数，来实现不同的图像处理功能。例如，您可以在JavaScript中，通过编写URL处理方法，将图片转换为其他格式。function updateImageUrl(format){ let baseUrl=...

调用ProcessObjectAsync方法执行图像处理并保存结果 var result=await client.ProcessObjectAsync(new OSS.Models.ProcessObjectRequest(){ Bucket=bucket,Key=key,Process=process });打印结果信息 Console.WriteLine("ProcessObject done...

图像优化

支持的图片处理方式说明开启图像优化后，用户请求的URL携带一个或多个图像处理的相关参数，即可完成相应的图片处理，支持的参数请参见下表。图片处理功能处理参数说明格式转换 format 转换图片格式。质量转换 quality 调整图片质量。...

RecognizeEstateCertification-不动产权证识别

图像增强默认支持图像增强，包括图像自动旋转、畸变自动矫正、模糊图片自动增强等能力。多类型覆盖支持模糊、光照不均、透视畸变、任意背景等低质量图像识别。高精度识别总体识别准确率可达 98%。如何使用本接口步骤概述 1 开通个人...

视觉智能开放平台的审计事件

说明目前操作审计支持视觉智能开放平台的功能包括：人体人脸识别、图像识别、图像分割、目标检测、OCR识别、视觉智能辅助工具。事件名称事件含义 AddBodyTrace 添加Trace。AddFaceImageTemplate 增加图像人脸融合模板。BatchAddFaces ...

什么是智能双录质检

产品优势基于达摩院 AI 能力阿里巴巴达摩院团队人工智能（Artificial Intelligence，简称 AI）实验室在语音识别、图像识别、视觉理解、语言理解等方面开展大量研究，并沉淀出 AI 相关的大量技术成果。智能双录质检产品基于达摩院 AI 技术...

LVM-图像水印过滤（DLC）

LVM-图像水印过滤（DLC）组件主要用于过滤带水印的图像数据。支持的计算资源 DLC 算法说明通过计算图像带水印的概率，从而过滤带水印的图像数据来保证图像的质量，常用于后续图像生成模型的训练。输入/输出输入桩通过读OSS数据组件，...

LVM-图像文本描述生成（DLC）

图像文本描述生成算法是一种结合计算机视觉和自然语言处理的模型，旨在为输入图像生成自然语言描述。它在辅助视障人士、社交媒体内容创作、图像搜索、电商展示和新闻发布等领域有着广泛应用，显著提升了信息的可访问性和用户体验。支持的 ...

LVM-图像合规过滤（DLC）

LVM-图像合规过滤（DLC）组件主要用于过滤NSFW得分过高的图像数据。算法说明通过计算图像的不合规NSFW（Not Safe For Work）得分，从而过滤NSFW得分过高的图像数据来保证图像的质量，常用于后续图像生成模型的训练。输入/输出输入桩通过...

LVM-图像美学过滤（DLC）

LVM-图像美学过滤（DLC）组件主要用于过滤美学得分过低的图像数据。支持的计算资源 DLC 算法说明通过计算图像的美学得分，从而过滤美学得分过低的图像数据来保证图像的质量，常用于后续图像生成模型的训练。输入/输出输入桩通过读OSS...

什么是文档智能

文档智能深度融合文字识别、自然语言处理、图像处理、电子文档解析、文档预训练模型等多项技术，对非结构化和半结构化文档进行智能自动化处理，从而简化业务操作流程、提升文档处理效率，帮助企业更准确地进行大模型应用的场景建设。...

LVM-图像人脸占比过滤（DLC）

LVM-图像人脸占比过滤（DLC）组件主要用于过滤人脸占比过大或过小的图像数据。支持的计算资源 DLC 算法说明通过计算图像的人脸占比，从而过滤人脸占比过大或过小的图像数据来保证图像的质量，常用于后续图像生成模型的训练。输入/输出 ...

LVM-图像长宽比过滤（DLC）

LVM-图像长宽比过滤（DLC）组件主要用于过滤长宽比过大或过小的图像数据。支持的计算资源 DLC 算法说明通过计算图像的长宽比，从而过滤长宽比过大或过小的图像数据来保证数据的一致性，常用于后续图像生成模型的训练。输入/输出输入桩 ...

LVM-图像分辨率过滤（DLC）

LVM-图像分辨率过滤（DLC）组件主要用于过滤分辨率过大或过小的图像数据。支持的计算资源 DLC 算法说明通过计算图像的分辨率，从而过滤分辨率过大或过小的图像数据来保证图像的质量，常用于后续图像生成模型的训练。输入/输出输入桩 ...

LVM-图像大小过滤（DLC）

LVM-图像大小过滤（DLC）组件主要用于过滤过大或过小的图像数据。支持的计算资源 DLC 算法说明通过计算图像的大小，从而过滤过大或过小的图像数据来保证图像的质量，常用于后续图像生成模型的训练。输入/输出输入桩通过读OSS数据组件...

基于AnalyticDB Ray实现图片打标和模型微调

在图片打标实现中，面临图片处理、识别模型微调等开发工作，包含对原始图片的泛化增强、模型的微调等，以提高识别准确率。本文介绍基于AnalyticDB Ray的解决方案，旨在提供一套高效、精准的图片打标与模型微调一体化流程。产品方案阿里云...

识别并处理Bots流量

识别Bots流量精准快速地识别出Bots流量，关乎着自身服务的安全，为此，ESA 的Bots防护提供了多种不同的策略供用户选择。在简易模式下，使用AI决策识别Bots流量策略；在高级模式下，提供了多种可配置的识别策略，例如黑白名单策略、请求...

添加并管理问题清单

操作说明问题状态问题状态操作项待处理系统识别问题支持查看详情、智能根因分析、发起整改、忽略此次异常、通知问题负责人、加入白名单、重新校验、修改问题类型、查看操作记录、关联知识库文档。手动录入问题支持查看详情、发起...

添加并管理问题清单

已选监控对象：针对当前页面选中问题及其与当前页面选中问题所属同一监控对象下所有待处理问题，包括手动录入问题和自动识别问题已选标签所有对象：针对当前页面所选中的问题及其与当前页面选中问题所属同一标签下的所有待处理问题。...

图像背景生成

正确示例（带透明背景RGBA图像）错误示例半透明图像主体图像有文字引导图像限制引导图像可以是 RGB 图像或带透明背景的 RGBA 图像。对于RGBA图像，Alpha通道值为0的区域不参与引导过程的生成。前景或背景元素图像限制每个前景或背景...

人物实例分割

功能介绍本节点是对万相人物实例分割 API 的封装，可以从用户上传图片中识别出图像中的不同人物对象，并画出每个对象边界的像素级掩码。相关接口说明请参照：人物实例分割、人物实例分割前置依赖您需要已获取API Key 节点清单人像分割...

Java SDK

该方法返回一个 Flowable TranslationRecognizerResult 实例，您可通过调用 Flowable 的 blockingForEach 或 subscribe 等方法处理实时识别/翻译结果（TranslationRecognizerResult）。import ...

Java SDK

该方法返回一个 Flowable TranslationRecognizerResult 实例，您可通过调用 Flowable 的 blockingForEach 或 subscribe 等方法处理实时识别/翻译结果（TranslationRecognizerResult）。import ...