图像处理识别

_相关内容

通义万相-图像生成与编辑2.6

parameters object(可选)图像处理参数。属性 negative_prompt string(可选)反向提示词,用于描述不希望在图像中出现的内容,对画面进行限制。支持中英文,长度不超过500个字符,超出部分将自动截断。示例值:低分辨率、错误、最差质量...

捕捉控件

考虑到匹配的准确性与效率,我们一般推荐您使用基于自动匹配的模式,若您希望捕捉的控件或其所在的界面无法被该模式识别,您也可以通过CV图像录制的模式,来截取目标操作区域,RPA会通过图像识别的方式对其进行匹配。2.1.自动匹配模式/win...

Java SDK

本文介绍Paraformer实时语音识别Java SDK的参数和接口细节。用户指南:关于模型介绍和选型建议请参见 实时语音识别-Fun-ASR/Gummy/Paraformer。在线体验:仅paraformer-realtime-v2、paraformer-realtime-8k-v2和paraformer-realtime-v1...

图像背景生成

parameters object(可选)图像处理参数。属性 n integer(可选)图片生成的数量,支持1~4 张,默认值1。model_version string(可选)模型版本。可选值有:v2:旧版模型,速度快,默认值。v3:新版模型,速度慢,但效果更好,推荐切换到...

图像识别计费介绍

本文主要介绍图像识别收费能力的计费方式及费用详情。其余未收费能力当前还处于公测阶段,可免费使用。咨询服务 如果您有任何购买问题需要咨询阿里云视觉智能开放平台,欢迎各位企业用户、开发商、服务商或者开发者通过钉钉搜索群号 ...

Java SDK

本文介绍Fun-ASR实时语音识别Java SDK的参数和接口细节。用户指南:关于模型介绍和选型建议请参见 实时语音识别-Fun-ASR/Gummy/Paraformer。前提条件 已开通服务并 获取与配置 API Key。请 配置API Key到环境变量,而非硬编码在代码中,...

RecognizeCarInvoice-机动车销售统一发票识别

多类型覆盖 支持模糊、光照不均、透视畸变、任意背景等低质量图像识别。高精度识别 总体识别准确率可达 98%。如何使用本接口 步骤 概述 1 开通 票据凭证识别 服务。开通服务前后,您可以通过 体验馆 免费体验本功能识别效果。2 购买 机动车...

计费项

图像分析处理 新冠病毒肺炎辅助诊断、胸部CT肺结节检测、胸部CT平扫筛查 视觉搜索 同图检测 视频理解 视频封面、镜头解析、视频内容理解、视频OCR、视频拆条、视频画质评估 视频生产 视频校色、视频字幕擦除、视频标志擦除、视频画幅变换、...

RecognizeMixedInvoices-混贴发票识别

支持各类票据的发票代码、价税合计、合计金额、购买方识别号、开票日期等关键字段结构化识别输出。接口说明 本接口适用场景 阿里云混贴发票识别,是阿里云官方自研 OCR 文字识别产品,适用于获取多种发票集合在一个页面的场景,需要获取...

PDF识别

本文介绍文字识别(ocr)类目下的PDF识别RecognizePdf的语法及示例。功能描述 PDF识别能力可以对PDF上的文字进行结构化识别。说明 您可以进入 在线咨询 获取在线人工帮助。当前能力可在视觉智能开放平台有完整的免费产品体验,您可以单击 ...

RecognizeBirthCertification-出生证明识别

多类型覆盖 支持模糊、光照不均、透视畸变、任意背景等低质量图像识别。高精度识别 总体识别准确率可达 98%。如何使用本接口 步骤 概述 1 开通 个人证照识别 服务。开通服务前后,您可以通过 体验馆 免费体验本功能识别效果。2 购买 出生...

多媒体分析

年龄分析 1次基础模型服务 识别图像中主体人脸(唯一)的年龄区间。如果图像中有多个人脸,则只会返回区域最大的主体人脸的结果。如果图像中没有检测到人脸,将返回错误提示。年龄区间包含:'0-2'、'3-9'、'10-19'、'20-29'、'30-39'、'40-...

计费方式

300~999千次 1.50元/千次 1000~2999千次 1.20元/千次 3000~4999千次 0.80元/千次 5000千次以上 0.60元/千次 计费案例 案例一:当调用量不足最小计价单位时,费用为:(使用量÷最小计价单位)×单价 例如,使用录音文件识别处理了30分钟...

API详情

概述 Paraformer语音识别提供的文件转写API,能够对常见的音频或音视频文件进行语音识别,并将结果返回给调用者。常见的音频或音视频文件一般采用16kHz及以上的采样率进行录制,可选择paraformer-v1模型进行中英文语音识别,或选择...

Java SDK

关键接口 NlsClient:语音处理客户端,利用该客户端可以进行一句话识别、实时语音识别和语音合成的语音处理任务。该客户端为线程安全,建议全局仅创建一个实例。SpeechRecognizer:一句话识别处理类,通过该接口设置请求参数,发送请求及...

图像识别常见错误码

图像加载错误码 此类错误也可以看作是图像URL错误,例如图像下载错误、地域错误。当前系统推荐使用 华东2(上海)地域,如果您通过OSS生成URL,那么您在OSS上创建的Bucket所属地域应该为 华东2(上海)。更多信息,请参见 文件URL处理。...

文字提取

h_bar*w_bar 表示缩放后的图像长宽,模型在处理图像前会进行预处理,将其缩放至特定像素上限内,像素上限与 max_pixels 参数的取值有关。token_pixels 表示每 Token 对应的像素值 qwen-vl-ocr-2025-11-20、qwen-vl-ocr-latest 固定为 32*32...

设置图像转换

选择 速度优化 页签,单击 图像转换 开关后,可以通过在请求URL中添加图片处理参数,来实现不同的图像处理功能。例如,您可以在JavaScript中,通过编写URL处理方法,将图片转换为其他格式。function updateImageUrl(format){ let baseUrl=...

同步处理(C# SDK V2)

调用ProcessObjectAsync方法执行图像处理并保存结果 var result=await client.ProcessObjectAsync(new OSS.Models.ProcessObjectRequest(){ Bucket=bucket,Key=key,Process=process });打印结果信息 Console.WriteLine("ProcessObject done...

图像优化

支持的图片处理方式 说明 开启图像优化后,用户请求的URL携带一个或多个图像处理的相关参数,即可完成相应的图片处理,支持的参数请参见下表。图片处理功能 处理参数 说明 格式转换 format 转换图片格式。质量转换 quality 调整图片质量。...

RecognizeEstateCertification-不动产权证识别

图像增强 默认支持图像增强,包括图像自动旋转、畸变自动矫正、模糊图片自动增强等能力。多类型覆盖 支持模糊、光照不均、透视畸变、任意背景等低质量图像识别。高精度识别 总体识别准确率可达 98%。如何使用本接口 步骤 概述 1 开通 个人...

视觉智能开放平台的审计事件

说明 目前操作审计支持视觉智能开放平台的功能包括:人体人脸识别图像识别图像分割、目标检测、OCR识别、视觉智能辅助工具。事件名称 事件含义 AddBodyTrace 添加Trace。AddFaceImageTemplate 增加图像人脸融合模板。BatchAddFaces ...

什么是智能双录质检

产品优势 基于达摩院 AI 能力 阿里巴巴达摩院团队人工智能(Artificial Intelligence,简称 AI)实验室在语音识别图像识别、视觉理解、语言理解等方面开展大量研究,并沉淀出 AI 相关的大量技术成果。智能双录质检产品基于达摩院 AI 技术...

LVM-图像水印过滤(DLC)

LVM-图像水印过滤(DLC)组件主要用于过滤带水印的图像数据。支持的 计算资源 DLC 算法说明 通过计算图像带水印的概率,从而过滤带水印的图像数据来保证图像的质量,常用于后续图像生成模型的训练。输入/输出 输入桩 通过 读OSS数据 组件,...

LVM-图像文本描述生成(DLC)

图像文本描述生成算法是一种结合计算机视觉和自然语言处理的模型,旨在为输入图像生成自然语言描述。它在辅助视障人士、社交媒体内容创作、图像搜索、电商展示和新闻发布等领域有着广泛应用,显著提升了信息的可访问性和用户体验。支持的 ...

LVM-图像合规过滤(DLC)

LVM-图像合规过滤(DLC)组件主要用于过滤NSFW得分过高的图像数据。算法说明 通过计算图像的不合规NSFW(Not Safe For Work)得分,从而过滤NSFW得分过高的图像数据来保证图像的质量,常用于后续图像生成模型的训练。输入/输出 输入桩 通过...

LVM-图像美学过滤(DLC)

LVM-图像美学过滤(DLC)组件主要用于过滤美学得分过低的图像数据。支持的 计算资源 DLC 算法说明 通过计算图像的美学得分,从而过滤美学得分过低的图像数据来保证图像的质量,常用于后续图像生成模型的训练。输入/输出 输入桩 通过 读OSS...

什么是文档智能

文档智能深度融合文字识别、自然语言处理、图像处理、电子文档解析、文档预训练模型等多项技术,对非结构化和半结构化文档进行智能自动化处理,从而简化业务操作流程、提升文档处理效率,帮助企业更准确地进行大模型应用的场景建设。...

LVM-图像人脸占比过滤(DLC)

LVM-图像人脸占比过滤(DLC)组件主要用于过滤人脸占比过大或过小的图像数据。支持的 计算资源 DLC 算法说明 通过计算图像的人脸占比,从而过滤人脸占比过大或过小的图像数据来保证图像的质量,常用于后续图像生成模型的训练。输入/输出 ...

LVM-图像长宽比过滤(DLC)

LVM-图像长宽比过滤(DLC)组件主要用于过滤长宽比过大或过小的图像数据。支持的 计算资源 DLC 算法说明 通过计算图像的长宽比,从而过滤长宽比过大或过小的图像数据来保证数据的一致性,常用于后续图像生成模型的训练。输入/输出 输入桩 ...

LVM-图像分辨率过滤(DLC)

LVM-图像分辨率过滤(DLC)组件主要用于过滤分辨率过大或过小的图像数据。支持的 计算资源 DLC 算法说明 通过计算图像的分辨率,从而过滤分辨率过大或过小的图像数据来保证图像的质量,常用于后续图像生成模型的训练。输入/输出 输入桩 ...

LVM-图像大小过滤(DLC)

LVM-图像大小过滤(DLC)组件主要用于过滤过大或过小的图像数据。支持的 计算资源 DLC 算法说明 通过计算图像的大小,从而过滤过大或过小的图像数据来保证图像的质量,常用于后续图像生成模型的训练。输入/输出 输入桩 通过 读OSS数据 组件...

基于AnalyticDB Ray实现图片打标和模型微调

在图片打标实现中,面临图片处理识别模型微调等开发工作,包含对原始图片的泛化增强、模型的微调等,以提高识别准确率。本文介绍基于AnalyticDB Ray的解决方案,旨在提供一套高效、精准的图片打标与模型微调一体化流程。产品方案 阿里云...

识别处理Bots流量

识别Bots流量 精准快速地识别出Bots流量,关乎着自身服务的安全,为此,ESA 的Bots防护提供了多种不同的策略供用户选择。在简易模式下,使用AI决策识别Bots流量策略;在高级模式下,提供了多种可配置的识别策略,例如黑白名单策略、请求...

添加并管理问题清单

操作说明 问题状态 问题状态 操作项 待处理 系统识别问题支持 查看详情、智能根因分析、发起整改、忽略此次异常、通知问题负责人、加入白名单、重新校验、修改问题类型、查看操作记录、关联知识库文档。手动录入问题支持 查看详情、发起...

添加并管理问题清单

已选监控对象:针对当前页面选中问题及其与当前页面选中问题所属同一监控对象下所有待处理问题,包括手动录入问题和自动识别问题 已选标签所有对象:针对当前页面所选中的问题及其与当前页面选中问题所属同一标签下的所有待处理问题。...

图像背景生成

正确示例(带透明背景RGBA图像)错误示例 半透明图像 主体图像有文字 引导图像限制 引导图像可以是 RGB 图像或带透明背景的 RGBA 图像。对于RGBA图像,Alpha通道值为0的区域不参与引导过程的生成。前景或背景元素图像限制 每个前景或背景...

人物实例分割

功能介绍 本节点是对万相人物实例分割 API 的封装,可以从用户上传图片中识别图像中的不同人物对象,并画出每个对象边界的像素级掩码。相关接口说明请参照:人物实例分割、人物实例分割 前置依赖 您需要已 获取API Key 节点清单 人像分割...

Java SDK

该方法返回一个 Flowable TranslationRecognizerResult 实例,您可通过调用 Flowable 的 blockingForEach 或 subscribe 等方法处理 实时识别/翻译结果(TranslationRecognizerResult)。import ...

Java SDK

该方法返回一个 Flowable TranslationRecognizerResult 实例,您可通过调用 Flowable 的 blockingForEach 或 subscribe 等方法处理 实时识别/翻译结果(TranslationRecognizerResult)。import ...
< 1 2 3 4 ... 200 >
共有200页 跳转至: GO
新人特惠 爆款特惠 最新活动 免费试用