- https://zhuanlan.zhihu.com/p/693738275
- ppt文件位置:deep_learning
-
- 1_image_sdks - [图像识别 SDK]
1). 工具箱系列:图像处理工具箱(静态图像)
2). 目标检测
3). 图像分割
4). GAN
5). 其它类别:OCR等
...
OCR工具箱 1:方向检测 - ocr_sdks/ocr_direction_det_sdk - OCR图像预处理。 |
|
OCR工具箱 2:OCR文字识别 1. ocr_sdks/ocr_v3_sdk1). V3 文本检测: - 中文文本检测 - 英文文本检测 - 多语言文本检测 2). V3 文本识别: - 中文简体 - 中文繁体 - 英文 - 韩语 - 日语 - 阿拉伯 - 梵文 - 泰米尔语 - 泰卢固语 - 卡纳达文 - 斯拉夫 2. ocr_sdks/ocr_v4_sdk - 原生支持倾斜文本文字识别。 - 更高的识别精度 - 支持中英文。 |
|
OCR工具箱 4:版面分析 - ocr_sdks/ocr_layout_sdk可以用于配合文字识别, 表格识别的流水线处理使用。 1). 中文版面分析 2). 英文版面分析 3). 中英文文档 - 表格区域检测 |
|
OCR工具箱 5: 表格识别 - ocr_sdks/ocr_table_sdk- 中英文表格识别。 |
|
人脸工具箱 face_sdks 1:人脸检测(含关键点)- face_detection_sdk 2:人脸对齐 - face_alignment_sdk - 根据人脸关键点对齐。 3:人脸特征提取与比对 - face_feature_sdk 4:人脸分辨率提升 - face_sr_sdk 5:图片人脸修复 - face_restoration_sdk 6:口罩检测 - mask_sdk |
|
动物分类识别 |
|
菜品分类识别 |
|
烟火检测 |
|
行人检测 |
|
智慧工地检测 |
|
车辆检测 |
|
图片特征提取(512维)SDK 并支持图片1:1特征比对, 给出置信度。 |
|
图像&文本的跨模态检索 -图像&文本特征向量提取 -相似度计算 -softmax计算置信度 |
|
图像矫正 |
|
文本图像超分辨 |
|
图像超分辨(4倍) |
|
黑白图片上色 从而实现黑白照片的上色。 |
|
一键抠图工具箱 -包括三个模型:满足不同精度,速度的要求。 |
|
一键抠图工具箱 无需手动绘制边界, 大大提高了抠图的效率和精准度。 应用场景如: - 广告设计 - 影视后期制作 - 动漫创作等 |
|
一键抠图工具箱 应用场景: - 电子商务 - 社交媒体 - 广告设计 - 时尚设计 - 虚拟试衣 |
|
一键抠图工具箱 - 将人体从背景中抠出, 形成一个透明背景的人体图像。 |
-
- 2_nlp_sdks - [自然语言 SDK]
1). 工具箱系列:sentencepiece,fastText,npy/npz文件处理等。
2). 大模型
3). 词向量
4). 机器翻译
...
Sentencepiece分词 |
|
jieba分词 |
|
机器翻译 1. 202种语言互相翻译- translation/trans_nllb_sdk - 支持202种语言互相翻译, - 支持 CPU / GPU。 2. 中英互相翻译 - translation/translation_sdk - 可以进行英语和中文之间的翻译, - 支持 CPU / GPU。 |
|
文本特征提取向量工具箱 - embedding/*-1. 4个中文SDK: 1).m3e_cn_sdk 2).text2vec_base_chinese_sdk 3).text2vec_base_chinese_sentence_sdk 4).text2vec_base_chinese_paraphrase_sdk -2. 3个多语言SDK: 1).sentence_encoder_15_sdk (支持 15 种语言) 2).sentence_encoder_100_sdk (支持100种语言) 3).text2vec_base_multilingual_sdk (支持50+种语言) -3. 3个代码语义SDK: 1).code2vec_sdk 2).codet5p_110m_sdk 3).mpnet_base_v2_sdk |
-
- 3_audio_sdks - [语音处理 SDK]
1). 工具箱系列:音素工具箱,librosa,java sound,javacv ffmpeg, fft, vad工具箱等。
2). 声音克隆
3). 语音合成
4). 声纹识别
5). 语音识别
...
中文语音识别(ASR) 1. 短语音- asr_whisper_sdk 2. 长语音 - asr_whisper_long_sdk |
|
TTS 文本转为语音 - tts_sdk- TTS 文本转为语音。 |
-
- 4_video_sdks - [视频解析SDK]
1). 摄像头口罩检测 - camera_facemask_sdk
2). MP4检测口罩 - mp4_facemask_sdk
3). rtsp取流检测口罩 - rtsp_facemask_sdk
视频流分析 1. 摄像头口罩检测- camera_facemask_sdk 2. MP4检测口罩 - mp4_facemask_sdk 3. rtsp取流检测口罩 - rtsp_facemask_sdk |
-
- 5_bigdata_sdks - [大数据SDK]
1). flink-情感倾向分析【英文】- flink_sentence_encoder_sdk
2). kafka-情感倾向分析【英文】- kafka_sentiment_analysis_sdk
...
大数据分析 flink-情感倾向分析flink_sentiment_analysis_sdk kafka-情感倾向分析 kafka_sentiment_analysis_sdk 针对带有主观描述的文本, 可自动判断该文本的情感极性类别并给出相应的置信度。 |
-
- 6_web_app - [Web应用,前端VUE,后端Springboot]
1). 训练引擎
2). 代码语义搜索
3). 机器翻译
4). 一键抠图
5). 图像分辨率增强
6). 图像&文本的跨模态相似性比对检索【支持40种语言】
7). 文本向量搜索,可配合大模型使用
8). 人像搜索
9). 语音识别
10). 以图搜图
11). OCR Web应用
12). OCR 自定义模板识别(IOCR)
...
AI 训练平台 并以REST API形式为上层应用提供接口。 |
|
代码语义搜索 代码搜代码,语义搜代码。 主要特性: - 底层使用特征向量相似度搜索 - 单台服务器十亿级数据的毫秒级搜索 - 近实时搜索,支持分布式部署 - 随时对数据进行插入、 删除、搜索、更新等操作 |
|
机器翻译 - 支持 CPU / GPU |
|
一键抠图 Web 应用 - 1. 通用一键抠图 - 2. 人体一键抠图 - 3. 动漫一键抠图 |
|
框选一键抠图 Web 应用 - 1. 支持框选一键抠图 - 2. 支持sam2算法 |
|
图片一键高清 - 图片一键高清: 提升图片4倍分辨率。 - 头像一键高清 - 人脸一键修复 |
|
图像&文本的跨模态检索 - 以图搜图:上传图片搜索 - 以文搜图:输入文本搜索 - 数据管理:提供图像压缩包(zip格式)上传 |
|
文本向量搜索 检索语料库中与query最匹配的文本 - 文本聚类,文本转为定长向量, 通过聚类模型可无监督聚集相似文本 - 文本分类,表示成句向量, 直接用简单分类器即训练文本分类器 - RAG,用于大模型搜索增强生成 |
|
人像搜索 - 存储管理 - 用户管理 - 角色管理 - 菜单管理 - 部门管理 - 岗位管理 - 字典管理 - 系统日志 - SQL监控 - 定时任务 - 服务监控 |
|
语音识别Web 应用 - 中文语音识别。 |
|
以图搜图 - 存储管理 - 用户管理 - 角色管理 - 菜单管理 - 部门管理 - 岗位管理 - 字典管理 - 系统日志 - SQL监控 - 定时任务 - 服务监控 |
|
OCR Web 应用 - 文本图片转正 (一般情况下不需要,因为ocr 原生支持旋转、倾斜的图片 ) - 表格文本识别(图片需是剪切好的单表格图片) - 表格自动检测文本识别(支持表格文字混编,自动检测表格识别文字,支持多表格) |
|
OCR 自定义模板识别 - 基于模板识别(支持旋转、倾斜的图片) - 自由文本识别 - 文本转正 |
-
- 7_aigc - [图像生成]
1). 图像生成预处理工具箱 controlnet_sdks
2). 图像生成SD工具箱 stable_diffusion_sdks
...
- 7.1 图像生成预处理工具箱 controlnet_sdks
1. Canny 边缘检测 - canny_sdk- Canny 边缘检测预处理器可很好识别出 图像内各对象的边缘轮廓,常用于生成线稿。 - 对应ControlNet模型: control_canny |
|
2. MLSD 线条检测 - mlsd_sdk- MLSD 线条检测用于生成房间、 直线条的建筑场景效果比较好。 - 对应ControlNet模型: control_mlsd |
|
3. Scribble 涂鸦 - scribble_hed_sdk- scribble_pidinet_sdk - 图片自动生成类似涂鸦效果的草图线条。 - 对应ControlNet模型: control_mlsd |
|
4. SoftEdge 边缘检测 - softedge_hed_sdk- HED - HedScribbleExample - HED Safe - HedScribbleExample - softedge_pidinet_sdk - PidiNet - PidiNetGPUExample - PidiNet Safe - PidiNetGPUExample - SoftEdge 边缘检测可保留更多柔和的边缘细节, 类似手绘效果。 - 对应ControlNet模型: control_softedge。 |
|
5. OpenPose 姿态检测 - pose_sdk- OpenPose 姿态检测可生成图像中角色动作 姿态的骨架图(含脸部特征以及手部骨架检测) ,这个骨架图可用于控制生成角色的姿态动作。 - 对应ControlNet模型: control_openpose。 |
|
6. Segmentation 语义分割 - seg_upernet_sdk- 语义分割可多通道应用, 原理是用颜色把不同类型的对象分割开, 让AI能正确识别对象类型和需求生成的区界。 - 对应ControlNet模型: control_seg。 |
|
7. Depth 深度检测 - depth_estimation_midas_sdk- Midas - MidasDepthEstimationExample - depth_estimation_dpt_sdks - DPT - DptDepthEstimationExample - 通过提取原始图片中的深度信息, 生成具有原图同样深度结构的深度图, 越白的越靠前,越黑的越靠后。 - 对应ControlNet模型: control_depth。 |
|
8. Normal Map 法线贴图 - normal_bae_sdk- NormalBaeExample - 根据图片生成法线贴图,适合CG或游戏美术师。 法线贴图能根据原始素材生成 一张记录凹凸信息的法线贴图, 便于AI给图片内容进行更好的光影处理, 它比深度模型对于细节的保留更加的精确。 法线贴图在游戏制作领域用的较多, 常用于贴在低模上模拟高模的复杂光影效果。 - 对应ControlNet模型: control_normal。 |
|
9. Lineart 生成线稿 - lineart_sdk- lineart_coarse_sdk - Lineart 边缘检测预处理器可很好识别出 图像内各对象的边缘轮廓,用于生成线稿。 - 对应ControlNet模型: control_lineart。 |
|
10. Lineart Anime 生成线稿 - lineart_anime_sdk- LineArtAnimeExample - Lineart Anime 边缘检测预处理器 可很好识别出卡通图像内 各对象的边缘轮廓,用于生成线稿。 - 对应ControlNet模型: control_lineart_anime。 |
|
11. Content Shuffle - content_shuffle_sdk- ContentShuffleExample - Content Shuffle 图片内容变换位置, 打乱次序,配合模型 control_v11e_sd15_shuffle 使用。 - 对应ControlNet模型: control_shuffle。 |
- 7.2 图像生成SD工具箱 stable_diffusion_sdks
1. 文生图
- txt2image_sdk - 输入提示词(英文), 生成图片(英文) 2. 图生图 - 根据图片及提示词(英文) 生成图片 - image2image_sdk |
|
4. Controlnet 图像生成 - Canny 边缘检测预处理器可 很好识别出图像内各对象 的边缘轮廓,常用于生成线稿。 |
|
4. Controlnet 图像生成 - MLSD 线条检测用于生成房间、 直线条的建筑场景效果比较好。 |
|
4. Controlnet 图像生成 - 图片自动生成类似涂鸦效果的草图线条。 |
|
4. Controlnet 图像生成 - SoftEdge 边缘检测可保留更多 柔和的边缘细节,类似手绘效果。 |
|
4. Controlnet 图像生成 - OpenPose 姿态检测可生成图像 中角色动作姿态的骨架图 (含脸部特征以及手部骨架检测) ,这个骨架图可用于控制生成角色的姿态动作。 |
|
4. Controlnet 图像生成 - 语义分割可多通道应用, 原理是用颜色把不同类型的对象分割开, 让AI能正确识别对象类型和需求生成的区界。 |
|
4. Controlnet 图像生成 - 通过提取原始图片中的深度信息, 生成具有原图同样深度结构的深度图, 越白的越靠前,越黑的越靠后。 |
|
4. Controlnet 图像生成 - 根据图片生成法线贴图, 适合CG或游戏美术师。 法线贴图能根据原始素材生成 一张记录凹凸信息的法线贴图, 便于AI给图片内容进行更好的光影处理, 它比深度模型对于细节的保留更加的精确。 法线贴图在游戏制作领域用的较多, 常用于贴在低模上模拟高模的复杂光影效果。 |
|
4. Controlnet 图像生成 - controlnet_lineart_coarse_sdk - Lineart 边缘检测预处理器可很好识别出 图像内各对象的边缘轮廓,用于生成线稿。 |
|
4. Controlnet 图像生成 - Lineart Anime 边缘检测预处理器可很好 识别出卡通图像内各对象的边缘轮廓, 用于生成线稿。 |
|
4. Controlnet 图像生成 - Content Shuffle 图片内容变换位置, 打乱次序,配合模型 control_v11e_sd15_shuffle 使用。 |
- 8 8_desktop_app - [桌面App]
1). 大模型离线桌面App
2). OCR文字识别桌面App
3). 图像高清放大桌面App
...
大模型离线桌面App - 支持4位,8位量化,16位半精度模型。 - 支持windows及mac系统 - 支持CPU,GPU |
|
OCR文字识别桌面App - 支持windows, linux, mac 一键安装 |
|
图像高清放大桌面App - 批量图片分辨率放大 - 支持 windows, macos, ubuntu |
- 9 archive - [废弃不再维护的项目]
- 邮箱:[email protected]
- 如果对您有帮助的话,请作者喝杯咖啡吧: