Paper2GUI,开源免费功能强大的AI智能桌面工具箱

在图像、视频、音频领域,各种基于AI云计算、机器学习的开源项目、应用层出不穷,过去那些繁琐的处理,如今借助AI智能,让一切变得简单易用。

目前互联网的大厂,在AI应用领域摩拳擦掌,推出了各种经典的AI算法,被广泛应用于图像、音视频领域,例如腾讯RealSR算法、B站的Real-CUGAN、微软Azure AI等。

在实际应用中,通常需要相关工具开发者引入项目中,为一般用户提供简单直观的GUI界面,比如阿刚下面要介绍的这套堪称AI黑科技工具箱,Paper2GUI。

Paper2GUI,一个开源的AI智能工具箱

Paper2GUI,是一款面向普通人的AI桌面工具箱,它免安装即开即用,目前已支持18+AI模型,内容涵盖语音合成、视频补帧、视频超分、目标检测、图片风格化、OCR识别等领域。

首先,在图像、语音、视频处理领域,开源免费的AI项目大家已屡见不鲜,通常只要按照开发者所述,创建和配置应用环境,即可上手体验。不过对于一般人而言,大部分的项目还是有一定的难度。

Paper2GUI由此而生,它是基于各种开源项目衍生而来的GUI版,提供了一个操作简单的软件界面,它的主要特点:即开即用。

主要包括:

  • AI语音合成:微软、抖音、阿里语音合成
  • AI视频超分辨放大:RealESRGAN-GUI、RealCugan、RealSR
  • AI视频补帧:RIFE-GUI、DAIN-GUI
  • AI图像风格化:AnimeGAN-GUI
  • AI人像抠图:RVM-GUI
  • AI人像修复:GFPGAN-GUI
  • AI视频抠图:MODNet-GUI、MobileNetV2-GUI
  • AI目标检测:YOLOv6-GUI

AI智能语音合成

AI智能语音合成,相关的在线网站,工具已经屡见不鲜,微软包括国内的阿里、抖音均提供了开放的语音合成引擎。实际的应用效果相当逼真,被广泛应用在配音、讲解、广告等场景。

Paper2GUI提供了相应的工具包,集成了火山、抖音、微软的语音合成引擎,简单几步配置即可快速上手应用。

Paper2GUI智能语音合成

以微软的语音合成为例,运行后,简单配置一下密钥(作者有提供),在合成中,输入文字,选择语音和风格,以及自定速语速、语调,点击合成即可。

Paper2GUI智能语音合成

实际的效果相当棒,人声的语调和情感匹配相当的流畅、发音自然,绝对可以以假乱真,或者说基本上听不出这是机器合成的语音,不得不感叹AI的强大。

另外,微软、火山、阿里云所提供的语音合成引擎均有一定的收费项,免费有限制,开发者也给了一个简单的总结:

  • 逼真度:微软 > 火山 > 阿里云
  • 语言丰富度: 微软 > 火山 > 阿里云
  • 中文丰富度: 火山 > 微软 > 阿里云
  • 费用:微软 > 阿里云 > 火山

AI视频超分辨放大

所谓超分,通俗的理解,就是将图像/视频的分辨率放大,它是一种底层图像处理任务,将低分辨率的图像映射至高分辨率,以此达到增强图像细节的作用。

目前相关领域的开源项目中,主要以RealESRGAN、Waifu2x、Real-CUGAN最为出名,被广泛应用在图像超分、视频超分放大,目前的应用中,主要还是在动漫相关。阿刚年初还推荐过B站的Real-CUGAN。

在Paper2GUI中,它提供了上述超分算法包括RealCugan、 RealESRGAN、Waifu2x以及 ReslSR在内四个独立工具,无需配置任何环境,运行即可使用。

AI视频超分辨放大

主要特点:

  • 纯内存、不消耗硬盘空间
  • 操作简单、即开即用
  • 支持多种界面语言
  • 支持放大2倍、3倍、4倍
  • 去模糊明显
  • 支持单张图片或视频放大
  • 软件体积小,轻量便捷
  • 支持vulkan GPU加速,低显存消耗

(效果)

工具的使用相当简单,你只需要输入文件路径,选择要放大的倍数,开始处理即可。视频超分,本身对硬件需求高,普通视频在处理时也极为耗时。

Paper2GUI提供的这四种超分模型,是目前应用最广泛的代表算法,目前来说,在处理动漫风格的图像视频,RealESGAN、RealCugan算法,从肉眼上看,已经明显优于waifu2x。

AI视频插帧

所谓视频帧率(FPS),指的是每秒内的视频帧数,即一秒内多少帧画面,一般在游戏中,帧数越高,画面越流畅。在一般的影片中,通常是24帧/S,若是低于这个数字,尤其在包含大量运动画面的影片中,则会出现肉眼可观的卡顿,不流畅。

所谓补帧,顾名思义,它在原理上将一段视频重新分割成一张张图片,使用AI技术在相邻的两张画面中重新生成插入一个与之相关的视频帧,依次类推,全部处理完成后再重新生成视频,以此提高视频帧数,让画面更流畅,不过它主要是针对运动类的场景,静态的画面无效果也无任何意义。

目前开源算法中,Rife算法是视频补帧的主流,它效果也是最棒的。

AI视频插帧

(开发者提供的效果图)

在Paper2GUI提供的GUI版,集成了目前最新的Rife,使用时,只需导入视频,设置帧率放大倍数,剩下的就是硬件的问题了。与视频超分一样,插帧本身就极耗系统资源。

AI视频插帧

根据开发者的自述,Paper2GUI提供了一个内存版rife-gui,不消耗硬盘空间,并发参数以RTX 2070为准,相比旧版的硬盘模式,速度提升30%。

硬件够的话,各位可以玩玩。

AI图像风格化(动漫)

在人像处理中,图像风格化,尤其是转换成动漫风格备受欢迎,这一技术实际早就普及,各种在线网站,安卓应用,比比皆是。目前的开源算法中,主要以AnimeGAN为主,它来自武汉大学和湖北工业大学的一项研究,采用的是神经风格迁移 + 生成对抗网络(GAN)的组合。

AI图像风格化(动漫)

(效果图来自项目主页)

AI图像风格化(动漫)

(效果图来自项目主页)

在网上关于这个项目的教程相当多,不过配置环境、应用过程真的相当繁琐。在Paper2GUI中,你只需导入一张图片,点击开始按钮就可处理完毕。

AI图像风格化(动漫)

至于效果,正如开发者所述,目前的AI智能图像风格化处理比较极端,过于抽象和艺术化,在美感上自然是两极分化了。

下面的三组图片是阿刚在网上随便找的几张,一键处理后的效果。大家可以感受一下

AI图像风格化(动漫)

AI人像抠图

在图像处理领域,AI抠图是最广泛的应用之一,相关的工具站多如牛毛,早期经典的remove.bg网站,各种独立小工具更是五花八门,AI抠像的技术已经较为成熟了。

在Paper2GUI中,它提供的抠图主要是针对人像处理。它目前仅支持jpg、png和webp三种图像格式,支持背景选择,可设置透明、黑白红绿蓝幕,如此方便抠图拉入其他软件进一步处理。

AI人像抠图

总体来说实际效果一般,阿刚在测试时发现,针对卡通一类的人像,例如上图中开发者提供的demo,可以一键去除背景,效果不错。

但针对含有毛发、人像与背景色较接近的图像,Paper2GUI的处理,细节丢失严重,来看下面这张阿刚实测的图片。

分别拉入remove.bg和Paper2GUI中进行处理,两者的处理结果高下立判。

AI人像抠图

AI人像修复

AI人像修复,顾名思义,指的是利用人工智能深度学习技术,识别模糊的人脸,将面部细节进行高清修复。主要针对各种失焦、低分辨率、像素化、损坏的旧照,目前开源算法中最出名的应当是GFPGAN。

GFPGAN 是腾讯开源的人脸修复算法,它利用预先训练好的面部 GAN(如 StyleGAN2)中封装的丰富和多样的先验因素进行盲脸 (blind face) 修复,旨在开发用于现实世界人脸修复的实用算法。

这套算法在Github上相当受欢迎,至今已收获21k星星,实际的效果相当不错,下图是官方项目主页提供的示例效果图:

AI人像修复

在Paper2GUI中,主要提供的是GFPGAN,无需配置复杂的环境与模型,导入图片即可快速修复。

AI人像修复

例如开发者提供Demo图

AI人像修复

下图是阿刚百度随便找了一张黑白老照片~导入Paper2GUI后一键处理的效果:

AI人像修复

另外根据开发者所述,由于受限于上游ncnn模型转换问题,当前无法支持动态输出,因此正方形图片效果最佳,且输出大小统一被限制为512*512分辨率。

AI视频抠像

在视频处理领域,AI智能的应用不仅仅是简单的增益、修复、超分,视频抠像也已经是相当成熟的技术,在各种在线网站、视频编辑软件中,它早已数见不鲜。

在Paper2GUI中,提供了一个独立的AI视频抠像工具,它的操作与上面的AI图像抠图相同,只是对象支持更加广泛,支持图片与视频,以开发者提供的demo.MP4为例。

AI视频抠像

导入后,点击开始按钮处理即可,工具默认是采用GPU加速,你只需要保证C盘足够的空间和一块给力显卡即可。

具体效果:

默认它会输出一个绿幕背景,方便你导入视频编辑软件进一步合成处理,对于一个AI自动化工具,它输出的实际效果可圈可点,对于经常编辑视频,有抠像需求的人来说,它相当的方便。

写在最后

Paper2GUI是基于开源项目衍生而成的GUI软件,简言之它仅是提供了界面,免去复杂的环境配置,即开即用,让每个人都简单方便的使用前沿人工智能技术。

当然,每一开源的项目,功能强大,拥有丰富的参数选项,实现的效果远不止此,如果感兴趣,你可更进一步研究上述相关的开源项目,必会让你受益匪浅。我个人认为,这才是Paper2GUI意义所在。

相关文件下载

项目主页

最新版下载地址

发表评论

还没人评论呢,期待你的评论哦