Paper2GUI，开源免费功能强大的AI智能桌面工具箱

2022-08-12 | 标签»AI工具, 工具箱

在图像、视频、音频领域，各种基于AI云计算、机器学习的开源项目、应用层出不穷，过去那些繁琐的处理，如今借助AI智能，让一切变得简单易用。

目前互联网的大厂，在AI应用领域摩拳擦掌，推出了各种经典的AI算法，被广泛应用于图像、音视频领域，例如腾讯RealSR算法、B站的Real-CUGAN、微软Azure AI等。

在实际应用中，通常需要相关工具开发者引入项目中，为一般用户提供简单直观的GUI界面，比如阿刚下面要介绍的这套堪称AI黑科技工具箱，Paper2GUI。

Paper2GUI，一个开源的AI智能工具箱

Paper2GUI，是一款面向普通人的AI桌面工具箱，它免安装即开即用，目前已支持18+AI模型，内容涵盖语音合成、视频补帧、视频超分、目标检测、图片风格化、OCR识别等领域。

首先，在图像、语音、视频处理领域，开源免费的AI项目大家已屡见不鲜，通常只要按照开发者所述，创建和配置应用环境，即可上手体验。不过对于一般人而言，大部分的项目还是有一定的难度。

Paper2GUI由此而生，它是基于各种开源项目衍生而来的GUI版，提供了一个操作简单的软件界面，它的主要特点：即开即用。

主要包括：

AI语音合成：微软、抖音、阿里语音合成
AI视频超分辨放大：RealESRGAN-GUI、RealCugan、RealSR
AI视频补帧：RIFE-GUI、DAIN-GUI
AI图像风格化：AnimeGAN-GUI
AI人像抠图：RVM-GUI
AI人像修复：GFPGAN-GUI
AI视频抠图：MODNet-GUI、MobileNetV2-GUI
AI目标检测：YOLOv6-GUI

AI智能语音合成

AI智能语音合成，相关的在线网站，工具已经屡见不鲜，微软包括国内的阿里、抖音均提供了开放的语音合成引擎。实际的应用效果相当逼真，被广泛应用在配音、讲解、广告等场景。

Paper2GUI提供了相应的工具包，集成了火山、抖音、微软的语音合成引擎，简单几步配置即可快速上手应用。

以微软的语音合成为例，运行后，简单配置一下密钥（作者有提供），在合成中，输入文字，选择语音和风格，以及自定速语速、语调，点击合成即可。

实际的效果相当棒，人声的语调和情感匹配相当的流畅、发音自然，绝对可以以假乱真，或者说基本上听不出这是机器合成的语音，不得不感叹AI的强大。

另外，微软、火山、阿里云所提供的语音合成引擎均有一定的收费项，免费有限制，开发者也给了一个简单的总结：

逼真度：微软 > 火山 > 阿里云
语言丰富度：微软 > 火山 > 阿里云
中文丰富度：火山 > 微软 > 阿里云
费用：微软 > 阿里云 > 火山

AI视频超分辨放大

所谓超分，通俗的理解，就是将图像/视频的分辨率放大，它是一种底层图像处理任务，将低分辨率的图像映射至高分辨率，以此达到增强图像细节的作用。

目前相关领域的开源项目中，主要以RealESRGAN、Waifu2x、Real-CUGAN最为出名，被广泛应用在图像超分、视频超分放大，目前的应用中，主要还是在动漫相关。阿刚年初还推荐过B站的Real-CUGAN。

在Paper2GUI中，它提供了上述超分算法包括RealCugan、 RealESRGAN、Waifu2x以及 ReslSR在内四个独立工具，无需配置任何环境，运行即可使用。

主要特点：

纯内存、不消耗硬盘空间
操作简单、即开即用
支持多种界面语言
支持放大2倍、3倍、4倍
去模糊明显
支持单张图片或视频放大
软件体积小，轻量便捷
支持vulkan GPU加速，低显存消耗

（效果）

工具的使用相当简单，你只需要输入文件路径，选择要放大的倍数，开始处理即可。视频超分，本身对硬件需求高，普通视频在处理时也极为耗时。

Paper2GUI提供的这四种超分模型，是目前应用最广泛的代表算法，目前来说，在处理动漫风格的图像视频，RealESGAN、RealCugan算法，从肉眼上看，已经明显优于waifu2x。

AI视频插帧

所谓视频帧率（FPS），指的是每秒内的视频帧数，即一秒内多少帧画面，一般在游戏中，帧数越高，画面越流畅。在一般的影片中，通常是24帧/S，若是低于这个数字，尤其在包含大量运动画面的影片中，则会出现肉眼可观的卡顿，不流畅。

所谓补帧，顾名思义，它在原理上将一段视频重新分割成一张张图片，使用AI技术在相邻的两张画面中重新生成插入一个与之相关的视频帧，依次类推，全部处理完成后再重新生成视频，以此提高视频帧数，让画面更流畅，不过它主要是针对运动类的场景，静态的画面无效果也无任何意义。

目前开源算法中，Rife算法是视频补帧的主流，它效果也是最棒的。

AI视频插帧

（开发者提供的效果图）

在Paper2GUI提供的GUI版，集成了目前最新的Rife，使用时，只需导入视频，设置帧率放大倍数，剩下的就是硬件的问题了。与视频超分一样，插帧本身就极耗系统资源。

根据开发者的自述，Paper2GUI提供了一个内存版rife-gui，不消耗硬盘空间，并发参数以RTX 2070为准，相比旧版的硬盘模式，速度提升30%。

硬件够的话，各位可以玩玩。

AI图像风格化（动漫）

在人像处理中，图像风格化，尤其是转换成动漫风格备受欢迎，这一技术实际早就普及，各种在线网站，安卓应用，比比皆是。目前的开源算法中，主要以AnimeGAN为主，它来自武汉大学和湖北工业大学的一项研究，采用的是神经风格迁移 + 生成对抗网络（GAN）的组合。

AI图像风格化（动漫）

（效果图来自项目主页）

在网上关于这个项目的教程相当多，不过配置环境、应用过程真的相当繁琐。在Paper2GUI中，你只需导入一张图片，点击开始按钮就可处理完毕。

至于效果，正如开发者所述，目前的AI智能图像风格化处理比较极端，过于抽象和艺术化，在美感上自然是两极分化了。

下面的三组图片是阿刚在网上随便找的几张，一键处理后的效果。大家可以感受一下

AI人像抠图

在图像处理领域，AI抠图是最广泛的应用之一，相关的工具站多如牛毛，早期经典的remove.bg网站，各种独立小工具更是五花八门，AI抠像的技术已经较为成熟了。

在Paper2GUI中，它提供的抠图主要是针对人像处理。它目前仅支持jpg、png和webp三种图像格式，支持背景选择，可设置透明、黑白红绿蓝幕，如此方便抠图拉入其他软件进一步处理。

总体来说实际效果一般，阿刚在测试时发现，针对卡通一类的人像，例如上图中开发者提供的demo，可以一键去除背景，效果不错。

但针对含有毛发、人像与背景色较接近的图像，Paper2GUI的处理，细节丢失严重，来看下面这张阿刚实测的图片。

分别拉入remove.bg和Paper2GUI中进行处理，两者的处理结果高下立判。

AI人像修复

AI人像修复，顾名思义，指的是利用人工智能深度学习技术,识别模糊的人脸,将面部细节进行高清修复。主要针对各种失焦、低分辨率、像素化、损坏的旧照，目前开源算法中最出名的应当是GFPGAN。

GFPGAN 是腾讯开源的人脸修复算法，它利用预先训练好的面部 GAN（如 StyleGAN2）中封装的丰富和多样的先验因素进行盲脸 (blind face) 修复，旨在开发用于现实世界人脸修复的实用算法。

这套算法在Github上相当受欢迎，至今已收获21k星星，实际的效果相当不错，下图是官方项目主页提供的示例效果图：

在Paper2GUI中，主要提供的是GFPGAN，无需配置复杂的环境与模型，导入图片即可快速修复。

例如开发者提供Demo图

下图是阿刚百度随便找了一张黑白老照片~导入Paper2GUI后一键处理的效果：

另外根据开发者所述，由于受限于上游ncnn模型转换问题，当前无法支持动态输出，因此正方形图片效果最佳，且输出大小统一被限制为512*512分辨率。

AI视频抠像

在视频处理领域，AI智能的应用不仅仅是简单的增益、修复、超分，视频抠像也已经是相当成熟的技术，在各种在线网站、视频编辑软件中，它早已数见不鲜。

在Paper2GUI中，提供了一个独立的AI视频抠像工具，它的操作与上面的AI图像抠图相同，只是对象支持更加广泛，支持图片与视频，以开发者提供的demo.MP4为例。

导入后，点击开始按钮处理即可，工具默认是采用GPU加速，你只需要保证C盘足够的空间和一块给力显卡即可。

具体效果：

默认它会输出一个绿幕背景，方便你导入视频编辑软件进一步合成处理，对于一个AI自动化工具，它输出的实际效果可圈可点，对于经常编辑视频，有抠像需求的人来说，它相当的方便。

写在最后

Paper2GUI是基于开源项目衍生而成的GUI软件，简言之它仅是提供了界面，免去复杂的环境配置，即开即用，让每个人都简单方便的使用前沿人工智能技术。

当然，每一开源的项目，功能强大，拥有丰富的参数选项，实现的效果远不止此，如果感兴趣，你可更进一步研究上述相关的开源项目，必会让你受益匪浅。我个人认为，这才是Paper2GUI意义所在。

发表评论

还没人评论呢，期待你的评论哦

Paper2GUI，开源免费功能强大的AI智能桌面工具箱

Paper2GUI，一个开源的AI智能工具箱

AI智能语音合成

AI视频超分辨放大

AI视频插帧

AI图像风格化（动漫）

AI人像抠图

AI人像修复

AI视频抠像

写在最后

相关文件下载

最新破解

发表评论

热评文章

最新分享

可能感兴趣？