全部标签

AI+文本/音频生成

最新随机最多浏览最多喜欢最多评论

【万能君的软件库】AI数字人音频驱动对口型MuseTalk离线版V1.0，效果更好的数字人制作工具，不用搭建环境，解压即用！

这个视频主要介绍了一个AI数字人音频驱动对口型工具MuseTalk离线版V1.0，可以通过给定的音频和参考视频，将音频的口型与参考视频的口型进行匹配，实现不同语言的口型同步。目前项目的效果还不错，已经做成软件，用户可以直接下载使用。项目功能：项目可以接受输入的音频文件和参考视频，然后将音频的口型和参考视频的口型进行匹配，实现音频和视频的同步播放。支持的语言包括汉语、英语、日语等。使用方法：用户…
- 0
- 0
5月6日
ChatGPT即将迎来全新用户界面（UI）

在即将到来的更新中，ChatGPT的全新用户界面（UI）设计旨在增强对话的沉浸感，为用户带来更为自然和流畅的交流体验。然而，对于习惯频繁查找历史记录或切换不同GPTs（生成式预训练模型）的用户而言，这次更新可能会带来一些不便。 AIGC专区： https://heehel.com/category/aigc 更多消息： https://heehel.com/category/ai-news 工具箱…
- 0
- 0
5月6日
HeyGen AI音频工具与Instant Highlights自动剪辑视频工具

HeyGen AI音频工具及其新增的Instant Highlights 1.0自动剪辑视频工具，预示着人工智能技术在视频制作领域的一次重大飞跃。这两款工具的出现，不仅将极大地简化视频制作流程，还将对人们的生活和工作方式产生深远的影响。 HeyGen官方网址：https://www.heygen.com/ Instant Highlights体验链接：https://app.heygen.com/…
- 0
- 0
5月6日
FlashSpeech：高效的大规模零样本语音合成系统

语言模型和扩散模型极大地推进了大规模零样本语音合成的最新进展。然而，这两种方法的生成过程都很慢并且计算量大。使用较低的计算预算实现高效的语音合成以达到与以前的工作相当的质量仍然是一个重大挑战。音频样本：https://flashspeech.github.io/ AI工具专区： https://heehel.com/category/ai-soft AIGC专区： https://heehel.…
- 0
- 0
5月5日
微软需要一些时间来“完善”Windows 中 Copilot AI 的更新

在 5 月 20 日举行的 AI 活动之前，微软暂停了 Windows 助手更新的公开测试。微软最新的 Windows Insider 博客文章称，在测试 Windows 11 中的 Copilot 新功能时，“我们决定暂停这些体验的推出，以根据用户反馈进一步完善它们。”对于已经拥有该功能的人来说，“Windows 中的 Copilot 将继续按预期工作，同时我们将继续与 Windows Ins…
- 0
- 0
5月4日
Play AI：一个在实时对话中模拟人类情感交流方式的高级对话系统

Play Al：一个高级对话系统，能够在实时对话中模拟人类的交流方式，包括语境理解、交替对话、应对中断以及模拟情感和语音强度，旨在提供流畅、自然且富有人情味的人机交互体验。在线体验：http://play.ai AI工具专区： https://heehel.com/category/ai-soft AIGC专区： https://heehel.com/category/aigc 主要功能： 1.…
- 0
- 0
5月3日
Claude聊天机器人推出全新iOS客户端及团队专属计划

Anthropic 正在使其 Claude AI 更易于在移动设备上访问。该公司发布了适用于 iOS 的 Claude 移动应用程序，任何用户都可以免费下载。与聊天机器人的移动网络版本类似，该应用程序跨设备同步用户与 Claude 的对话，允许他们从计算机跳转到应用程序（反之亦然），而不会丢失聊天记录。如果用户需要 Claude 实时处理或分析这些文件和图像，他们还可以直接从 iPhone 的图库…
- 0
- 0
5月3日
【Smthem】Llama 3羊驼3的ComfyUI插件及语音转prompt插件

随着科技的迅猛发展，人工智能（AI）技术正以前所未有的速度改变着我们的工作和生活方式。在这一浪潮中，Llama 3羊驼3的AI绘画ComfyUI插件及语音转Prompt插件的出现，无疑将为我们未来的工作生活带来深远的影响和作用。 AIGC专区： https://heehel.com/category/aigc 工具箱： https://heehel.com/ai-tools#ai-3d 一、AI绘…
- 0
- 0
5月2日
ChatGPT记忆功能全面升级

ChatGPT现已具备了全量记忆功能，这意味着它能够记住与你的每一次互动内容，从而提供更加贴合你需求的响应。随着你与ChatGPT的交流逐渐深入，它会通过不断学习和记忆对话中的细节和偏好，变得越来越有用。对于你的隐私和数据安全，ChatGPT提供了灵活的记忆控制选项。你可以轻松重置其记忆，选择性地删除特定记忆，或者完全关闭这一功能。这些选项确保了你对与ChatGPT交互的完全掌控。如果你希望进…
- 0
- 0
4月30日
谷歌展示 Gemini 模型新颖医疗模型：Med-Gemini 在医学领域的功能

各种医疗应用的卓越表现给人工智能带来了巨大的挑战，需要先进的推理、获取最新的医学知识以及对复杂的多模态数据的理解。 Gemini 模型在多模式和长上下文推理方面具有强大的通用能力，为医学领域提供了令人兴奋的可能性。基于 Gemini 的这些核心优势，研究团队推出了 Med-Gemini，这是一个功能强大的多模式模型系列，专门用于医学，能够无缝使用网络搜索，并且可以使用自定义编码器有效地针对新颖的…
- 0
- 0
4月30日
月之暗面Kimi推出的全新智能体功能“Kimi+”

Kimi昨晚推出的全新智能体功能“Kimi+”，这款产品在设计时考虑得非常周到，首批功能就已经展现出了极高的实用性和创新性。首先，Kimi+的商品挑选功能“什么值得买驱动”非常符合现代消费者的需求。在海量信息中筛选出有价值、符合个人喜好的商品，对于很多人来说都是一个挑战。而Kimi+能够利用智能算法和大数据分析，为用户提供个性化的商品推荐，大大节省了用户的时间和精力。 Kimi+官网入口：htt…
- 0
- 0
4月30日
你的动漫AI女友 Anime gf ：自定义创建各种独特个性、语言风格的虚拟角色

一个本地且开源的 CharacterAI 替代工具 Anime gf，提供了一个用户友好的界面，允许用户在桌面上与虚拟角色互动。你可以自定义创建各种角色，让每个虚拟角色都有自己的独特个性和语言风格，可以接入OpenAI、Anthropic、Mistral和 Together AI 等模型。支持通过拖放操作导入和导出角色卡片，方便用户在不同设备或与他人分享。 CharacterAI是一个基于人工智能…
- 0
- 0
4月29日
通义千问发布Qwen1.5-110B 首款超1000亿参数模型

Qwen1.5系列的新成员——Qwen1.5-110B模型，以其超过千亿的参数规模和卓越的性能，吸引了众多研究者和开发者的目光。这款新发布的模型在基准评估和聊天机器人领域均表现出色，彰显了大规模模型在AI领域的巨大潜力。 Qwen1.5-110B模型详细介绍：https://qwenlm.github.io/blog/qwen1.5-110b/ AIGC专区： https://heehel.com…
- 0
- 0
4月27日
苹果与OpenAI深化合作，iPhone将引入先进AI聊天机器人功能

苹果公司正在与OpenAI加强合作谈判，以在iPhone中引入生成式AI功能，特别是AI聊天机器人。同时，Apple也在与Google讨论使用其Gemini聊天机器人的可能性。原文报道链接： https://heehel.com/iphone-and-openai 更多消息： https://heehel.com/category/ai-news 这些讨论围绕着即将发布的iOS 18更新，旨在加…
- 0
- 0
4月27日
Sam Altman4月24日斯坦福大学演讲：GPT-5会比GPT-4更聪明，GPT-6又会比GPT-5更聪明，我们仍在探索的起点

斯坦福大学的校园中，人工智能的风潮又刮得更猛烈了些。Sam Altman，这位在AI领域有着深厚造诣的领军人物，近日在校园里发表了一场激动人心的演讲。他向师生们展示了一个更加聪明、更加未来的AI世界。 “GPT-5会比GPT-4更聪明，GPT-6又会比GPT-5更聪明。” Altman的话语中充满了对未来的期待。他告诉我们，人工智能的进步速度远超我们的想象，我们目前所看到的，仅仅是冰山一角。他进…
- 0
- 0
4月26日
OpenVoiceV2版本发布：多功能多种语言即时语音克隆并可控制情感口音

OpenVoice，这是一种多功能的即时语音克隆方法，只需要参考说话者的一个简短的音频剪辑即可复制他们的声音并生成多种语言的语音。除了复制参考说话者的音色之外，OpenVoice 还可以对语音风格进行精细控制，包括情感、口音、节奏、停顿和语调。 OpenVoice还可以针对海量说话人训练集中未包含的语言实现零样本跨语言语音克隆。 OpenVoice 的计算效率也很高，其成本比性能较差的商用 API…
- 0
- 0
4月25日
AI编程新星Devin估值飙升被网友实锤造假，初创公司Cognition Labs获20亿美元估值

在AI技术日新月异的当下，一家仅成立六个月的初创公司Cognition Labs以其推出的AI编程助手Devin引发了业界的广泛关注。据悉，Devin被赋予了全球首个完全自主AI程序员的称号，其强大的自主学习能力、端到端的应用构建和部署能力，以及自主修复代码Bug的特性，让其在短时间内就吸引了大量投资者的目光。 Cognition Labs由一群拥有IOI金牌的精英团队创立，他们凭借对人工智能技术…
- 0
- 0
4月25日
微信桌面AI效率工具：小微助手，支持本地文件搜索、圈子资源共享、智能问答

微信推出了一款桌面AI效率工具：小微助手，它具备高效的搜索功能，使得用户能够便捷地查找电脑中的各类内容。通过用户的授权，小微助手不仅可以在指定的文件夹内使用自然语言进行搜索，还具备在线聊天问答的能力，为用户的日常工作提供便利。小微助手支持Windows和Mac两大操作系统，为用户带来统一的体验。其搜索功能灵活多样，用户可以通过汉字、拼音、首字母或其组合进行搜索，满足不同的输入习惯。搜索对象涵盖广…
- 0
- 0
4月25日
Gemini 1.5 Pro API崭露头角，长提示下性能卓越，逼近榜首ChatGPT4

Gemini 1.5 Pro API-0409-preview 在排行榜上成功攀升至第二位，与榜首的 GPT-4-Turbo 齐头并进，仅一步之遥。相较于第三名的 GPT4-0125-preview，Gemini 展现出了显著的优势。在处理更长的提示时，Gemini 的性能尤为出色，这一特点使其在众多竞争者中脱颖而出。我们由衷地祝贺 GoogleDeepMind 将这一卓越的 Gemini AP…
- 0
- 0
4月24日
超越现实的表达：Synthesia推出Expressive-1 AI Avatars，展示AI虚拟形象前所未有的表情丰富度

Synthesia公司宣布将推出一款创新的AI虚拟形象——Expressive-1 AI Avatars，它能够通过脚本预测并展示丰富的表情。这款虚拟形象能够自动根据文本内容做出皱眉、微笑等表情，被誉为世界上首款表情如此生动的AI虚拟形象。 Synthesia公司于2017年由一群来自伦敦大学学院、斯坦福大学、慕尼黑工业大学和剑桥大学的人工智能专家和创业者共同创立。公司的目标是为每个人提供制作视频…
- 0
- 0
4月24日
GPT-5要来了？

网上都传疯了，说是4月29号就推出。
- 0
- 0
4月24日
Music Consistency Models：音乐一致性模型

一致性模型在促进高效图像/视频生成、以最少的采样步骤进行合成方面表现出了卓越的能力。事实证明，它有利于减轻与扩散模型相关的计算负担。然而，一致性模型在音乐生成中的应用在很大程度上仍未得到探索。原文链接：https://huggingface.co/papers/2404.14219 AIGC专区： https://heehel.com/category/aigc 更多消息： https://he…
- 0
- 0
4月23日
微软宣布推出Phi-3：手机本地功能强大的语言模型

研究团队引入了 phi-3-mini，这是一个在 3.3 万亿个字符上训练的 38 亿参数语言模型，根据学术基准和内部测试衡量，其整体性能可与 Mixtral 8x7B 和 GPT-3.5 等模型相媲美（例如 phi -3-mini 在 MMLU 上达到了 69%，在 MT-bench 上达到了 8.38），尽管它足够小，可以部署在手机上。 AIGC专区： https://heehel.com/c…
- 0
- 0
4月23日
硅谷女孩采访挑战Google谷歌的 Perplexity 搜索引擎创始人 Aravind

看了一下，这个搜索引擎和秘塔AI搜索引擎很像，方向都是一样的，页面布局也差不多。 Aravind，这位印度创新者，在IIT和加州大学伯克利分校毕业后，曾在Google DeepMind实习并加入OpenAI。他看到GitHub Copilot的潜力，并成功吸引投资，从OpenAI离职创业。 Perplexity 搜索引擎：https://www.perplexity.ai/ 秘塔AI搜索：http…
- 0
- 0
4月22日
Groma格罗马：用于奠定多模态大型语言模型的本地化视觉标记化

Groma，一种多模态大语言模型（MLLM），具有扎实的细粒度视觉感知能力。除了整体图像理解之外，Groma 还擅长区域级任务，例如区域字幕和视觉基础。项目页面：https://groma-mllm.github.io/ AIGC专区： https://heehel.com/category/aigc 更多消息： https://heehel.com/category/ai-news 此类功能建…
- 0
- 0
4月22日
用ViggleAI+Adobe firefly+ Suno AI一键选择角色人物舞蹈风格

想象一下，有按钮可以让每个插图都按你喜欢的方式跳舞！即将实现人工智能舞蹈使用工具：ViggleAI+Adobe firefly+ Suno AI AIGC专区： https://heehel.com/category/aigc 工具箱： https://heehel.com/ai-tools#ai-3d ViggleAI是一款令人振奋的AI视频生成工具，它革新了传统的视觉特效制作流程。用户可以通…
- 0
- 0
4月22日
Nothing Ear真无线降噪耳机：独特设计与ChatGPT智能融合，打造卓越听音与智能交互新体验

Nothing Ear是一款真无线降噪耳机，拥有独特的透明设计，展现了个性化的特点。它提供了出色的音质体验，无论是低音还是高音都表现得相当出色。同时，环境音增强的透明模式和降噪功能也让用户在不同场景下都能获得舒适的听音体验。Nothing公司将其新款无线耳机与ChatGPT技术相融合，使得用户能够通过简单的召唤，让ChatGPT即时回答各类问题或执行所需任务。 Nothing官网链接：https:…
- 0
- 0
4月22日
Llama 3 8B 在 Raspberry Pi 5 上运行速度可以达到 1.89 个字符秒

树莓派（Raspberry Pi）是一种小型、低成本的单板计算机，由树莓派基金会开发。近年来，树莓派系列经历了多次更新和升级，以满足不同用户的需求。到了2023年9月底，树莓派5正式发布，带来了更多令人兴奋的功能和性能提升。例如，新增了PCI Express 2.0接口和支持高带宽外设的能力，MIPI接口带宽提升至1.5Gbps，以及新增的开关机按钮等。这些升级使得树莓派5成为一个功能更加强大和…
- 0
- 0
4月22日
Meta Llama3 正式发布打脸李彦宏，成为迄今为止功能最强大的公开可用的 LLM 模型

彦宏桑刚说开源模型会越来越落后，就被Meta脸都打肿来。现在Meta Llama3最大的模型参数超过 400B，还在训练中，完成将会发布，还有多模态模型。他们的测试结果看，70B全面超越Gemini Pro 1.5以及Claude3 Sonnet。下面是博主op7418梳理的详细介绍：性能测试：在当前8B和70B参数规模中，预训练和指导微调模型表现出色，堪称业界最佳。经过对后期训练程序的优…
- 0
- 0
4月21日
Reka Core、Flash 和 Edge：对文本、图像、视频和音频输入进行处理和推理

Reka Core、Flash 和 Edge，这是 Reka 从头开始训练的一系列强大的多模态语言模型。 Reka 模型能够对文本、图像、视频和音频输入进行处理和推理。该技术报告讨论了其中一些模型的训练细节，并提供了综合评估结果。 Reka分析处理视频功能演示: Reka在线体验：http://chat.reka.ai Reka详细介绍：http://showcase.reka.ai 更多消息…
- 0
- 0
4月20日
圣地亚哥 Toler 小学利用School AI帮助每个学生都有自己的聊天机器人，提高学习兴趣和效率

圣地亚哥 Toler 小学利用 AI 程序 SchoolAI 平台为学生创建个性化的聊天机器人，帮助他们更好地学习和提问。这个 AI 程序让学生可以在几秒钟内得到问题的答案，激发了他们提出更多问题的好奇心。管理、调节和指导学生如何通过任务控制使用人工智能。当学生开始他们的旅程时，可以完全控制。设置护栏，让人工智能继续执行任务。为有特定需求的学生提供定制说明。利用实时洞察更好地吸引、联系和支持…
- 0
- 0
4月20日
微软VASA-1：实时生成逼真的音频驱动人物说话视频的项目，拥有表情细微差以及自然的头部动作

他们介绍了 VASA，这是一个框架，可以在给定单个静态图像和语音音频剪辑的情况下生成具有吸引人的视觉情感技能 (VAS) 的逼真说话面孔。他们的首屈一指的模型 VASA-1 不仅能够产生与音频完美同步的嘴唇运动，还能捕捉大量面部细微差别和自然头部运动，有助于感知真实性和活力。 VASA-1核心创新包括在面部潜在空间中工作的整体面部动态和头部运动生成模型，以及使用视频开发这种富有表现力和解开的面部潜…
- 0
- 0
4月18日
【赛文乔伊】不懂音乐的小白，用SunoAI在音乐人面前生成了一首金曲？

用ChatGPT把这哥们的中文歌词改编成英文，然后用SunoAI的V3版本5秒生成出一首可以单曲循环的歌？视频内容主要是讲述了UP主一个长期从事音乐工作的朋友，对于AI技术是否会颠覆音乐行业的怀疑，通过使用AI技术生成了一首完整的歌曲，让他深受震撼，认为AI技术可能会对音乐人造成巨大影响。 AI与音乐：视频中的讲者使用AI技术，将他朋友之前写的歌词转化为一首完整的歌曲，让他的朋友深感震惊。他认为…
- 0
- 0
4月17日
Optimizer AI视频自动配音1.0版本升级：文本到声音效果自动生成音效模型

专门为视频自动生成音效的AI工具，现在升级到了1.0版本，效果比之前有了大幅提升，可以为AI视频自动配音。 AIGC专区： https://heehel.com/category/aigc 工具箱： https://heehel.com/ai-tools#ai-3d Optimizer AI视频自动配音技术结合人工智能、机器学习和自然语言处理，能模拟人类声音和语调，自动生成高质量的语音文件，包括立…
- 0
- 0
4月17日
2txt：基于AI的图像转文字工具，任意图像上的文字转换成可编辑的文本格式

与传统的OCR技术相比，2txt在图像到文本的转换过程中实现了质的飞跃。它不仅仅局限于识别文字，更会对图片内容进行深度分析并整理，以实现既迅速又精准的转换。体验地址：https://top.aibase.com/tool/2txt 项目页面：https://github.com/ai-ng/2txt 2txt项目的运作核心在于几大技术组件的协同工作：首先，Vercel AI SDK是项目的得力…
- 0
- 0
4月16日