全部标签

AI+文本/音频生成

最新随机最多浏览最多喜欢最多评论

【图文教程#15】文本转语音工具ChatTTS：一键本地安装目前最简单高效的部署方案

ChatTTS在语音合成效果方面达到了行业领先水平。它超越了大部分开源TTS模型，在韵律方面表现出色，为用户提供了更高质量的语音输出。无论是中文还是英文，ChatTTS都能以清晰、自然的语音为用户带来全新的听觉享受。这种卓越的音质使得ChatTTS在多个领域得到了广泛应用，并获得了用户的一致好评。 AIGC专区： https://heehel.com/category/aigc 工具箱： http…
- 0
- 0
6月6日
【零度解说】ChatTTS 最强文本转语音！一键本地安装，100%成功！效果逼真如真人，完全免费开源！

需要设置的提示词：口语化、笑声、停顿，合理使用会让合成的语音更加逼真自然！口语化：[oral] 笑声：[laugh] 停顿：[break] ChatTTS 一键安装包夸克网盘下载：https://pan.quark.cn/s/36b3d95659f8 AIGC专区： https://heehel.com/category/aigc 工具箱： https://heehel.com/ai-too…
- 0
- 0
6月6日
【AI论文与新生技术】Seed-TTS：字节跳动研发的一系列高质量多功能语音生成模型

我们介绍 Seed-TTS，这是一系列大规模自回归文本转语音 (TTS) 模型，能够生成与人类语音几乎没有区别的语音。 Seed-TTS 作为语音生成的基础模型，在语音上下文学习方面表现出色，在说话者相似度和自然度方面的表现在客观和主观评估方面都与真实人类语音相匹配。官方演示：https://bytedancespeech.github.io/seedtts_tech_report 论文链接：h…
- 0
- 2
6月5日
【差评君】为什么越来越多人选择国产AI？不再“胡说”的国产AI工具，终于站起来了？

最近感觉国产AI工具好像真的聪明多了，完全颠覆了我的刻板印象.....这就让我有点好奇，这些工具如何从最初的样子，变得像今天这么好用的呢？今天我们就来聊一聊，AI是怎么变聪明，不胡说八道的？ AIGC专区： https://heehel.com/category/aigc 工具箱： https://heehel.com/ai-tools#ai-3d 这个视频主要讨论了国产 AI 工具在近年来的发展…
- 0
- 0
6月5日
Character AI 推出了他们全新的语音电话功能，可以直接打电话给本尼迪克特版“福尔摩斯”？

Character AI（角色AI）是一个基于人工智能技术的平台，它结合了生成对抗网络（GAN）、大型语言模型（LLM）和其他先进技术，为用户提供了一个丰富且灵活的工具来创建和互动AI角色。并且允许用户创建和与AI角色进行互动。CAI用传统模型技术做出了和 GPT4o同级别的延迟水平，经过权威多轮测试，两者延迟相差仅100ms。语音通话加上 AI 陪伴聊天功能把 Open AI 截胡了，太慢了真不…
- 0
- 0
6月5日
人工智能启示录？ ChatGPT、Claude 和 Perplexity 同时宕机，聊天机器人也要罢工

在昨天，ChatGPT、Claude 和 Perplexity发生了几个小时的中断之后，OpenAI 的 ChatGPT 聊天机器人再次出现故障——但这一次，它并不是唯一受影响的人工智能提供商。周二早上，Anthropic 的 Claude 和 Perplexity 也开始发现问题，但这些问题很快就得到了解决。据一些用户报告称，谷歌的 Gemini 目前似乎正在运行，尽管它也可能短暂离线。三大…
- 0
- 0
6月5日
Apple Siri全面升级：即将到来的苹果WWDC，以下更新内容是苹果将要发布的AI能力

苹果下周的全球开发者大会有望成为这家 iPhone 制造商历史上的关键时刻。在 WWDC 上，这家库比蒂诺科技巨头将展示如何选择将人工智能技术集成到其设备和软件中，包括通过与 OpenAI 的历史性合作伙伴关系。随着重大事件的临近，有关 iOS 18及其传闻中的人工智能应用程序和功能的各种泄露已经出现。在这些变化中，据说苹果正在通过 Ajax LLM 为其一些新的人工智能功能提供支持。其他报告表…
- 0
- 0
6月5日
backseat ai英雄联盟助手：提供实时指导、见解和评论，跟你聊天，教你玩游戏

在电竞的世界里，谁不想有个随时在线的“私人教练”呢？这不，知名《英雄联盟》解说Tyler1就给我们带来了这样的惊喜——Backseat AI英雄联盟助手。这款由Tyler1亲自打造的AI游戏伴侣，不仅能在你玩游戏时与你聊天互动，更能实时为你提供指导和见解，让你仿佛拥有了一个游戏界的“智多星”。 backseat后备助手下载官网：https://www.backseat.gg/ AIGC专区： ht…
- 0
- 0
6月4日
Suno新功能演示：Suno 产品经理展示用任何声音创作一首歌曲功能

Suno你能不能不要像挤牙膏一样每次挤一点啊，连这功能叫什么名字也不放出来。 VOL-3：哼着曲子，但赋予它 R&B 氛围 AIGC专区： https://heehel.com/category/aigc Suno AI专区： https://heehel.com/topic/suno-ai Suno AI 是一个高质量的AI音乐创作平台，用户可以通过输入文本描述来创作一首完整的歌曲。以下…
- 0
- 0
6月4日
【宝玉xp】GitHub CEO Thomas Dohmke的 Ted 演讲：《在 AI 的帮助下，每个人都能成为程序员》（双语字幕）

2022年底 ChatGPT 的出现，让写程序这件事发生了改变，借助大语言模型，可以能运行的生成程序代码，GitHub 推出的 GitHub Copilot，可以辅助开发人员编写代码，写一个开头，就能自动生成建议的代码，程序员只需要确认一下就可以。虽然说AI 对编程学习和普及的影响是巨大的，它使得越来越多的人能够轻松学习编程，专业软件开发者的职业并不会消失，因为设计和维护复杂的软件…
- 0
- 0
6月3日
Video-MME：视频分析领域首个多模态LLMs综合评估基准，全面评估多模态大型语言模型

论文介绍了一个名为Video-MME的新基准测试，它是首个全面评估多模态大型语言模型（MLLMs）在视频分析领域性能的测试。这项工作由多个机构的研究人员合作完成，包括中国科学技术大学、厦门大学、香港大学、北京大学、香港中文大学和华东师范大学的研究人员。 AIGC专区： https://heehel.com/category/aigc 工具箱： https://heehel.com/ai-tools…
- 0
- 0
6月3日
【拆盒编辑部】AI时代新赛道——AI玩具？将儿童故事机魔改成拥有AI智慧的玩具，重生吧，旧玩具！

一位网友将家里的旧玩具改造成具有AI功能的智能玩具，并介绍了AI玩具的各种功能和应用。他还谈到了创业团队如何利用AI技术提升生产效率和产品质量，并通过AI玩具实现教育和平等的愿景。视频还介绍了全球销售情况和用户反馈并强调了AI玩具的可塑性和创造力。最后，他希望自己的品牌能够不断发展壮大。 AIGC专区： https://heehel.com/category/aigc AIGC专区： https:…
- 0
- 0
6月3日
Suno 3.5版本音乐作品：《她为了网络喷子离开了我》——流行朋克摇滚曲目

Suno是一家专门从文本生成AI音频的美国创业公司。他们的音乐生成模型Chirp是一种尖端模型，旨在将文本转换为完全实现的音乐作品，并配有特定风格的元素和歌词。最显着的进步之一是它能够将摇滚、流行、K-pop 等流派以及旋律或快节奏等描述符无缝转换为音乐表达。现在支持50+ 种语言，使用[verse]和[chorus]等标签控制歌曲结构，更快的生成速度。目前每天可以免费生成30首歌曲，你可以自己…
- 0
- 0
6月3日
COMPUTEX 2024 国际电脑展即将举行，英伟达宣布将Copilot+引入RTX系列设备，赋能游戏本AI助理

COMPUTEX 2024 国际电脑展即将于2024年6月4日至7日在台北南港展览馆1馆及2馆盛大举行。作为业界瞩目的盛会，本次展会不仅吸引了全球各地的科技爱好者，更迎来了AMD CEO苏姿丰博士和NVIDIA首席执行官黄仁勋的精彩演讲。在展会的开幕之际，图形处理领域的巨头NVIDIA率先发布了其未来战略，再次表明了其深度拥抱人工智能的坚定立场。NVIDIA宣布其RTX系列显卡将全面支持微软的C…
- 0
- 0
6月3日
腾讯元宝AI助手App：强大的AI搜索、AI总结和AI写作等核心能力

腾讯元宝是腾讯公司推出的一款基于混元大模型的C端AI助手App，于2024年5月30日正式发布。该应用依托于腾讯自研的混元大模型，具备强大的AI搜索、AI总结和AI写作等核心能力。它能够一次性解析多个微信公众号链接、网址以及PDF、Word、txt等多种格式的文档，并支持超长的上下文窗口。腾讯元宝不仅面向工作效率场景，还结合了腾讯的内容生态，为用户提供多种生活功能。例如，它可以帮助…
- 0
- 0
6月2日
【即梦Dreamina】字节跳动即梦Dreamina图片、视频生成工具优质创作合集第三弹

千军万马，冲锋陷阵，谈笑间灰飞烟灭 #即梦AI短片挑战赛第三期作品合集如约而至，硝烟弥漫，请选择你的阵营！ #即梦AI 陪创作者们一起将发现与灵感转化为艺术品，创意不停 #ai #ai视频 #AIGC #Dreamina 即梦Dreamina专区： https://heehel.com/topic/dreamina-ai 更多作品： https://heehel.com/category/ai-w…
- 0
- 0
6月2日
ElevenLabs 的人工智能音效编辑器只需提示即可发出爆炸或其他声音效果

ElevenLabs 的 Sound Effects AI 工具可让用户为他们需要的特定音效类型编写提示。 ElevenLabs 已经提供人工智能生成的人类声音和音乐版本。现在，它还可以让人们为播客、电影或游戏创建音效。新的音效工具可以根据用户提示生成长达 22 秒的声音，可以与该公司的语音和音乐平台相结合，并为用户提供至少四个可下载的音频剪辑选项。该公司表示，它与股票媒体平台 Shutters…
- 0
- 0
6月1日
MotionLLM：从人类动作和视频中识别、分析和了解人类行为

本研究利用大型语言模型 (LLMs) 的强大功能，深入研究多模态（即视频和运动模态）人类行为理解领域。与最近为仅视频或仅运动理解而设计的 LLMs 不同，我们认为理解人类行为需要对视频和运动序列（例如 SMPL 序列）进行联合建模，以捕获微妙的身体部位动态和语义有效地。有鉴于此，我们提出了 MotionLLM，这是一个简单而有效的人类运动理解、字幕和推理框架。具体来说，MotionLLM采用统一…
- 0
- 0
6月1日
Suno官方音乐比赛——《The Summer of Suno 苏诺之夏》正式开始！

八个月前，Suno官方发布了第一个产品，让任何人都可以用简单的想法创作歌曲。现在有 1200 万人与 Suno 一起创作了音乐，Suno深受你们创作的歌曲的启发。Suno看到朋友们交换表情包，情侣们交换情歌，主播们与体育场大小的观众共同创作歌曲。有些创作者为他人创作歌曲，而另一些创作者则为自己演奏、探索和创作歌曲。 Suno官方非常高兴地宣布，在 2024 年剩余时间内，Suno将向这些创作者支付…
- 0
- 0
6月1日
【拆盒编辑部】AI打工我当导演：用AI省心制作电影级分镜脚本

AI，你来打工吧，我躺平就好! 拆盒教你手搓一个专业的文本转分镜GPTs，从此以后，一颗相当导演的心，再也没有谁能拦得住。该视频通过一种轻松幽默的方式，介绍了人工智能（AI）在创意领域，特别是电影分镜图制作中的应用。视频中演示了如何使用AI技术将文字内容快速转换为分镜图，并展示了个人如何使用这种技术来提高工作效率和创作可能性。 AIGC专区： https://heehel.com/categor…
- 0
- 0
5月31日
【在野在也】15分钟一站式入门Suno-AI音乐超强精通教程，如何创作音乐MV的完整工作流打造属于你的专属音乐

本期视频从基础的入门操作讲起，帮你掌握Suno的入门技巧，然后，会深入到进阶技巧，让你学会如何更细致、更精确地生成音乐，最后结合ChatGPT、Midjourney、Pika等不同的AI工具，详细演示如何创作一首音乐MV工作流。整个过程，我都会手把手带着你走，确保你能通过Suno创作出属于你自己的音乐教程专区： https://heehel.com/category/ai-tutorial Su…
- 0
- 0
5月31日
Perplexity 搜索引擎刚刚推出了新的页面功能——维基百科可以扔了

Perplexity 允许用户根据搜索结果创建自定义页面人工智能搜索引擎初创公司 Perplexity 推出了一项新功能，使其结果更具粘性，允许用户将研究转变为易于共享的页面。页面建立在 Perplexity 中现有的人工智能驱动的搜索功能之上，该功能使用与 Google 类似的系统来对网站进行分类，但将其与人工智能结合起来进行分析和显示。这类似于广受批评的 Google AI 概述，但格式更…
- 0
- 0
5月31日
Suno音乐V3.5新版本抢先体验！现在 Pro 和 Premier 会员都可以使用！

在Suno音乐团队紧锣密鼓地准备V4版本的同时，他们已经发布了V3.5版本的抢先体验版，特别为Pro和Premier会员推出。这次V3.5的更新带来了显著的改进：剪辑长度翻倍：现在最长剪辑长度达到了4分钟，让用户能够一次性生成完整的歌曲。歌曲扩展功能：支持最多2分钟的歌曲扩展，满足用户更长的创作需求。歌曲结构优化：经过精心改进的歌曲结构处理，让创作更加流畅、自然。对于Pro和Premie…
- 0
- 0
5月31日
7 个让你惊掉下巴的 ChatGPT-4o 提示词使用小技巧，快速提高使用效率！

在这个信息爆炸的时代，人工智能助手已经成为我们日常生活中不可或缺的一部分。ChatGPT-4o，作为一款先进的AI语言模型，以其强大的语言理解和生成能力，赢得了广大用户的青睐。然而，如何更高效地利用ChatGPT-4o，让它成为我们工作和学习的得力助手，却是一门值得探究的学问。本文将为您揭秘7个令人惊叹的ChatGPT-4o提示词使用技巧，这些技巧将帮助您快速提升使用效率，让您在与AI的互动中获得…
- 0
- 0
5月30日
Udio推出新型音乐生成模型：udio-130，新增更多高级功能

Udio最近推出了一款新型音乐生成模型，型号为udio-130，它能够在短短两分钟内生成曲目，极大地简化了创作过程，使得曲目的连贯性和结构得以长期保持。通过查看示例曲目，我们可以了解到，仅仅使用一个简单的提示，就能实现令人惊叹的功能。 udio-130将与Udio现有的设备一同推出。目前，两分钟生成功能尚处于试验阶段，仅向专业订阅者提供优惠的信用费率。不过，这项功能预计将在未来几周内面向更广泛的…
- 0
- 0
5月30日
【Eternity-Li & JayMe官方粉丝社区】用 AI孙燕姿翻唱周杰伦的《暗号》会怎么样？你停止~收讯号

AI声源：孙燕姿原唱：周杰伦推理来源：BV1AZ4y1A74M 免责声明：本作品仅作为娱乐目的发布，可能造成的后果与使用的音声转换项目的作者、贡献者无关，本视频使用AI合成技术，视频中演唱人声并非孙燕姿本人如有侵权告知删除更多作品： https://heehel.com/category/ai-works 推荐文章：如何训练一个专属自己的AI歌手？AI孙燕姿翻唱音乐实例教学及训练歌手模型教…
- 0
- 0
5月30日
Mistral 发布 Codestral，它的第一个代码生成人工智能模型，精通 80 多种编程语言

Mistral 是一家由微软支持、估值 60 亿美元的法国人工智能初创公司，它发布了第一个用于编码的生成式人工智能模型，名为 Codestral。与其他代码生成模型一样，Codestral 旨在帮助开发人员编写代码并与代码交互。 Mistral 在博客文章中解释说，它接受了 80 多种编程语言的培训，包括 Python、Java、C++ 和 JavaScript。 Codestral 可以完成编…
- 0
- 0
5月30日
ChatGPT 为免费用户扩展了浏览、识别、数据分析、文件上传和GPT的所有功能

对免费用户的开放程度：自定义GPT模型：ChatGPT免费用户现已能够尝试自定义GPT模型等GPT-4o新功能。数据连接：用户还可以将OneDrive和Google Drive数据连接到ChatGPT，从而更快更好地体验数据分析功能并创建可自定义的图表。限制：虽然免费用户可以使用自定义GPT模型，但仍无法创建自己的GPT模型。此外，当免费用户使用GPT-4o达到消息或对话限制时，将自动恢复到…
- 0
- 0
5月30日
由 GPT-4o 提供支持的自动化可生成基于 PRD 的 Figma 设计

GPT-4o（"o"代表“omni”）是OpenAI最新推出的旗舰级生成式人工智能模型，具有多模态交互能力，能够处理文本、音频和视频输入，并生成相应的文本、音频和图像输出。这种模型在技术上是一个重大突破，因为它集成了之前需要分开训练的不同数据类型的模型。 GPT-4o不仅提高了效率，还显著降低了成本。此外，GPT-4o还具备处理50种不同语言的能力，这使得它在全球范围内的应用变…
- 0
- 0
5月29日
网友发现Suno v3.5的说唱效果极佳，不仅人声更加清晰，节奏也令人难以置信

来源：nickfloats 以下是关于Suno v3.5的详细信息：生成音乐的最小片段长度：Suno v3.5将生成音乐的最小片段长度扩展至4分钟，这使得创作者可以更轻松地生成完整的歌曲。用户体验和功能升级：v3.5版本已经向Pro和Premier会员开放，用户使用后反馈显示，该版本在功能上有显著提升，使得音乐创作更加简单。此外，v3.5相比于旧版本v3，在结束部分处理上更加自然，缓缓淡出而不…
- 0
- 0
5月29日
使用 llama 3 的自动组织文件系统“LlamaFS”：能根据文件内容自动命名和整理分类存放

LlamaFS 是一个自组织文件管理器。它会根据文件的内容和众所周知的约定（例如时间）自动重命名和组织文件。它支持多种文件，甚至图像（通过 Moondream）和音频（通过 Whisper）。 LlamaFS 以两种“模式”运行 - 作为批处理作业（批处理模式）和交互式守护进程（监视模式）。在批处理模式下，你可以将目录发送到 LlamaFS，它将返回建议的文件结构并组织你的文件。在监视模式下，…
- 0
- 0
5月28日
Suno 宣布即将推出一项全新的功能——可以将日常生活中的各种声音转化为音乐

从文本生成音频到声音生成声音！我宣布 Suno 2：1 Udio Suno AI专区： https://heehel.com/topic/suno-ai Suno AI音乐是一个基于人工智能的音乐创作平台，旨在通过简单的文本提示生成高质量的音乐作品。用户只需输入几个关键词或歌词描述，Suno AI就能在几秒钟内生成完整的歌曲，包括旋律、和弦编排、节奏设计以及人声演唱。该平台最初在Discord上…
- 0
- 0
5月27日
Look once to hear智能耳戴式系统：在嘈杂环境中专注于目标语音的语音识别技术

目标言语听力与嘈杂的例子在拥挤的环境中，人脑可以专注于目标说话者的语音，前提是先了解目标说话者的声音如何。我们推出了一种新颖的智能耳戴式系统——Look once to hear，可以实现此功能，使目标语音听力能够忽略除目标说话者之外的所有干扰语音和噪声。一种简单的方法是需要一个干净的语音示例来注册目标说话者。然而，Look once to hear与可听设备应用领域并不一致，因为在现实场景中…
- 0
- 0
5月27日
Cohere For AI 文本生成模型项目：Aya——突破101种语言界限的多语言人工智能

Cohere是一个专注于大型语言模型（LLMs）的平台，旨在帮助开发人员和企业构建高性能的AI产品。该平台提供多种功能，包括文本生成、检索增强生成（RAG）、语义搜索等。 Cohere的文本生成模型可以通过简单的API生成独特的内容，如电子邮件、落地页、产品描述等。此外，Cohere还提供了多种部署方式，包括API、云端和私有部署，并且可以根据具体用例进行微调。近日，由Cohere For AI…
- 0
- 0
5月27日
Arc Search 的新 Call Arc 功能可让您通过“拨打电话”来提问

Arc Search 是 The Browser Company 的新应用程序，它推出了一种让用户可以在旅途中使用语音快速获得答案的方法。由人工智能驱动的功能 Call Arc 的工作原理本质上是让用户快速拨打电话以获得查询答案。虽然 Arc Search 已经提供了语音搜索，但新功能旨在为人们提供一种有趣的方式，让他们在旅途中快速获得答案。据该公司称，Call Arc 可以帮助回答即时和小问题…
- 0
- 0
5月24日