解锁未来:GPT-4o高级语音模式的9大创新用法

从翻译专家、喜剧大师到无障碍视听小帮手,GPT-4o 高级语音模式正在解锁大量的场景和可能性,这是AI 时代的又一里程碑。

Hans 精心整理了多种用法并附上原始出处,你可以在随附截图中与这9种用法一一对应。 值得强调的是,你无需复杂提示词,只要轻声说出意图就能解锁高级语音模式的独特用法。 Enjoy~

🌍 实时语音翻译

提示词:我旁边的朋友只会说意大利语,我只会说英语时,我想让你翻译成意大利语;如果你听到意大利语,你将其翻译成英语。好吗?

Hans 短评:如果你在学习新语言、异国旅游以及视频会议、看电影,或任何实时翻译的场景, 你将发现它惊人的效能。
https://www.youtube.com/watch?v=c2DFg53Zhvw

🧮 实时数学辅导

提示词:不让GPT4o 直接给答案,像Tutor一样提问/并引导学生走向正确的方向。

Hans 短评:可汗学院创始人Sal Khan和儿子Imran一起探索 GPT-4o 的数学辅导,效果惊艳。 (这里涉及一个ChatGPT待解锁功能,稍后再深入)
https://www.youtube.com/watch?v=IvXZCocyU_M

🤣 笑话大作战

提示:因为我马上成为爸爸了, 想请你听一下,这个告诉接下来这个算不算有关爸爸的笑话。 「一大堆小猫在一起叫什么」
https://www.youtube.com/watch?v=dVwjogPWVws

👽 讲故事,且不限人类的语言

提示:让从希伯来、挪威、匈牙利、格鲁吉亚依次讲故事,甚至还有克林贡语……
https://x.com/CrisGiardina/status/1818799060385489248

📚 读书时,和GPT 充分对谈

Dan shiper:它能给予的很多。从澄清复杂的想法、让历史背景触手可及、提供最新的科学见解、章节摘要以及提供对立观点。 就像一个全天候的专家伴侣,降低门槛、加深理解。
https://x.com/danshipper/status/1823694330143629345

🎭 超级讽刺

提示:我们来一起开心一下。 我希望你开始超级讽刺, 接下来你会说的每句话都充满讽刺意味……
https://www.youtube.com/watch?v=GiEsyOyk1m4

🦁 进行角色配音

提示:我在写一个故事,请你和我一起练习几种声音;第一个我们会有一个威风凛凛的狮子……
https://www.youtube.com/watch?v=4w0Pqs3CuWk

Hans 短评: 如果你是教育工作者或家长,应该能意识到这里的妙用, 让GPT-4o 和你一起为孩子们讲故事吧

🎵 轻声唱出摇篮曲

提示词:你能为我唱一首关于马铃薯的摇篮曲吗?
https://www.youtube.com/watch?v=2Djt1WWch20

Hans 短评:目前ChatGPT 的歌唱模式暂未开放, 但是这种能力和可能性值得了解。

🦆 用 GPT-4o 实现 "Be My Eyes "无障碍功能

提示词:请告诉我眼前的景象?

GPT-4o: 现在鸭子们在水中轻轻滑过,它们动作相当轻松,不紧不慢地;偶尔有一只会把头浸入水中。

https://www.youtube.com/watch?v=KwNUJ69RbwY
MOKI 是美图公司推出的 AI 视频短片创作工具,支持 AI 生成分镜图、角色设计、智能剪辑、自动配乐、音效和字幕生成,简化视频制作流程。用户可通过输入视频描述、选择风格和角色设计来生成短片。

详细介绍:https://mp.weixin.qq.com/s/q-K93zDuPcO7kFT85_O6TQ
工具地址:https://www.moki.cn/

核心功能:
1. 智能剪辑:AI 算法自动识别关键帧,高效完成视频编辑。
2.AI 配乐和音效:自动为视频添加合适背景音与音效。
3. 自动字幕生成:简化制作流程,自动生成字幕。
4. 自动生成角色:根据脚本和风格生成角色,保持一致性,可细节调整。
5. 丰富旁白音色:多种可选,如青年男声、女声等。
6. 分镜单独修改:可改运镜效果、速度,“AI 生视频” 重生成。
7.AI 改图:局部修改分镜内容,用提示词改画面。
8. 视频导出:可导出完整视频和素材片段,灵活但速度慢。
Slax Reader
AI 时代的智能学习与社交助手,让知识触手可及
https://reader.slax.com/
Dubble
标语:边工作边做文档
介绍:Dubble是一款文档工具,它能够观察你的工作过程,将你的操作转化为逐步指南、视频和截图——这样你就不用自己去做了。
产品网站: https://dubble.so/ Dubble: Free Step By Step Guide and Screenshots Creator
站点名称: Lyrics Into Song AI - 免费在线将歌词转换成歌曲
Logo: https://api.iowen.cn/favicon/lyricsintosong.ai.png
链接: https://lyricsintosong.ai/zh
描述: Lyrics Into Song AI 利用先进的 AI 将文字歌词转化为优美的原创歌曲,非常适合词曲作者和音乐家。
Save Tweets Forever
标语:随时保存和查看帖子,即使它们已从X平台删除。
介绍:将任何X(前身为Twitter)上的帖子锁定并永久拥有它。保存推文及其当前互动和图片。即使这些内容从X上被删除,你也可以随时查看。
产品网站: https://savetweetsforever.com/ Saved Forever
Whisper WebUI - 基于 Whisper 的音频转录与翻译工具​
一个基于 OpenAI Whisper API 的 Web 应用,提供高效的音频转录和翻译服务。它支持多种音频格式(如 FLAC 、M4A 、MP3 、MP4 、WAV ),并允许自定义音频语言和提示词

开源地址:https://github.com/Education-Victory/whisper-webui GitHub - Education-Victory/whisper-webui: WebUI for Whisper API
🆔 网站名称:Public Work

⭐️ 网站功能:图片搜索引擎

📁 网站简介:一个无版权的图片搜索引擎。可以探索来自大都会艺术博物馆和纽约公共图书馆等来源的超过10万张免版权图片。

🔗 网站链接:https://public.work/ Public Work by Cosmos
推荐一个开源的视频理解模型,带对话提问功能,而且在demo里边试了下速度还不错,20S的视频两三秒就能解读完毕。

CogVLM2-Video

🧐CogVLM2-Video 是一个时序感知的视频理解模型,能够在处理视频问答和描述任务时,准确地理解和定位视频中的时间信息,提供了更好的时序定位和开放领域问答能力。

➡️链接:https://cogvlm2-video.github.io/

重点 ● 🎥 模型特点:CogVLM2-Video 能够在视频理解、视频描述和时序定位任务中表现出色。模型引入了时间戳信息,使其能够在视频问答和生成任务中感知视频的时间轴。

📊 数据集构建:通过自动化的数据生成流程,模型从现有的视频片段中提取帧级别信息,并生成 30,000 条时序定位问答数据。这种方法克服了传统手动标注的局限性,为大规模训练提供了高质量的数据支持。

🧠 模型架构:CogVLM2-Video 在传统的视频理解模型基础上,改进了时间感知能力。它将多帧视频图像和时间戳作为编码器输入,与文本输入进行联合理解,克服了现有模型在处理时间信息时的局限性。

🌐 应用场景:该模型在开放领域问答、视频描述、时序定位等任务中均取得了出色的表现,能够用于视频生成、视频摘要等后续任务。

📈 评估结果:在多个公开的视频理解基准测试中取得了最佳表现,并在 VideoChatGPT-Bench 和 MVBench 数据集上表现优异。

🛠 在线资源:提供了 Hugging Face、ModelScope 等平台的模型资源和 在线演示,方便用户直接体验模型能力。相关代码和模型也已开放,便于进一步研究和应用。
我深入拆解了 Claude 曝光的内置提示词,不愧是官方最佳实践

🧐文章详细解析了Anthropic公司为Claude 3.5模型设计的内置提示词,展示了如何通过身份设定、交互策略、任务执行方法等多维度的提示词设计,帮助Claude在不同场景中提供高效且准确的回应。作者认为这套提示词设计非常实用,值得Prompt工程师借鉴,并提供了多种实用资源供读者进一步学习。

➡️链接:https://mp.weixin.qq.com/s/0R4zgH3Gc5TAfAPY1oJU4A

重点

💡 全面提示词设计:Claude的内置提示词涵盖了身份设定、交互策略、任务执行和特殊情况处理等多个方面,为AI的行为和回应提供了清晰的指导。

🔧 实用性强:这些提示词设计不仅提升了Claude的智能交互能力,还为Prompt工程师提供了一个完善的设计参考,帮助他们更好地创建高质量的提示词。

📚 学习资源:文章附带了丰富的学习资源链接,包括Anthropic和OpenAI的提示工程指南和提示词生成器,帮助读者深入学习提示工程。
这个让纸片人动起来的模型好可爱~!

DrawingSpinUp: 3D Animation from Single Character Drawings

🧐DrawingSpinUp是一种新颖的系统,旨在从单个角色绘图中生成逼真的3D动画。该系统通过移除并恢复轮廓线和骨架基础的变形算法,解决了2D动画缺乏3D效果的问题,使角色绘图能够自由旋转、跳跃,甚至执行复杂的舞蹈动作。

➡️链接:https://lordliang.github.io/DrawingSpinUp/

重点 ●🎨 创新技术:DrawingSpinUp利用轮廓线移除和恢复策略,以及骨架基础的变形算法,成功解决了手绘角色薄弱结构的3D重建难题。

📊 性能对比:该系统在与现有2D和3D动画方法的对比中表现优异,生成的3D动画质量明显更高,特别是在旋转和细节处理方面。

⚠️ 局限性:当输入绘图的轮廓线过厚时,系统可能会产生伪影。此外,不适当的边缘提取可能导致不理想的渲染结果。
分享一个自动将长视频挑选精彩部分切片为短视频的工具~

GitHub - SamurAIGPT/AI-Youtube-Shorts-Generator: A python tool that uses GPT-4, FFmpeg, and OpenCV to automatically analyze videos, extract the most interesting sections, and crop them for an improved viewing experience.

🧐AI Youtube Shorts Generator是一个Python工具,使用GPT-4、FFmpeg和OpenCV自动分析视频,提取最有趣的片段,并将其裁剪为适合短视频的平台格式,如YouTube Shorts。该工具目前处于v0.1版本,可能存在一些问题。

➡️链接:https://github.com/SamurAIGPT/AI-Youtube-Shorts-Generator

重点 ●📹 功能特色:工具可以从YouTube URL下载视频,使用Whisper转录视频内容,通过GPT-4提取视频中的亮点部分,并进行垂直裁剪以适应短视频格式。

💻 安装与使用:支持Python 3.7及以上版本,用户需要设置环境变量并运行主脚本输入YouTube URL来生成短视频。

🛠 技术整合:该工具集成了多种技术,包括GPT-4进行内容分析,FFmpeg进行视频处理,以及OpenCV进行图像裁剪。 GitHub - SamurAIGPT/AI-Youtube-Shorts-Generator: A python tool that uses GPT-4, FFmpeg, and OpenCV to automatically analyze videos…
gpt-o1开源平替🥹

GitHub - bklieger-groq/g1: g1: Using Llama-3.1 70b on Groq to create o1-like reasoning chains

🧐g1项目利用Llama-3.1 70b模型在Groq上构建类似o1模型的推理链,通过高级提示策略增强LLM的推理能力,特别适用于解决传统模型难以处理的逻辑问题,并以JSON格式输出详细的推理步骤。

➡️链接:https://github.com/bklieger-groq/g1

重点 ●🧠 推理链生成:g1通过详细的提示策略引导LLM进行多步骤的推理,从而提高模型在处理复杂逻辑问题时的准确性,特别是在重新审视和验证初始答案时表现出色。

🔧 使用指南:提供了安装和运行的详细步骤,包括如何设置虚拟环境、安装依赖项以及使用Streamlit运行应用程序,方便开发者快速上手。

📊 提示策略:g1通过提示LLM采用至少三种方法推导答案,并鼓励模型在推理过程中探索替代答案,从而增强模型的推理能力和最终结果的准确性。

📝 实验性质:g1目前处于实验阶段,尽管它在解决简单逻辑问题时表现优异,但其准确性尚未经过正式评估,旨在激发开源社区开发类似o1推理的策略。 GitHub - bklieger-groq/g1: g1: Using Llama-3.1 70b on Groq to create o1-like reasoning chains
🧐GOT-OCR2.0 是一个开源项目,旨在通过统一的端到端模型实现OCR-2.0,提供了用于文本和格式化文本OCR的多种工具和脚本,并支持多页和多裁剪的OCR处理,适用于广泛的应用场景。

➡️链接:https://github.com/Ucas-HaoranWei/GOT-OCR2.0

重点 ●📚 通用OCR理论:GOT-OCR2.0基于最新的OCR-2.0模型,旨在通过一个统一的端到端模型来处理多种OCR任务,包括文本识别、格式化文本识别和细粒度OCR。

🛠 功能与演示:项目提供了详细的安装和使用指南,包括如何在多种环境下运行模型,如Huggingface和Google Drive上的模型权重,以及提供了各种OCR处理的示例代码。

📊 训练与评估:该项目支持后期训练和评估,包括使用不同的数据集和基准测试进行模型的性能评估,特别适合科研和开发人员使用。

🔗 社区贡献:项目鼓励社区参与开发,并已发布多个由社区贡献的工具和示例,包括Colab演示和CPU版本的GOT-OCR。 GitHub - Ucas-HaoranWei/GOT-OCR2.0: Official code implementation of General OCR Theory:  Towards OCR-2.0 via a Unified End-to-end…
https://tinymind.me
这是一个不需要服务器的博客和公开想法记录网站,你只需要拥有Github账户,点击授权,就可以可以直接在网页用Markdown编辑博客和短想法,每次更改都会给你的Github提交一次commit。
开源代码:https://github.com/mazzzystar/tinymind TinyMind - Write blog & thoughts with GitHub.
Back to Top