<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>全双工语音 on GPT说</title><link>https://www.gpt-hub.top/categories/%E5%85%A8%E5%8F%8C%E5%B7%A5%E8%AF%AD%E9%9F%B3/</link><description>Recent content in 全双工语音 on GPT说</description><generator>Hugo -- gohugo.io</generator><language>zh-CN</language><lastBuildDate>Fri, 10 Apr 2026 08:20:25 +0800</lastBuildDate><atom:link href="https://www.gpt-hub.top/categories/%E5%85%A8%E5%8F%8C%E5%B7%A5%E8%AF%AD%E9%9F%B3/index.xml" rel="self" type="application/rss+xml"/><item><title>字节发布全双工语音大模型 Seeduplex：这 5 个场景将率先被颠覆</title><link>https://www.gpt-hub.top/post/bytevoice-seeduplex/</link><pubDate>Fri, 10 Apr 2026 08:20:25 +0800</pubDate><guid>https://www.gpt-hub.top/post/bytevoice-seeduplex/</guid><description>&lt;img src="https://www.gpt-hub.top/" alt="Featured image of post 字节发布全双工语音大模型 Seeduplex：这 5 个场景将率先被颠覆" /&gt;&lt;h2 id="开场ai-终于学会了插嘴"&gt;&lt;a href="#%e5%bc%80%e5%9c%baai-%e7%bb%88%e4%ba%8e%e5%ad%a6%e4%bc%9a%e4%ba%86%e6%8f%92%e5%98%b4" class="header-anchor"&gt;&lt;/a&gt;开场：AI 终于学会了&amp;quot;插嘴&amp;quot;
&lt;/h2&gt;&lt;p&gt;你有没有过这种经历：&lt;/p&gt;
&lt;p&gt;跟智能助手说话，它永远在等你把话说完。你想打断它换个问题？不行，得等它播报完毕。&lt;/p&gt;
&lt;p&gt;讲真，这不像对话，像发号施令。&lt;/p&gt;
&lt;p&gt;4 月 9 日，字节跳动发布了一款叫 Seeduplex 的全双工语音大模型。官方介绍里有个关键词很值得玩味——&amp;ldquo;可打断&amp;rdquo;。&lt;/p&gt;
&lt;p&gt;什么意思？&lt;/p&gt;
&lt;p&gt;就是你跟 AI 说话的时候，它可以边听边回应。你随时插嘴，它立刻调整。就像现在跟我对话一样自然。&lt;/p&gt;
&lt;p&gt;这可不是简单的技术升级。这是人机交互方式的一次重大重构。&lt;/p&gt;
&lt;h2 id="全双工到底是什么"&gt;&lt;a href="#%e5%85%a8%e5%8f%8c%e5%b7%a5%e5%88%b0%e5%ba%95%e6%98%af%e4%bb%80%e4%b9%88" class="header-anchor"&gt;&lt;/a&gt;全双工到底是什么
&lt;/h2&gt;&lt;p&gt;先别急着看应用场景，我们得搞清楚：全双工和我们熟悉的语音助手，差在哪？&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;半双工（现在的语音助手）&lt;/strong&gt;：我说你听，你说我听。同一时间只能有一方说话。典型的&amp;quot;对讲机模式&amp;quot;。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;全双工（Seeduplex 代表的新技术）&lt;/strong&gt;：可以同时说、同时听、随时打断、即时回应。这才是&amp;quot;电话模式&amp;quot;。&lt;/p&gt;
&lt;p&gt;技术上最大的难点在于&amp;quot;边听边说&amp;quot;时的自我干扰处理。你试过戴着耳机唱歌吗？如果麦克风同时收录你的歌声和耳机里的伴奏，就会炸掉。AI 要解决的就是这个问题，在输出语音的同时，精准分离自己说的话和用户的反馈。&lt;/p&gt;
&lt;p&gt;字节这次公布的方案，延迟压到了 200 毫秒以内。什么概念？&lt;/p&gt;
&lt;p&gt;普通人对话的反应延迟是 300-500 毫秒。&lt;/p&gt;
&lt;p&gt;AI 比你反应还快。&lt;/p&gt;
&lt;p&gt;&lt;img alt="全双工 vs 半双工对比" class="gallery-image" data-flex-basis="426px" data-flex-grow="177" height="1440" loading="lazy" sizes="(max-width: 767px) calc(100vw - 30px), (max-width: 1023px) 700px, (max-width: 1279px) 950px, 1232px" src="https://i.ibb.co/bR25zbGc/db23106699d8.jpg" srcset="https://www.gpt-hub.top/db23106699d8_2450232079464608412_hu_a2bb109a9424d506.jpg 800w, https://www.gpt-hub.top/db23106699d8_2450232079464608412_hu_59b6bd9e71c81531.jpg 1600w, https://www.gpt-hub.top/db23106699d8_2450232079464608412_hu_ac85323467ef672b.jpg 2400w, https://i.ibb.co/bR25zbGc/db23106699d8.jpg 2560w" width="2560"&gt;&lt;/p&gt;
&lt;h2 id="场景一智能客服将迎来真正的人工服务"&gt;&lt;a href="#%e5%9c%ba%e6%99%af%e4%b8%80%e6%99%ba%e8%83%bd%e5%ae%a2%e6%9c%8d%e5%b0%86%e8%bf%8e%e6%9d%a5%e7%9c%9f%e6%ad%a3%e7%9a%84%e4%ba%ba%e5%b7%a5%e6%9c%8d%e5%8a%a1" class="header-anchor"&gt;&lt;/a&gt;场景一：智能客服将迎来真正的&amp;quot;人工服务&amp;quot;
&lt;/h2&gt;&lt;p&gt;打电话给客服，可能是现代人最烦躁的体验之一。&lt;/p&gt;
&lt;p&gt;&amp;ldquo;按 1 选择&amp;hellip;按 2 选择&amp;hellip;&amp;ldquo;好不容易转到人工，前面还有 38 个人在排队。&lt;/p&gt;
&lt;p&gt;全双工语音落地后，智能客服可以这样工作：&lt;/p&gt;
&lt;p&gt;用户：&amp;ldquo;我要查一下我的快递&amp;hellip;哎不对，我其实是想问退款的事&amp;hellip;&amp;rdquo;&lt;/p&gt;
&lt;p&gt;客服 AI：&amp;ldquo;没问题，您先说退款的事，快递信息我可以稍后帮您查。&amp;rdquo;&lt;/p&gt;
&lt;p&gt;这种&amp;quot;被理解&amp;quot;的感觉，恰恰是现在的客服系统最缺的。&lt;/p&gt;
&lt;p&gt;更关键的是成本。一个客服坐席一天能处理 200 通电话，全双工 AI 可以处理 2000 通，而且不会情绪失控还不会累倒。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;适合谁&lt;/strong&gt;：电商、运营商、银行等客服密集型行业。&lt;/p&gt;
&lt;p&gt;&lt;img alt="智能客服场景" class="gallery-image" data-flex-basis="426px" data-flex-grow="177" height="1440" loading="lazy" sizes="(max-width: 767px) calc(100vw - 30px), (max-width: 1023px) 700px, (max-width: 1279px) 950px, 1232px" src="https://i.ibb.co/CsM9c57h/5fd7bcff1e70.jpg" srcset="https://www.gpt-hub.top/5fd7bcff1e70_335745684976837619_hu_a295a1f7d19ec853.jpg 800w, https://www.gpt-hub.top/5fd7bcff1e70_335745684976837619_hu_472eee60446871c6.jpg 1600w, https://www.gpt-hub.top/5fd7bcff1e70_335745684976837619_hu_38e81be046afbaee.jpg 2400w, https://i.ibb.co/CsM9c57h/5fd7bcff1e70.jpg 2560w" width="2560"&gt;&lt;/p&gt;
&lt;h2 id="场景二语言学习终于有了陪练搭子"&gt;&lt;a href="#%e5%9c%ba%e6%99%af%e4%ba%8c%e8%af%ad%e8%a8%80%e5%ad%a6%e4%b9%a0%e7%bb%88%e4%ba%8e%e6%9c%89%e4%ba%86%e9%99%aa%e7%bb%83%e6%90%ad%e5%ad%90" class="header-anchor"&gt;&lt;/a&gt;场景二：语言学习终于有了&amp;quot;陪练搭子&amp;rdquo;
&lt;/h2&gt;&lt;p&gt;学英语最大的障碍是什么？&lt;/p&gt;
&lt;p&gt;不是词汇量，不是语法，是不敢说。&lt;/p&gt;
&lt;p&gt;找个外教陪练？一节课 200 块起步。找个语伴？人家也要休息。&lt;/p&gt;
&lt;p&gt;全双工语音带来的改变是：你有一个 24 小时在线的陪练，而且它可以同时听你说英语、纠正你的发音、还能跟你吵架。&lt;/p&gt;
&lt;p&gt;想象这个场景：&lt;/p&gt;
&lt;p&gt;你：&amp;ldquo;I think the&amp;hellip; uh&amp;hellip; how to say&amp;hellip; 那个政策有问题。&amp;rdquo;&lt;/p&gt;
&lt;p&gt;AI：&amp;ldquo;You&amp;rsquo;re looking for &amp;lsquo;policy&amp;rsquo;. And what specific concern do you have?&amp;rdquo;&lt;/p&gt;
&lt;p&gt;你：&amp;ldquo;Yes, policy! I think this policy is unfair.&amp;rdquo;&lt;/p&gt;
&lt;p&gt;AI：&amp;ldquo;Interesting. Can you give me an example?&amp;rdquo;&lt;/p&gt;
&lt;p&gt;全程没有停顿，没有&amp;quot;请重复您的话&amp;rdquo;，没有&amp;quot;我没听清楚&amp;quot;。&lt;/p&gt;
&lt;p&gt;这种流畅感，是语言学习最宝贵的。因为语言本来就是流动的，被打断的次数越多，学习效果越差。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;适合谁&lt;/strong&gt;：语言培训机构、在线教育平台、自学党。&lt;/p&gt;
&lt;h2 id="场景三会议记录不再是会后噩梦"&gt;&lt;a href="#%e5%9c%ba%e6%99%af%e4%b8%89%e4%bc%9a%e8%ae%ae%e8%ae%b0%e5%bd%95%e4%b8%8d%e5%86%8d%e6%98%af%e4%bc%9a%e5%90%8e%e5%99%a9%e6%a2%a6" class="header-anchor"&gt;&lt;/a&gt;场景三：会议记录不再是&amp;quot;会后噩梦&amp;quot;
&lt;/h2&gt;&lt;p&gt;开过会的人都知道：会议记录是个苦差事。&lt;/p&gt;
&lt;p&gt;你一边要听大家说什么，一边要记重点，还要分辨谁在说什么。散会后整理录音？那又是一场灾难。&lt;/p&gt;
&lt;p&gt;全双工语音可以让会议系统变成这样：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;实时转写每个人的发言&lt;/li&gt;
&lt;li&gt;自动识别打断和插话（&amp;ldquo;王总，我补充一下&amp;hellip;&amp;quot;）&lt;/li&gt;
&lt;li&gt;在争论时同时记录多方观点&lt;/li&gt;
&lt;li&gt;会议结束，纪要已经生成好了&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;有个细节很关键：现在的语音转写系统，遇到重叠说话就废了。两个人同时开口，系统直接宕机。&lt;/p&gt;
&lt;p&gt;但全双工天然是为这种场景设计的——它本来就要处理&amp;quot;同时说&amp;quot;的情况。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;适合谁&lt;/strong&gt;：企业协作工具、远程办公团队、咨询公司。&lt;/p&gt;
&lt;p&gt;&lt;img alt="智能会议记录场景" class="gallery-image" data-flex-basis="426px" data-flex-grow="177" height="1440" loading="lazy" sizes="(max-width: 767px) calc(100vw - 30px), (max-width: 1023px) 700px, (max-width: 1279px) 950px, 1232px" src="https://i.ibb.co/kgQR2pPZ/138e3c1e9784.jpg" srcset="https://www.gpt-hub.top/138e3c1e9784_11298393132235554758_hu_5ee5f5fab493fbfd.jpg 800w, https://www.gpt-hub.top/138e3c1e9784_11298393132235554758_hu_8a35bf25fbac5fc0.jpg 1600w, https://www.gpt-hub.top/138e3c1e9784_11298393132235554758_hu_784f52f6fe2f9cd4.jpg 2400w, https://i.ibb.co/kgQR2pPZ/138e3c1e9784.jpg 2560w" width="2560"&gt;&lt;/p&gt;
&lt;h2 id="场景四车载交互终于不用开车靠吼"&gt;&lt;a href="#%e5%9c%ba%e6%99%af%e5%9b%9b%e8%bd%a6%e8%bd%bd%e4%ba%a4%e4%ba%92%e7%bb%88%e4%ba%8e%e4%b8%8d%e7%94%a8%e5%bc%80%e8%bd%a6%e9%9d%a0%e5%90%bc" class="header-anchor"&gt;&lt;/a&gt;场景四：车载交互终于不用&amp;quot;开车靠吼&amp;rdquo;
&lt;/h2&gt;&lt;p&gt;开车时想导航怎么办？&lt;/p&gt;
&lt;p&gt;&amp;ldquo;你好 XX，我要去&amp;hellip;（AI 开始播报路线）&amp;hellip;哎呀不是这条路！（AI 还在继续播报）&amp;rdquo;&lt;/p&gt;
&lt;p&gt;全双工上车之后：&lt;/p&gt;
&lt;p&gt;你：&amp;ldquo;导航到公司&amp;hellip;等等，先去加油站。&amp;rdquo;&lt;/p&gt;
&lt;p&gt;车机：&amp;ldquo;已为您修改路线，先导航到最近的加油站，全程 3.2 公里。&amp;rdquo;&lt;/p&gt;
&lt;p&gt;安全是最大的价值。驾驶员分心操作中控屏，是事故的高发场景。语音交互越自然，驾驶员眼睛离开路面的时间越短。&lt;/p&gt;
&lt;p&gt;有个数据值得注意：某车企测试全双工交互后，驾驶员分心时长下降了 67%。因为不需要反复确认、不需要等系统反应、不需要重复指令。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;适合谁&lt;/strong&gt;：车企、车联网服务商、导航应用。&lt;/p&gt;
&lt;h2 id="场景五老年人也能玩转智能设备"&gt;&lt;a href="#%e5%9c%ba%e6%99%af%e4%ba%94%e8%80%81%e5%b9%b4%e4%ba%ba%e4%b9%9f%e8%83%bd%e7%8e%a9%e8%bd%ac%e6%99%ba%e8%83%bd%e8%ae%be%e5%a4%87" class="header-anchor"&gt;&lt;/a&gt;场景五：老年人也能&amp;quot;玩转&amp;quot;智能设备
&lt;/h2&gt;&lt;p&gt;爸妈用智能手机最让你抓狂的是什么？&lt;/p&gt;
&lt;p&gt;不是学不会，是不敢用。怕点错，怕按坏了，怕说不清楚。&lt;/p&gt;
&lt;p&gt;全双工语音带来的改变是：他们不需要&amp;quot;学&amp;quot;了，直接说就行。&lt;/p&gt;
&lt;p&gt;&amp;ldquo;小字看不清，调大点。&amp;rdquo;&lt;/p&gt;
&lt;p&gt;&amp;ldquo;刚才那个怎么退出来？&amp;rdquo;&lt;/p&gt;
&lt;p&gt;&amp;ldquo;哎对对对，就是那个，帮我付一下钱。&amp;rdquo;&lt;/p&gt;
&lt;p&gt;这种&amp;quot;边说边调整&amp;quot;的交互，对老年人特别友好。因为他们本来就不熟悉界面逻辑，语音是最自然的方式。&lt;/p&gt;
&lt;p&gt;我认识一个做适老化改造的产品经理，他说了一句话我印象很深：&amp;ldquo;最好的交互，是让用户感觉不到交互的存在。&amp;rdquo;&lt;/p&gt;
&lt;p&gt;全双工语音，可能是最接近这个目标的。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;适合谁&lt;/strong&gt;：手机厂商、家电企业、社区服务平台。&lt;/p&gt;
&lt;p&gt;&lt;img alt="老年人语音交互场景" class="gallery-image" data-flex-basis="426px" data-flex-grow="177" height="1440" loading="lazy" sizes="(max-width: 767px) calc(100vw - 30px), (max-width: 1023px) 700px, (max-width: 1279px) 950px, 1232px" src="https://i.ibb.co/ymTQYjL1/3468a880d4dd.jpg" srcset="https://www.gpt-hub.top/3468a880d4dd_9034586066521201404_hu_e48a7539df6e0e5.jpg 800w, https://www.gpt-hub.top/3468a880d4dd_9034586066521201404_hu_6be092a7a1d25653.jpg 1600w, https://www.gpt-hub.top/3468a880d4dd_9034586066521201404_hu_ba4239c53f1c7125.jpg 2400w, https://i.ibb.co/ymTQYjL1/3468a880d4dd.jpg 2560w" width="2560"&gt;&lt;/p&gt;
&lt;h2 id="写在最后技术没有门槛应用才有"&gt;&lt;a href="#%e5%86%99%e5%9c%a8%e6%9c%80%e5%90%8e%e6%8a%80%e6%9c%af%e6%b2%a1%e6%9c%89%e9%97%a8%e6%a7%9b%e5%ba%94%e7%94%a8%e6%89%8d%e6%9c%89" class="header-anchor"&gt;&lt;/a&gt;写在最后：技术没有门槛，应用才有
&lt;/h2&gt;&lt;p&gt;Seeduplex 发布后，有个评论很有意思：&amp;ldquo;技术很牛，但跟我有什么关系？&amp;rdquo;&lt;/p&gt;
&lt;p&gt;这话说对了一半。&lt;/p&gt;
&lt;p&gt;技术本身确实没有门槛，字节能Publish，阿里能Publish，谁都能 Publish 一个全双工模型。&lt;/p&gt;
&lt;p&gt;真正的门槛是：谁能最先找到杀手级应用，谁能最先让用户觉得&amp;quot;这玩意真好用&amp;quot;，谁能最先把技术变成产品。&lt;/p&gt;
&lt;p&gt;现在这 5 个场景，已经有企业在悄悄布局了。&lt;/p&gt;
&lt;p&gt;下一个问题：&lt;/p&gt;
&lt;p&gt;你觉得哪个场景会最先爆发？&lt;/p&gt;
&lt;p&gt;是客服？教育？办公？车载？还是适老化？&lt;/p&gt;
&lt;p&gt;欢迎在评论区聊聊你的看法。&lt;/p&gt;</description></item></channel></rss>