chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

羅永浩數(shù)字人刷屏背后,文心大模型成為直播行業(yè)的“劇本總導演”

腦極體 ? 來源:腦極體 ? 作者:腦極體 ? 2025-06-19 09:42 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

wKgZPGhSsWeAF1IDAAhs5qhiAA0137.jpg

《日常生活中的自我呈現(xiàn)》一書中,歐文?戈夫曼將戲劇表演引入社會學。他提出,人們在日?;永铮瑫勒疹A(yù)設(shè)的“劇本”(即社會規(guī)范),借助行為管理進行表演,在他人心中留下良好印象。

按照這個理論,數(shù)字人直播總被吐槽,原因就是數(shù)字人的演技太差,無法呈現(xiàn)出真人主播一樣的觀感,表情僵硬、手勢不自然,無法給大眾留下好印象。

就在最近,數(shù)字人主播界突然出現(xiàn)了一位演技實力派——羅永浩。羅永浩數(shù)字人在百度電商的首場直播,以長達連續(xù)近7小時的高強度直播,實時解答彈幕問題,動輒輸出“羅式段子”,還與助播朱蕭木互相拋梗接梗,刷新了大眾心中數(shù)字人的觀感。

甚至有人問老羅,“是不是你在扮演數(shù)字人”,簡直倒反天罡。

wKgZO2hSsWiAEmaOAAkuJaKrGvA805.jpg

難辨真假、技驚四座的羅永浩數(shù)字人,到底是怎么實現(xiàn)的?6月17日的百度AI開放日慧播星專場現(xiàn)場,百度集團副總裁吳甜,揭秘了羅永浩數(shù)字人背后的技術(shù)秘密。最關(guān)鍵的就是,基于文心大模型4.5T的“劇本”生成與多模協(xié)同。

618硝煙正燃,而一場以AI大模型為核心驅(qū)動的電商效率革命,正拉開序幕。

wKgZPGhSsWiABtxPAAGrEKxLdYQ699.jpg

大家有沒有這樣的經(jīng)歷:

評論區(qū)的彈幕太多,留言總是得不到主播的回復(fù);

想看直播,但真人主播已經(jīng)下班了,錯過了專屬紅包和優(yōu)惠;

自己直播帶貨,但一面對鏡頭就緊張,直播效果不盡如人意;

等頭部主播來助農(nóng)直播,還得看對方的差旅安排和時間調(diào)配……

數(shù)字人被視為解決人力局限、實現(xiàn)全天候直播的理想方案。然而,以往的數(shù)字人一直無法惟妙惟肖地飾演真人主播,槽點主要集中在幾個方面:

演得不像。數(shù)字人的表情、手勢與肢體細節(jié)與文案對不上,產(chǎn)生“恐怖谷”效應(yīng),讓觀眾感到詭異。

缺少互動。傳統(tǒng)數(shù)字人面對超出預(yù)設(shè)范圍的問題,無法像真人主播那樣靈活應(yīng)對,只能唱“獨角戲”,讓觀眾喪失了參與直播的積極性與體驗感。

時長不夠。很多數(shù)字人只能將短視頻循環(huán)播放,難以支撐長時間且一致的內(nèi)容生成與交互需求,低質(zhì)量內(nèi)容不僅影響用戶體驗,還可能被平臺限流甚至處罰。

行為不可控。數(shù)字人一旦出現(xiàn)失誤,不僅會損害品牌形象,還可能引發(fā)輿論危機,這也是許多頭部主播和品牌對數(shù)字人直播持謹慎態(tài)度的重要原因。

數(shù)字人扮演真人主播,需要跨越重重技術(shù)挑戰(zhàn)。那百度電商直播間的羅永浩,又憑啥成為直播“實力派”?

wKgZPGhSsWmAaI0kAAGvfT9I6Tk725.jpg

6月15日羅永浩數(shù)字人在百度電商,完成了數(shù)字人主播的極限挑戰(zhàn),做到了不少業(yè)內(nèi)首個。

業(yè)內(nèi)首個超級頭部主播數(shù)字人直播。羅永浩的粉絲特別多,對真人主播的風格十分熟悉,需要數(shù)字人有極高的還原度。數(shù)字人羅永浩在直播間妙語連珠,與觀眾高頻互動,舉手投足間散發(fā)著熟悉的羅氏魅力。

wKgZO2hSsWmAYVv1AAE05tVkdn0229.jpg

業(yè)內(nèi)首個超六小時超頭部主播數(shù)字人直播,突破了AI視頻生成極限時間,生成的產(chǎn)品講解內(nèi)容就多達9.7萬字。

業(yè)內(nèi)首個多數(shù)字人直播,雙人配合,告別了一個數(shù)字人尬聊的局面。羅永浩和朱蕭木的搭檔,高度還原了真實主播與助播的直播狀態(tài)。兩個數(shù)字人主播能做出喝奶茶、拎可樂等細節(jié)動作,還實現(xiàn)了與直播間用戶彈幕的實時互動。

這一系列操作下來,刷新了不少人對數(shù)字人的固有印象。而羅永浩數(shù)字人的誕生,只用了幾個月的時間,究竟是如何習得媲美真人的“直播神技”?我們扒開了數(shù)字人背后的一整個大模型“導師團”。

wKgZPGhSsWqAZyg1AAHEk5b1aKw408.jpg

一場精彩的數(shù)字人直播,絕非單一技能的炫技。想象一下,如果數(shù)字人語言表達生動流暢,卻搭配著僵硬機械的表情和動作,或是語音語調(diào)平淡乏味,如同 “讀稿機器”。這正是傳統(tǒng)數(shù)字人技術(shù)的痛點:語言依賴臺詞模型,語音靠TTS 合成,表情肢體等視覺表現(xiàn)由視頻合成,各模態(tài)模型“各自為政”。數(shù)字人的臺詞、表情、動作完全不在一個節(jié)奏上,觀眾瞬間就會“出戲”。

作為業(yè)內(nèi)首個多模高度融合數(shù)字人,羅永浩數(shù)字人的出色表現(xiàn),正是得益于百度多模協(xié)同的數(shù)字人技術(shù)。

wKgZO2hSsWqAFb8ZAAErDCQZKqg741.jpg

按照歐文?戈夫曼的理論,“劇本”是戲劇表演的核心,演員需依劇本塑造符合期待的形象。數(shù)字人領(lǐng)域,“劇本”同樣是關(guān)鍵所在。

擁有一個高質(zhì)量的劇本,就如同數(shù)字人有了總指揮,讓語言、語音、視覺等不同模態(tài)圍繞劇本,彼此協(xié)同配合,才能讓數(shù)字人在直播中展現(xiàn)出渾然天成的表現(xiàn)力。

以數(shù)字人羅永浩為例,背后就有一個文心大模型的“導師團”進行助力:

首先,是基于大語言模型的劇本生成。

生成劇本的文心大模型,相當于總導演兼總編劇,通過臺詞,為數(shù)字人賦予生動鮮活的“靈魂”。拿羅永浩數(shù)字人來說,文心大模型4.5T需要攻克以下關(guān)鍵難題。其一,風格定制。羅永浩犀利幽默、朱蕭木風趣灑脫,每位主播都有獨特的語言風格,文心大模型通過風格建模,深度學習主播們的語言習慣、表達方式,從遣詞造句到語氣節(jié)奏,全方位貼合主播個人風格進行定制,在模型生成的臺詞中精準復(fù)現(xiàn),讓數(shù)字人開口自帶主播“味道”。

wKgZPGhSsWuANcCGAD39gqDbBCg529.jpg

除了語言風格,人設(shè)一致也是數(shù)字人獲得觀眾認可的關(guān)鍵。特別是在多角色配合時,羅永浩作為主咖,朱蕭木作為助播,文心大模型在生成劇本時,精準把握二人特點與分工,使臺詞在語言上自然附和、緊密配合。比如在產(chǎn)品推薦環(huán)節(jié),主播重點介紹核心賣點,助播適時補充細節(jié)、引導互動,一問一答、一唱一和,展現(xiàn)出符合人設(shè)的行為與語言邏輯。

在文心大模型 4.5T的精心雕琢下,生成了既有真人溫度,高度還原主播個人特色,又有網(wǎng)感,能將商品賣點生動展現(xiàn)的直播劇本。

接下來,就是“劇本圍讀”,讓多模態(tài)系統(tǒng)基于劇本,進行信息對齊。

語音大模型作為口語導師,視覺大模型作為動作導師,先根據(jù)大語言模型生成的語音標簽和視覺標簽,然后生成協(xié)調(diào)一致的語音和表情動作,賦予數(shù)字人影帝、影后般的表現(xiàn)力。

這個過程的難點,是多個模型的對齊。想象一下,如果語音模型理解的臺詞情感激昂,而視覺模型呈現(xiàn)的卻是平淡表情,數(shù)字人就會“表里不一”,讓觀眾倍感違和。百度AI數(shù)字人,以大模型生成的劇本為統(tǒng)一標尺,確保從臺詞到語音、從表情到動作,各環(huán)節(jié)的理解與執(zhí)行步調(diào)一致。

wKgZO2hSsWyAPFlZAHyQopZ6204371.jpg

比如羅永浩與助播數(shù)字人之間,會出現(xiàn)頻繁的打斷說、同時說,需要語音合成系統(tǒng)精準捕捉對話節(jié)奏。百度通過加入對話上下文解碼器,整合歷史對話與當前信息,讓數(shù)字人在互動時的語音銜接自然流暢,重現(xiàn)真人搭檔的默契感。

同時還建立了反向?qū)R的反饋機制,也就是語音模型合成后,會基于自身對文本的細粒度判斷進行優(yōu)化,再將這些信息反饋給視覺模型,實現(xiàn)音畫間的精準匹配,形成一個閉環(huán)的協(xié)同體系。

通過多模系統(tǒng)的“劇本圍讀”,可以在劇本指引下,完成聲臺行表的默契配合,讓數(shù)字人在直播鏡頭前展現(xiàn)出媲美真人的表現(xiàn)力,為觀眾帶來沉浸式的觀看體驗。

六七個小時的直播,數(shù)字人只能對著劇本“照本宣科”嗎?為什么數(shù)字人羅永浩還能在直播間跟用戶實時互動呢?這就要提到第三個關(guān)鍵能力:臨場發(fā)揮的靈活性與可控性。

據(jù)吳甜介紹,數(shù)字人直播就像拍電影,演員的表演并不是照本宣科,要有對劇本的理解和臨場發(fā)揮。

其中,劇本作為核心,確保數(shù)字人行為邏輯的一致性,而文心大模型則賦予其應(yīng)對復(fù)雜場景的“應(yīng)變力”和長時間的可控性。

在時長如馬拉松式的直播中,現(xiàn)實場景的復(fù)雜性遠超想象。用戶突如其來的刁鉆提問,直播間場景內(nèi)人物、商品、環(huán)境的自由交互,都暗藏著不可控因素。讓數(shù)字人在復(fù)雜交互場景中也能游刃有余,文心大模型是這場技術(shù)突圍的“智慧中樞”。

wKgZPGhSsW6AZE-vAABPGQXzM1o223.jpg

一方面,依托大模型的語言理解與生成能力,結(jié)合直播場景的高頻需求進行針對性訓練,賦予數(shù)字人實時理解用戶意圖的“洞察力”。在羅永浩數(shù)字人直播中,AI知識庫1.3萬次的調(diào)用,9.7萬字的內(nèi)容生成,正是文心大模型強大創(chuàng)造能力的直觀體現(xiàn)。

另一方面,依托文心大模型4.5T的深度思考能力,在劇本生成時先進行規(guī)劃和思考,搜索最優(yōu)路徑,再通過評價和評估,提升最終的可控性。

當數(shù)字人在直播間自如切換講解模式、巧妙化解突發(fā)提問,與用戶深度互動,背后正是多文心大模型在持續(xù)穩(wěn)定地發(fā)揮作用,為數(shù)字人直播行業(yè)開辟出長時、靈活、可控、優(yōu)質(zhì)的全新賽道。

總結(jié)一下,羅永浩數(shù)字人直播的成功,離不開百度大模型技術(shù)體系的托舉,也是百度大模型技術(shù)實力的具象化呈現(xiàn)。

wKgZO2hSsW-AK04MAAHYdYMYv0o735.jpg

歐文?戈夫曼的“擬劇理論”成為社會學經(jīng)典,在于其揭露了社會協(xié)作的基礎(chǔ)——每個人依據(jù)劇本扮演良好形象,教師扮演好傳道授業(yè)的角色,醫(yī)生恪守救死扶傷的職責,整個社會才能有序運轉(zhuǎn)。

當直播行業(yè)走過野蠻生長的黃金期,流量紅利消退,主播需要扮演什么樣的角色呢?或許是專業(yè)導購,能夠?qū)Ξa(chǎn)品細節(jié)和專業(yè)知識娓娓道來;是貼心客服,及時響應(yīng)用戶的每一個疑問;是知心朋友,在用戶需要的時候提供全天候陪伴……這樣才能與觀眾建立信任紐帶,走向高質(zhì)量發(fā)展。

專業(yè)且敬業(yè)的真人主播,培養(yǎng)不易,開播成本也是中小商家所無力負擔的。這時候,AI數(shù)字人的技術(shù)革命,成為打破直播效率困局的關(guān)鍵。

在大廠紛紛布局數(shù)字人,競爭白熱化的背景下,百度依然憑借AI技術(shù)優(yōu)勢,構(gòu)建起數(shù)字人的差異化能力:

wKgZPGhSsW-ATvqwAAJDKjWhIT4783.jpg

一是先進。百度數(shù)字人直播的技術(shù)能力如劇本生成、多模驅(qū)動、一致性和高擬真性等,是業(yè)界天花板。對數(shù)字人技術(shù)要求苛刻的超級頭部主播來說,選擇百度數(shù)字人放大IP價值,用自身的專業(yè)能力24小時服務(wù)用戶。

二是專精。當部分企業(yè)投入海量資源研發(fā)通用型視頻生成技術(shù)時,百度深耕數(shù)字人直播場景,推出的慧播星數(shù)字人系統(tǒng)已服務(wù)超10萬商家,覆蓋32個垂直行業(yè)。對中小商家來說,通過百度數(shù)字人可以輕松開播,品嘗到AI技術(shù)帶來的增長紅利。

三是性價比。借助百度AI技術(shù),品牌商家可獲得“人貨場”的全面助力,除了數(shù)字人,還可以利用AI技術(shù)對商品進行深度分析和理解,實現(xiàn)商品的智能管理和精準營銷。提升收益的同時,百度數(shù)字人的綜合成本比真人主播要低,而且隨著開播的場次越多,它的邊際收益越高,未來數(shù)字人的生產(chǎn)制作成本還會進一步的下降。

這場從流量爭奪到技術(shù)深耕的變革,正在重新定義直播行業(yè)的未來。當數(shù)字人頂流登上直播舞臺,百度AI驅(qū)動的直播下半場,也是智能電商的新篇章。

wKgZO2hSsXCAJEuQAAG_4nQnQHc107.jpg

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    40908

    瀏覽量

    302489
  • 數(shù)字人
    +關(guān)注

    關(guān)注

    0

    文章

    160

    瀏覽量

    2587
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3746

    瀏覽量

    5268
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    海光DCU Day0適配百度ERNIE-Image文生圖模型

      今天,百度模型團隊發(fā)布ERNIE-Image文生圖模型,海光DCU同步完成Day0適配與深度調(diào)優(yōu)。全球開發(fā)者、科研機構(gòu)和企業(yè)現(xiàn)可免費在光合開發(fā)者社區(qū)下載
    的頭像 發(fā)表于 04-15 15:47 ?128次閱讀

    百度衍生模型PaddleOCR登頂GitHub Star OCR全球第一

    3月30日,百度衍生模型PaddleOCR在GitHub上的Star數(shù)突破73.3K,超越谷歌Tesseract OCR,成為全球Star數(shù)最高的OCR項目。
    的頭像 發(fā)表于 03-31 11:40 ?408次閱讀

    百度模型5.0正式版上線

    今天,在百度Moment大會現(xiàn)場,模型5.0正式版上線。
    的頭像 發(fā)表于 01-23 16:48 ?1448次閱讀

    百度模型5.0 Preview榮登LMArena文本榜國內(nèi)第一

    12月23日,LMArena大模型競技場發(fā)布最新排名,模型ERNIE-5.0-Preview-1203以1451分登上LMArena文本榜,排名國內(nèi)第一該
    的頭像 發(fā)表于 12-23 15:02 ?653次閱讀

    百度模型5.0-Preview文本能力國內(nèi)第一

    11月8日凌晨,LMArena大模型競技場最新排名顯示,全新模型ERNIE-5.0-Preview-1022登上文本排行榜全球并列第二、中國第一該
    的頭像 發(fā)表于 11-11 17:15 ?1627次閱讀

    百度模型X1.1正式發(fā)布

    今天,在WAVE SUMMIT深度學習開發(fā)者大會2025上,模型X1.1正式發(fā)布,在事實性、指令遵循、智能體等能力上均提升顯著。
    的頭像 發(fā)表于 09-10 11:08 ?2291次閱讀

    中興努比亞啟動接入百度4.5系列開源大模型

    近日,中興努比亞啟動接入4.5系列開源大模型,為星云智能提供新引擎,共同推動人工智能在AI手機的創(chuàng)新應(yīng)用,加速AI技術(shù)落地,進一步提升用戶AI體驗。
    的頭像 發(fā)表于 07-15 09:35 ?1157次閱讀

    寧暢與與百度模型展開深度技術(shù)合作

    近日,百度正式開源模型4.5系列模型。作為開源合作伙伴,寧暢在
    的頭像 發(fā)表于 07-07 16:26 ?988次閱讀

    黑芝麻智能與模型技術(shù)合作升級

    近日,模型正式開源,黑芝麻智能即日起快速啟動與模型技術(shù)合作。
    的頭像 發(fā)表于 07-04 17:24 ?1507次閱讀
    黑芝麻智能與<b class='flag-5'>文</b><b class='flag-5'>心</b>大<b class='flag-5'>模型</b>技術(shù)合作升級

    龍芯中科與心系列模型開展深度技術(shù)合作

    ? ? ? ? ? 6月30日,4.5系列模型正式開源。龍芯中科在模型開源首日啟動技術(shù)
    的頭像 發(fā)表于 07-02 16:53 ?1461次閱讀

    兆芯率先展開心系列模型深度技術(shù)合作

    6月30日,百度正式開源模型4.5系列等10款模型,并實現(xiàn)預(yù)訓練權(quán)重和推理代碼的完全開源,兆芯率先與心系列
    的頭像 發(fā)表于 07-01 10:49 ?1062次閱讀

    百度模型X1 Turbo獲得信通院當前大模型最高評級證書

    ,16項達5分,綜合評級獲當前最高級“4+級”, 成為國內(nèi)首款通過該測評的大模型X1 Turbo邏輯推理、代碼推理、推理效果優(yōu)化等技術(shù)能力及工具支持度、安全可靠度等應(yīng)用能力均獲
    的頭像 發(fā)表于 05-21 18:19 ?1372次閱讀
    百度<b class='flag-5'>文</b><b class='flag-5'>心</b>大<b class='flag-5'>模型</b>X1 Turbo獲得信通院當前大<b class='flag-5'>模型</b>最高評級證書

    直播預(yù)約 | 數(shù)據(jù)智能系列講座第6期:大模型革命背后的算力架構(gòu)創(chuàng)新

    鷺島論壇數(shù)據(jù)智能系列講座第6期「大模型革命背后的算力架構(gòu)創(chuàng)新」/RVEI并行計算工作組(SIG-PP)技術(shù)沙龍/5月21日(周三)20:00精彩開播期待與您云相聚,共襄學術(shù)盛宴!|直播信息報告題目
    的頭像 發(fā)表于 05-12 14:05 ?704次閱讀
    <b class='flag-5'>直播</b>預(yù)約 | 數(shù)據(jù)智能系列講座第6期:大<b class='flag-5'>模型</b>革命<b class='flag-5'>背后</b>的算力架構(gòu)創(chuàng)新

    百度發(fā)布4.5 Turbo、X1 Turbo和多款A(yù)I應(yīng)用

    近日,Create2025百度AI開發(fā)者大會在武漢舉辦。百度創(chuàng)始李彥宏發(fā)布了模型4.5 Turbo及深度思考模型X1 Turbo兩大
    的頭像 發(fā)表于 04-30 10:16 ?1291次閱讀

    商湯科技助力如影數(shù)字超級直播間全新升級

    作為數(shù)字行業(yè)首創(chuàng),如影數(shù)字超級直播間可實現(xiàn)多模態(tài)智能運營,依托“商湯日日新SenseNov
    的頭像 發(fā)表于 04-23 16:31 ?1078次閱讀