在前文中,我們已經介紹了阿里雲通義家族的整體架構,以及作為核心語言模型的通義千問,說明其如何在文字理解、推理與企業應用場景中發揮關鍵角色。然而,生成式 AI 的應用並不僅止於文字。隨著企業對影像、影片與多媒體內容的需求日益增加,AI 能否有效理解並生成視覺內容,也逐漸成為下一個重要關鍵。

家族中的創意感官:從文字走向視覺

如果說通義千問扮演的是家族中的理性大腦,負責文字理解、邏輯推理與決策支援,那麼通義萬相(Wan),則更像是家族中的「創意感官」,讓 AI 開始具備理解並生成視覺內容的能力。

面對影像與影片這類高度視覺化、情境化的內容,AI 不僅需要辨識畫面中的物件與元素,更必須理解其背後的語意、關係與創作意圖。通義萬相正是以此為核心設計,將生成式 AI 的能力,從語言延伸至影像與影片,讓 AI 不只停留在看得懂,而是真正能做得出來。

這樣的能力轉變,使得 AI 得以從輔助分析工具,進一步參與企業的內容產製與創作流程,成為推動影像、影音與多媒體應用的重要基礎,也讓通義家族的整體 AI 能力,從理解與推理,走向更完整的多模態生成。

三大視覺化作業核心能力

而對企業來說,視覺生成的核心價值,在於精準解決從素材產出到優化繁瑣內容作業流程。例如,如何快速產出多版素材、如何把既有圖片改成符合活動主視覺的版本、如何替換商品或文案但保持整體風格一致,以及如何把靜態畫面延伸成更具表現力的動態內容。

通義萬相正是圍繞這些需求打造,並可歸納為三大核心方向:
1. 圖片生成——用更低門檻的方式快速產出可用的視覺化素材
2. 圖片編輯——讓素材能依修改進行反覆修改及優化
3. 影片生成——讓內容從靜態走向動態,支援更豐富的內容呈現與應用場景
以下將依此順序展開介紹。

圖片生成:突破想像,精準設計

通義萬相的圖片生成能力,可依照文字描述或視覺需求,快速產出具備實際應用價值的專業級圖片,協助企業在內容製作初期,就建立出可直接使用的視覺素材。例如:廣告公司針對品牌廣告提案時,可使用 AI 快速生成具備創意概念的圖片,快速讓品牌方理解創意概念,而非受限於傳統設計流程的冗長等待與高額成本。

重點特色

  1. 指令理解力高,生成結果更貼近實際需求
    能準確理解指令中的情境、構圖與風格設定,將抽象描述轉化為具體畫面,減少反覆調整提示詞所需的時間與成本。
  2. 專業級視覺品質,兼顧寫實與多元風格表現
    在光影、材質與畫面層次上具備良好表現,可產出接近實拍質感的圖片,同時支援多樣化藝術風格與品牌視覺需求。
  3. 高效率多樣產出,支援各式內容製作情境
    能快速生成多種版本的視覺素材,包含圖文整合設計與專業圖表等內容,協助企業提升素材製作效率,加速內容更新。

運用文字生成的具現代感的人物圖像

可調整圖片大小(size)、圖片生成數量 (n)、隨機數(seed) 生成更多樣的圖片

圖片編輯:多樣風格,精準切換

通義萬相的圖片編輯能力,讓企業不必每次都重新生成素材,而是能在既有畫面的基礎上,依實際需求進行精準調整與優化,讓 AI 成為能與團隊協作的內容製作輔助工具。在電商業者中,若遇到節慶,需大量產製相關的行銷廣告素材,此時通義萬相,可依照風格化與情境切換,避免重新拍攝,例如:端午節慶家家要買烤肉醬,那電商團隊僅需提供一高品質的產品原圖,以對話式指令編輯圖片:「請將烤肉醬放在一群朋友在河堤烤肉的熱鬧情境中」,即可得到一行銷廣告素材,無須進行拍攝。

重點特色

  1. 對話式指令編輯,支援精準修改與多次調整
    可透過自然語言下指令調整畫面內容,支援多次修改與細節微調,減少反覆重做素材所耗費的時間與成本。
  2. 精準編輯,滿足專業修圖需求
    能針對畫面中特定區域進行細節調整與內容修改,確保編輯結果符合專業級視覺品質,適用於產品圖片、行銷素材與設計應用。
  3. 多圖參考與高度一致性呈現
    可上傳最多4張圖片作為參考,維持角色、風格與視覺元素的一致性,讓不同素材與版本之間,仍能維持穩定的視覺表現。

以下示範,使用通義萬相將兩張圖片的生成新圖片,並編輯照片細節。

  • Step1:下精準的 prompt –「請將兩張圖片結合,背景放第二張有花及陽光的照片,將撐傘藍色小精靈融入於第二張圖片中,並將藍色小精靈的表情改為微笑。圖片色調請以第二張為主」 

  • Step2:完成

影片生成:影音同步,質感升級

通義萬相的影片生成能力,支援文字、圖片與聲音等多種輸入形式,讓企業能以更直覺的方式產出具備一致風格與流暢動態的影片內容,並可實際應用於行銷、展示與多媒體溝通的情境。企業在製作單一產品的短影音,需經過腳本撰寫、配音錄製、素材拍攝/設計、影片剪輯等環節,流程複雜且耗時。要同步應對多達十幾種語言和不同的地區文化風格,製作成本與時間壓力極高。然而,通義萬相的影片生成能力正是為了解決這些挑戰,讓企業能以更直覺、高效率的方式,突破內容產製的瓶頸,實現影音內容的規模化與在地化。

重點特色

  1. 多模態輸入,影片生成更有彈性
    可根據文字描述生成影片,也能以圖片作為基礎,進一步製作成動畫效果,並可輸入音軌同步進行影片產出,讓影片製作不再受限於單一素材形式。
  2. 影音同步生成,強化內容表現力
    支援將旁白或聲音內容與影片同步製作,呈現出自然的畫面節奏與聲音表現,適合用於產品介紹、教學說明與宣傳影片等場景。
  3. 電影級品質,確保穩定呈現
    在動態表現與畫面結構上具備良好穩定度,可產出高解析度的影片內容,確保角色、風格與畫面氛圍的一致性,滿足企業對專業影片品質的基本需求。

以下將展示通義萬相,利用文字指令,生成一隻高品質的動畫廣告片。

  • Step1:運用文字生成的可愛動畫,Prompt:「一隻可愛的動畫河馬在現代辦公室裡泡咖啡。河馬有圓潤柔軟的身體、大眼睛和溫暖的微笑,穿著休閒但帶有職場感的服裝(例如格紋襯衫或針織背心)。場景為明亮溫暖的辦公環境中」
  • Step2:可依照文字產出高品質的影片,藉由側邊欄位進行解析度、畫面大小、影片時長、隨機數、鏡頭角度、音訊生成等調整,增加影片完整性

*智慧擴寫:開啟後,大模型會評估目前的Prompt進行改寫,可彌補Prompt過短而生成效果不佳的問題

  • Step3:成品展現

通義萬相的能力演進:Wan 2.6的核心強化

於 2025 年底,阿里雲正式推出最新的 Wan 2.6 版本,其視覺生成能力已從早期著重生成效果,進一步演進為更強調穩定性、一致性與實際可用性的成熟階段。隨著企業對圖片、編輯與影片等視覺應用需求日益提高,通義萬相也持續針對內容製作流程中的實務痛點進行優化,使 AI 生成結果能更順利地被納入實際工作流程中使用。

Wan 2.6 的關鍵特色

基於最新一代模型架構,Wan 2.6 在影片生成能力上,聚焦於參考一致性、音畫整合與敘事表現等關鍵面向,以下為其核心強化重點:

  • 多模態參考影片生成
    支援文字、圖片與音訊等多種輸入形式,並可透過短影片或角色參考,準確複製人物、動物或物件的外觀與聲音特徵,確保影片在生成過程中維持高度一致的視覺與聲音表現。
  • 原生影音同步產出
    強化聲音與畫面的同步能力,支援多角色對話、旁白與音樂表現,使影片在敘事節奏、聲音質感與畫面動態上更加自然一致,提升整體觀賞體驗。
  • 智慧多鏡頭敘事能力
    能理解自然語言或鏡頭導向的指令,自動規劃多個鏡頭與畫面段落,在無需手動剪輯的情況下,維持角色、風格與故事脈絡的一致性。
  • 高品質長時影片輸出
    支援長達 15 秒鐘的 1080P 影片生成,在畫面細節、動態流暢度與整體美術表現上皆有提升,適用於行銷、品牌內容與專業影音應用。

阿里雲 Wan 2.6官方宣傳影片

Wan 2.5 與 Wan2.6 的主要差別

功能 Wan 2.5 Wan 2.6
支援參考影片 有限 支援完整影片參考,可維持角色身分與聲音一致性
多角色互動演出 較不穩定 穩定支援多角色互動與演出
影音同步能力 一般 自然、真實的影音同步產出
音質 標準 大幅提升真實感與音樂品質
多鏡頭敘述能力 有限 智慧鏡頭編排,並維持敘事一致性
指令遵循能力 中等 更強大且精準的遵循能力
最長影片長度 10秒 15秒
影片解析度 480P、720P、1080P 720P、1080P

 

通義萬相,為企業拓展AI視覺新饗宴

整體來看,通義萬相並非單一模型或單點功能,而是一套包含圖片生成、圖片編輯與影片生成的完整視覺生成能力體系。透過持續的模型演進與能力整合,通義萬相正逐步將生成式 AI 從輔助創作工具,推進為能實際支撐企業內容製作流程的核心技術。隨著最新版本 Wan 2.6 的推出,通義萬相在穩定性、一致性與影音品質等關鍵面向已達到更成熟的水準,進一步驗證其在企業視覺應用場景中的可行性與實用性。這也使企業能更安心地將 AI 視覺生成導入行銷、品牌、多媒體內容與內部溝通等實際應用中。

身為阿里雲專業合作夥伴,宏庭科技擁有豐富的阿里雲服務經驗,結合阿里雲強大的產品能力及技術支援,從需求評估、技術規劃到環境建置皆可提供完整支援,確保您的專案能獲得最高品質的支援與維護,從而專注於業務創新。

立即聯繫宏庭科技,獲取通義萬相專業諮詢

立即聯繫宏庭科技!