テキストtoビデオ + ネイティブ音声生成
テキストプロンプトから直接、セリフ・環境音・フォーリー効果付きの5-8秒同期ビデオを生成。7言語(英語、北京語、広東語、日本語、韓国語、ドイツ語、フランス語)の音素レベルリップシンク——最初のフレームから完璧に同期。

Happy Horse 1.0とは?
Happy Horse 1.0は画期的なオープンソースSOTA(最先端)AIビデオ生成モデルです。15Bパラメータの統一Transformerアーキテクチャで、テキストtoビデオ、画像toビデオ、ネイティブ音声生成をサポート——H100 GPUで5秒256pビデオを約2秒、1080pを約38秒で生成。完全オープンソースでカスタム微調整に対応。
オープンソースSOTA AIビデオモデル:15B統一Transformer、テキストtoビデオ + 画像toビデオ + ネイティブ音声、8ステップ推論、完全なオープンソースの自由。
単一のテキストプロンプトから同期したセリフ、環境音、フォーリー効果付きの5-8秒ビデオを生成。1回のフォワードパスでビデオと音声をネイティブに同時生成。
アップロードした画像を動的ビデオに変換。強化された顔保持、物理的に正確なモーション合成、スムーズなキーフレーム遷移を実現。
DMD-2蒸留により推論は8ステップのデノイジングのみ(CFG不要)。MagiCompilerアクセラレーションでH100上で256pビデオ約2秒、1080p約38秒。
英語、北京語、広東語、日本語、韓国語、ドイツ語、フランス語でのリップシンクで業界最高のWER。自然な音声と精密な口の動き。
ベースモデル、蒸留モデル、超解像モジュール、推論コードがGitHubとModel Hubで完全オープンソース。開発者と企業が完全にカスタマイズ可能。
単一の40層self-attention Transformerがテキスト・画像・ビデオ・音声トークンを1シーケンスで処理。Sandwichアーキテクチャと32層の共有パラメータ中間層——マルチストリームの複雑さなし。
単一プロンプトから同期セリフ・環境音・多言語リップシンク付き5-8秒ビデオを生成——すべて統一15Bパラメータ Transformerで駆動。
テキストプロンプトから直接、セリフ・環境音・フォーリー効果付きの5-8秒同期ビデオを生成。7言語(英語、北京語、広東語、日本語、韓国語、ドイツ語、フランス語)の音素レベルリップシンク——最初のフレームから完璧に同期。

アップロードした画像を動的ビデオにアニメーション化。顔の保持を強化し、物理的に正確な動きを実現。製品写真からポートレートまで、滑らかなキーフレーム遷移と一貫した視覚品質。

単一の40層統一自己注意Transformerが、テキスト・画像・ビデオ・音声トークンを1シーケンスで処理——マルチストリームの複雑さなし。Sandwichアーキテクチャ:モダリティ固有層が前後、32層の共有パラメータが中央に。

ベースモデル、蒸留モデル、超解像モジュール、推論コードが100%オープンソース。自社インフラで完全カスタマイズ可能にデプロイ。
DMD-2蒸留により8ステップのデノイジングのみ——CFG不要。タイムステップフリーデノイジング、ヘッドごとのゲーティング、MagiCompilerアクセラレーションでH100上で256pビデオ約2秒、1080p約38秒。
ベースモデル、蒸留モデル、超解像モジュール、推論コードがすべてオープンソース(GitHub & Model Hub)。開発者と企業が完全にカスタマイズ、微調整、セルフホスト可能。
完全な商用利用権を含む。SOC 2準拠のエンタープライズインフラ、99.9%稼働率SLA、すべての生成ビデオにエンドツーエンド暗号化。
Sandwichアーキテクチャを採用した15Bパラメータ統一Transformer、DMD-2蒸留による8ステップ推論、MagiCompilerアクセラレーション——前例のない速度でSOTA品質を提供。
単一の40層self-attention Transformerがテキスト、画像、ビデオ、音声トークンを1シーケンスで処理——従来のマルチストリームの複雑さなし。
Latency <200ms
モダリティ固有層が前後に、32層の共有パラメータが中央に配置され、効率的なクロスモーダル理解を実現。
Streaming & batch
8ステップのデノイジングのみ、CFG不要。タイムステップフリーデノイジングとper-headゲーティングで超高速推論。
SSML & JSON flows
カスタム推論コンパイラでH100 GPU上で256p 5秒ビデオ約2秒、1080p約38秒。
Roles & audit logs
ビデオと音声が1回のフォワードパスで同時生成——セリフ、環境音、フォーリー効果、音素レベルリップシンクをネイティブに生成。
Watermarking
ベースモデル、蒸留モデル、超解像モジュール、推論コードがGitHubとModel Hubで完全公開、微調整とセルフホスティングに対応。
Regional routing
最先端の性能、超高速推論、完全なオープンソースの自由を組み合わせた開源SOTAモデル——プロフェッショナルなAIビデオ生成を誰にでも利用可能に。
Happy Horse 1.0はArtificial Analysis Video Arenaリーダーボードで急速にトップに躍り出、Seedance 2.0、Ovi 1.1、LTX 2.3などの競合を凌駕。テキストtoビデオElo ≈1336-1337、画像toビデオElo ≈1393、Ovi 1.1に対し80%、LTX 2.3に対し60.9%の勝率。
DMD-2蒸留により8ステップ推論を実現、CFG不要。MagiCompilerアクセラレーションでH100 GPU上で5秒256pビデオ約2秒、1080p約38秒——競合モデルより30%高速。
ベースモデル(15Bパラメータ)、蒸留モデル、超解像モジュール、推論コードがGitHubとModel Hubで完全オープンソース。開発者と企業は完全な自由で微調整、カスタマイズ、セルフホストが可能。
世界No.1 SOTA AI動画ジェネレーター—超高速、多言語、完全オープンソース。
約2秒で素晴らしいAI動画を作成。テキスト-動画、画像-動画をネイティブ音声同期付きで。
ジェネレーターを開く完全商用権利付きSOTA動画生成の手頃なプラン。
料金を見るHappy Horse 1.0の150億パラメータモデルがどのように卓越した結果を提供するか。
詳しく見る