CogVideoX-2 – 智谱 AI 推出的文本到视频生成模型

CogVideoX-2是什么 CogVideoX-2是智谱 AI 推出的文本到视频生成模型，基于先进的 3D …

CogView-4 – 智谱AI推出的文本到图像生成模型

CogView-4是什么 CogView-4是智谱AI推出的文本到图像生成模型，基于 Transformer …

llmware是什么 llmware是为企业级应用设计的统一框架，适用于构建基于小型、专门化模型的RAG（Re…

FilmAgent是什么 FilmAgent是哈尔滨工业大学（深圳）的研究团队开发的基于多智能体协作框架的虚拟…

Whisper Input是什么 Whisper Input 是开源的语音输入工具，基于 Python 和 O…

Fast3R是什么 Fast3R是Meta和密歇根大学的研究人员提出的新型的多视图3D重建方法，基于Trans…

Tarsier2是什么 Tarsier2是字节跳动推出的先进的大规模视觉语言模型（LVLM），生成详细且准确的…

VideoLLaMA3是什么 VideoLLaMA3 是阿里巴巴开源的前沿多模态基础模型，专注于图像和视频理解…

Baichuan-Omni-1.5是什么 Baichuan-Omni-1.5是百川智能开源的全模态模型。支持文…

TeleAI-t1-preview是什么 TeleAI-t1-preview是中国电信人工智能研究院发布的“复…