
CogVideoX-2是什么 CogVideoX-2是智谱 AI 推出的文本到视频生成模型,基于先进的 3D …
CogVideoX-2是什么 CogVideoX-2是智谱 AI 推出的文本到视频生成模型,基于先进的 3D …
CogView-4是什么 CogView-4是智谱AI推出的文本到图像生成模型,基于 Transformer …
llmware是什么 llmware是为企业级应用设计的统一框架,适用于构建基于小型、专门化模型的RAG(Re…
FilmAgent是什么 FilmAgent是哈尔滨工业大学(深圳)的研究团队开发的基于多智能体协作框架的虚拟…
Whisper Input是什么 Whisper Input 是开源的语音输入工具,基于 Python 和 O…
Fast3R是什么 Fast3R是Meta和密歇根大学的研究人员提出的新型的多视图3D重建方法,基于Trans…
Tarsier2是什么 Tarsier2是字节跳动推出的先进的大规模视觉语言模型(LVLM),生成详细且准确的…
VideoLLaMA3是什么 VideoLLaMA3 是阿里巴巴开源的前沿多模态基础模型,专注于图像和视频理解…
Baichuan-Omni-1.5是什么 Baichuan-Omni-1.5是百川智能开源的全模态模型。支持文…
TeleAI-t1-preview是什么 TeleAI-t1-preview是中国电信人工智能研究院发布的“复…