moshivis

Name: moshivis
Rating: 1.101 (202 reviews)
Author: Open Source Community

202

Python

MoshiVis is a Vision Speech Model that enables natural conversations about images while maintaining low latency. It builds on the Moshi speech-text model and adds visual discussion capabilities with a cross-attention mechanism.

项目信息

创建于 3/20/2025

更新于 7/1/2025

分类

conversational-assistant

speech-technology

ai-content-generation

moshivis

项目描述

项目信息

分类

标签