這真的在正確地進行長時間的口型同步和編輯生成,還是這是多個模型的結果?