홈 그래픽 카드도 사용할 수 있습니다! Alibaba Wanxiang 비디오 생성 모델 오픈 소스
On February 25, Alibaba Cloud's visual generation base model Wanxian 2.1 (Wan) announced open source. This open source adopts the loosest Apache 2.0 protocol, and all the inference codes and weights of the two parameter specifications of 14B and 1.3B are open source. At the same time, they support Wensheng Video and Tusheng Video tasks. Global developers can download and experience them in Github, HuggingFace and Mopai communities.
보고서에 따르면, 14 억 백만 단계 모델은 교육 규정 준수, 복잡한 모션 생성, 물리적 모델링, 텍스트 비디오 생성 등의 성능을 발휘합니다. 권위있는 평가 세트 vbench에서 Wanxian 2.1은 SORA, LUMA, PIKA와 같은 국내 및 외국 모델을 총 86.22%로 크게 능가했으며, 1 위를 차지했습니다. 1.3B 버전의 테스트 결과는 더 큰 오픈 소스 모델을 초과 할뿐만 아니라 일부 폐쇄 된 소스 모델에 가깝습니다.
Wanxiang 2.1은 vbench 목록에서 총 86.22%로 1 위를 차지했습니다.
알고리즘 설계 측면에서 Wanxian은 주류 DIT 아키텍처 및 선형 노이즈 궤적 흐름 패러다임을 기반으로 효율적인 인과 관계 3D VAE, 확장 가능한 사전 훈련 전략 등을 개발했습니다. 3D VAE를 예로 들어 모든 길이의 비디오의 인코딩 및 디코딩을 효율적으로 지원하기 위해 3D VAE의 인과 적 컨볼 루션 모듈에서 기능 캐시 메커니즘을 구현하여 긴 비디오의 엔드 투 엔드 인코딩 및 디코딩 프로세스를 대체하고 효율적인 엔드-엔드 인코딩 및 디코딩 과정을 구현하고 Infinitentlity Long 108P 비디오의 효율적인 인코딩 및 디코딩을 구현합니다. 또한 공간 다운 샘플링 압축을 미리 도입함으로써 추론 메모리 사용량은 성능을 잃지 않고 29% 더 줄어 듭니다.
Wanxiang 팀의 실험 결과는 모션 품질, 시각적 품질, 스타일 및 다목적 테스트를 포함한 14 가지 주요 차원에서 모든 업계 최고의 성능을 달성하고 5 번의 우승을 차지한 것으로 나타났습니다. 특히 복잡한 움직임과 물리 법칙의 성능에서 성능은 크게 향상되었습니다.
예제 생성 디스플레이 :
프롬프트 : 스포츠 사진 스타일, 라이더는 현장 장애물 코스 중에 장애물을 통해 말을 안내합니다. 라이더는 전문적인 경쟁 유니폼을 입고 그의 표현은 집에 집중되어 있으며, 그의 다리는 말과 완벽하게 협력합니다. 말은 일관되고 정확한 움직임으로 공중으로 뛰어 들어 각 장애물을 통해 4 개의 발굽이 속도와 균형을 유지했습니다. 배경은 자연스러운 잔디와 푸른 하늘이며 그림은 역동적이고 긴장으로 가득합니다. 4K, 고화질 이미지 품질, 완전한 동작.
프롬프트 : 스포츠 사진 스타일, 중국 카약 선수는 패들이있는 난류 전류에서 빠르게 패들로, 장애물 후의 장애물을 유연하게 우회합니다. 그는 명백한 근육 선과 집중적이고 확고한 표현으로 프로 스포츠웨어를 착용하고 있으며 우수한 통제 기술과 강렬한 싸움 정신을 보여줍니다. 배경은 맑은 강과 에메랄드 그린 마운틴이며, 그림은 역동적이고 활력으로 가득합니다. 완전한 동작, 4K, HD 품질.
프롬프트 : 속도의 POV 카메라, 카메라는 햇볕에 중국 시골 길을 통과하는 카메라가 갤럽하며, 카메라는 캐주얼 옷과 캐주얼 한 신발을 타고 중국 여성 뒤에 밀접하게 팔로워서 팔이 똑바로 퍼지고 바람이 머리와 옷을 날려 버립니다.
Southern+Reporter Ye Dan 니모닉 크래킹