머스크의 인공 지능 회사 xAI는 최초의 다중 모드 AI 모델 Grok-1.5V 출시를 발표했습니다. 강력한 텍스트 처리 기능 외에도 Grok은 문서, 차트, 스크린샷, 사진 등을 포함한 다양한 시각적 정보도 처리할 수 있습니다. 여러 분야의 벤치마크 테스트에서 Grok-1.5V의 성능은 기존의 최첨단 다중 모드 모델과 비슷합니다. 특히 xAI가 시작한 새로운 RealWorldQA 벤치마크 테스트에서 Grok은 실제 공간 이해 능력에서 유사한 모델을 능가했습니다. RealWorldQA 데이터 세트에는 700개 이상의 이미지가 포함되어 있으며 물리적 세계에 대한 다중 모드 모델의 기본 이해를 평가하도록 설계되었습니다. Grok-1.5는 곧 초기 테스터와 기존 사용자에게 제공될 예정입니다.
모든 댓글