Китайский ИИ-стартап DeepSeek представил новый мультимодальный искусственный интеллект DeepSeek-OCR, способный обрабатывать большие и сложные документы при значительно меньшем количестве токенов.
Модель использует визуальное восприятие как механизм сжатия информации. Разработка стала результатом исследования роли визуальных энкодеров для оптимизации текста в больших языковых моделях (LLM).
По данным компании, технология позволяет сократить число токенов в 7–20 раз на разных этапах обработки контекста.
«С помощью DeepSeek-OCR мы показали, что визуальное сжатие текста позволяет эффективно работать с длинными контекстами без роста вычислительных затрат», — отметили в DeepSeek.
Похожие публикации:
- DeepSeek внедрит ИИ в китайские больницы
- Bitmain хочет зарабатывать на искусственном интеллекте
- Сбербанк вместе с Китаем проведут исследования в области ИИ
- Европе нужен прикладной ИИ, а не чипы, — эксперт
- Власти Китая запретили компаниям покупать ИИ-чипы Nvidia
- Украденную в Исландии майнинг-ферму возможно нашли в Китае
- Ethereum надеется на возможность взаимодействовать с криптой КНР
- Honor выпустит смартфон с криптокошельком