Ollama — запускаем нейросети локально

ollama.com

Ollama — это локальный менеджер больших языковых моделей (LLM). По сути, это обёртка над llama.cpp и другими инференс-движками, которая упрощает скачивание, запуск и управление AI-моделями. Установка и запуск простейшие, есть поддержка Windows, Linux и MacOS. Простейшее скачивание моделей через команду ollama pull model_name (модели тут).

Реальность без GPU жестока. Эксперименты проводились на Ryzen 7950X3D с 16 ГБ ОЗУ. Удалось нормально запустить deepseek-r1:8b — это максимум из адекватного, что тянет железо без видеокарты. Всё, что меньше 8B параметров — выдаёт какие-то артефакты и галлюцинации. Всё, что больше — либо думает невероятно долго, либо вообще не запускается. Но с нормальными видеокартами последних поколений ситуация становится намного интереснее. Правда, оперативная память не менее важна.

Выбор моделей очень интересный: Llama всех размеров, Mistral, Gemma, CodeLlama, deepseek-r1. Каждая модель идёт в разных размерах — от 1B до 70B параметров. Количество параметров — своего рода степень “урезанности” модели, так что чем их больше — тем модель “умнее”. В целом выбор приличный, так что можно экспериментировать и тыкать самые разные модели — от простейших до самых мощных (если вдруг у вас простаивает майнинг-ферма, конечно же)

Возможна интеграция с чем угодно через REST API. Есть готовые UI вроде Open WebUI, плагины для VS Code, библиотеки. Но это всё — продвинутый уровень. Базово же работать с ollama — достаточно просто.

ИМХО: Тема с локальными LLM на самом деле достаточно активно развивается, имеет своё сообщество и кучу нишевых софтов, библиотек, расширений. Потихоньку вклиниваюсь и изучаю по мере возможности — в текущих условиях это единственная возможность сохранить приватность, не отставая от прогресса.

Свежее