У меня достаточно старый процессор, 16 гигабайт памяти тоже будет достаточно для минимальных требований.
Модели тоже разные есть, для художественных текстов особо сложных не требуется, 32B уже прям избыточно, а большие модели с сайтов больше имеют значение для программирования, расчетов или учета различных мелких знаний типа конкретных произведений - при сжатии модели сохраняют способность генерировать тексты но теряется точность фактов. То есть сжатая модель запросто может заявить что Шварценеггер играл в "Чужом", но именно на генерацию событий рассказа это не повлияет кроме того что в тексте могут появиться подобные ложные утверждения.
Но вообще возможно стоит обсудить вопрос более предметно, вдруг цель заключается именно в том чтобы вести с ботом серьезный диалог о реальном кино. В этом случае локальная модель будет стараться но большинство описываемых ею фильмов не будет существовать в природе или будет мягко говоря отличаться.=)