Объятие лица: 5 способов, которыми предприятия могут сократить расходы

Хотите более умное понимание в вашем почтовом ящике? Подпишитесь на наши еженедельные информационные бюллетени, чтобы получить только то, что имеет значение для искусственного интеллекта предприятия, данных и лидеров безопасности. Подписаться сейчас

Предприятия, кажется, принимают это как основной факт: модели ИИ требуют значительного количества вычислительных средств; Они просто должны найти способы получить больше этого.

Но, по словам Саши Луччиони, ИИ и климата не обязательно должны быть. Что если есть более разумный способ использовать ИИ? Что если вместо того, чтобы стремиться к более (часто ненужным) вычислительным вычислениям и способам его питания, они могут сосредоточиться на повышении производительности и точности модели?

В конечном счете, производители моделей и предприятия сосредотачиваются на неправильной проблеме: они должны вычислять умнееПо словам Луччиони, не сложнее и не делать больше.

«Есть более умные способы делать вещи, которые мы в настоящее время недостаточно переживаем, потому что мы так ослеплены: нам нужно больше провалов, нам нужно больше графических процессоров, нам нужно больше времени»,-сказала она.

Вот пять ключевых знаний от обнимающего лица, которые могут помочь предприятиям всех размеров использовать ИИ более эффективно.

1: Правильный размер модели на задачу

Избегайте дефолта на гигантские модели общего назначения для каждого варианта использования. Специфичные для задачи или дистиллированные модели могут соответствовать или даже превзойти, более крупные модели с точки зрения точности для целевых рабочих нагрузок — по более низкой стоимости и с уменьшенным потреблением энергииПолем

На самом деле Luccioni обнаружил, что модель, специфичная для конкретной задачи, использует в 20-30 раз меньше энергии, чем общепринятая. «Потому что это модель, которая может выполнить эту задачу, в отличие от любой задачи, которую вы бросаете на нее, что часто бывает с большими языковыми моделями», — сказала она.

Дистилляция является ключевым здесь; Полная модель может быть изначально обучена с нуля, а затем усовершенствована для определенной задачи. Например, DeepSeek R1 «настолько огромна, что большинство организаций не могут позволить себе его использовать», потому что вам нужно как минимум 8 графических процессоров, отметил Luccioni. Напротив, дистиллированные версии могут быть 10, 20 или даже 30 раз меньше и работать на одном графическом процессоре.

В целом, модели с открытым исходным кодом помогают с эффективностью, отметила она, так как их не нужно обучать с нуля. Это по сравнению с несколькими годами назад, когда предприятия тратят ресурсы, потому что они не могли найти нужную им модель; В настоящее время они могут начать с базовой модели и тонкой настройки и адаптировать ее.

«Он обеспечивает постепенные общие инновации, в отличие от олицетворения, все обучают свои модели своим наборам данных и, по сути, тратясь в процесс вычислений», — сказал Луччиони.

Становится ясно, что компании быстро разочаровываются в Gen AI, поскольку затраты еще не пропорциональны преимуществам. Общие варианты использования, такие как написание электронных писем или транскрибирование примечаний встречи, действительно полезны. Тем не менее, модели для конкретных задач по-прежнему требуют «много работы», потому что модели вне коробки не сокращают их, а также более дороги, сказал Луччиони.

Это следующая граница дополнительной стоимости. «Многие компании хотят выполнить определенную задачу», — отметил Луччиони. «Они не хотят AGI, они хотят конкретного интеллекта. И это разрыв, который должен быть соединен».

2. Сделайте эффективность по умолчанию

Принять «теорию подталкивания» в проектировании системы, установить консервативные бюджеты рассуждений, ограничить всегда на генеративных функциях и требовать отключения для высококачественных вычислительных режимов.

В когнитивной науке «Теория подталкивания» — это подход к управлению поведенческими изменениями, предназначенный для тонкого влияния человеческого поведения. «Канонический пример», отметил Луччиони, — это добавление столовых приборов к выходу: люди решают, хотят ли они пластиковую посуду, а не автоматически включать их с каждым заказом, может значительно сократить отходы.

«Просто заставить людей выбрать что -то, а не отказаться от чего -то, на самом деле очень мощный механизм изменения поведения людей», — сказал Луччиони.

Механизмы по умолчанию также ненужны, поскольку они увеличивают использование и, следовательно, затраты, потому что модели выполняют больше работы, чем им нужно. Например, с популярными поисковыми системами, такими как Google, резюме AI Gen автоматически населяет сверху по умолчанию. Лукчиони также отметила, что, когда она недавно использовала GPT-5 Openai, модель автоматически работала в режиме полного рассуждения в «очень простых вопросах».

«Для меня это должно быть исключением», — сказала она. «Например,« Что такое значение жизни, тогда я хочу, я хочу резюме Gen AI ». Но с «какова погода в Монреале» или «Каковы часы работы в моей местной аптеке?» Мне не нужно генеративное резюме ИИ, но это дефолт.

3. Оптимизировать использование оборудования

Используйте партии; Отрегулируйте точность и точные размеры партий для конкретной генерации аппаратного обеспечения, чтобы минимизировать потраченную память и рисование мощности.

Например, предприятия должны спросить себя: должна ли модель быть все время? Будут ли люди пинговать его в режиме реального времени, 100 запросов одновременно? В этом случае Луччиони отметил, что в этом случае необходима всегда оптимизация. Однако во многих других это не так; Модель может периодически запускать для оптимизации использования памяти, а партии может обеспечить оптимальное использование памяти.

«Это похоже на инженерную проблему, но очень специфический, поэтому трудно сказать:« Просто переоборудовать все модели »или« изменить точность на всех моделях », — сказал Луччиони.

В одном из своих недавних исследований она обнаружила, что размер партии зависит от оборудования, даже до конкретного типа или версии. Переход от одного размера партии к плюс-один может увеличить использование энергии, потому что модели нуждаются в большем количестве стержней памяти.

«Это то, на что люди на самом деле не смотрят, они просто как:« О, я собираюсь максимизировать размер партии », но это действительно сводится к настройке всех этих разных вещей, и вдруг это очень эффективно, но это работает только в вашем конкретном контексте», — объяснил Луччиони.

4. стимулировать прозрачность энергии

Это всегда помогает, когда люди стимулируются; С этой целью, обнимая лицо в начале этого года, запустило AI Energy Score. Это новый способ повысить энергоэффективность, используя систему рейтинга от 1 до 5 звезд, причем наиболее эффективные модели получают статус «пятизвездочный».

Это можно считать «Энергетической звездой для ИИ», и было вдохновлено потенциально не существующей федеральной программой, которая устанавливает спецификации энергоэффективности и фирменные квалификационные приборы с логотипом Energy Star.

«В течение нескольких десятилетий это была действительно позитивная мотивация, люди хотели этого звездного рейтинга, верно?», — сказал Луччиони. «Что -то похожее с оценкой энергии было бы отличным».

Объятие Face теперь имеет лидерство, которое в сентябре планирует обновлять новые модели (DeepSeek, GPT-OSS) и постоянно делает это каждые 6 месяцев или раньше, когда новые модели становятся доступными. Цель состоит в том, что модельные строители будут рассматривать рейтинг как «значок чести», сказал Луччиони.

5. переосмыслить мышление «больше вычислить лучше»

Вместо того, чтобы преследовать самые большие кластеры GPU, начните с вопроса: «Как самый умный способ достичь результата?» Для многих рабочих нагрузок, более умные архитектуры и более разыгрываемые данные превосходят масштабирование грубой силы.

«Я думаю, что людям, вероятно, не нужно столько графических процессоров, как они думают», — сказал Луччиони. Вместо того, чтобы просто пойти на самые большие кластеры, она призвала предприятия переосмыслить графические процессоры задач, и почему они нуждаются в них, как они выполняли эти типы задач ранее, и то, что добавление дополнительных графических процессоров в конечном итоге получит их.

«Это своего рода эта гонка на дно, где нам нужен больший кластер», — сказала она. «Это думает о том, для чего вы используете ИИ, какую технику вам нужна, что это нужно?»

Источник

1: Правильный размер модели на задачу

2. Сделайте эффективность по умолчанию

3. Оптимизировать использование оборудования

4. стимулировать прозрачность энергии

5. переосмыслить мышление «больше вычислить лучше»

Как ChatGPT может предсказать ваше будущее: 5 практических советов

Nvidia выпускает новую небольшую открытую модель Nemotron-Nano-9B-V2 с рассуждением включения/выключения переключения/выключения

Рекомендуем

Оставить комментарий Отменить ответ