Присоединяйтесь к событию, которым доверяют лидеры предприятия в течение почти двух десятилетий. VB Transform объединяет людей, строящих реальную стратегию ИИ предприятия. Узнать больше
Когда более года назад CHATGPT дебютировал, пользователи интернета получали постоянно доступный помощник по ИИ, чтобы поболтать и работать. Он занимался их повседневными задачами, от производства содержания естественного языка (например, эссе) до рассмотрения и анализа сложной информации. В кратчайшие сроки, метеорический рост чат -бота привлек внимание мира к технологии, сидящей в своей основе: серии больших языковых моделей GPT (LLMS).
Перенесемся в настоящее время, LLMS-серия GPT и другие-являются движущей силой не только индивидуальных задач, но и массовых бизнес-операций. Предприятия используют коммерческие модели API и предложения с открытым исходным кодом для автоматизации повторяющихся задач и эффективности стимулирования для ключевых функций. Представьте себе, что вы разговариваете с ИИ, чтобы создать рекламные кампании для маркетинговых команд или возможность ускорить операции поддержки клиентов, всплыв правильную базу данных в нужное время.
Воздействие было глубоким. Тем не менее, одна область, где роль LLM не обсуждается так много, является современным стеком данных.
LLMS преобразует стек данных
Данные являются ключом к высокопроизводительным крупным языковым моделям. Когда эти модели обучаются правильно, они могут помочь командам работать со своими данными — независимо от того, экспериментируют ли они с ним или запускают сложную аналитику.
Фактически, за последний год, когда росли CHATGPT и конкурирующие инструменты, предприятия, предоставляющие инструменты данных для предприятий, зацикливались на генеративном ИИ в своих рабочих процессах, чтобы облегчить их клиентам. Идея была проста: нажмите на способность языковых моделей, чтобы конечные клиенты не только получили лучший опыт при обработке данных, но также могли сэкономить время и ресурсы — что в конечном итоге поможет им сосредоточиться на других, более насущных задачах.
Первый (и, вероятно, самый важный) сдвиг с LLMS произошел, когда поставщики начали дебютировать с возможностями разговорного запроса — т.е. получает ответы от структурированных данных (подгоняя данные в строки и столбцы), разговаривая с ним. Это устранило хлопотные комплексные запросы SQL (структурированный язык запросов) и дали команды, в том числе нетехнические пользователи, простой в использовании опыт текста в SQL, где они могли бы поместить на естественные языковые подсказки и получить представление от своих данных. Используемый LLM преобразовал текст в SQL, а затем запустил запрос на целевом наборе данных для генерации ответов.
В то время как многие поставщики запустили эту возможность, некоторые заметные, чтобы сделать их в пространстве, были DataBricks, Snowflake, Dremio, Kinetica и мысли. Kinetica изначально постучала Chatgpt для этой задачи, но теперь использует свой собственный родной LLM. Тем временем Snowflake предлагает два инструмента. Во -первых, копило, который работает в качестве ассистента разговора для таких вещей, как задание вопросов о данных в простом тексте, написание запросов SQL, усовершенствование запросов и фильтрацию вниз. Второй — это инструмент AI документа для извлечения соответствующей информации из неструктурированных наборов данных, таких как изображения и PDF. DataBricks также работает в этом пространстве с тем, что он называет «Lakehouseiq».
Примечательно, что несколько стартапов также появились в одной и той же области, нацеленные на аналитическую область на основе AI. Например, в Калифорнии DATAGPT продает специализированного аналитика для компаний ИИ, который запускает тысячи запросов в кэше молнии своего хранилища данных и получает результаты в разговорном тоне.
Помогая с управлением данными и усилиями по ИИ
Помимо помощи группам генерировать понимание и ответы из их данных с помощью текстовых входов, LLM также традиционно обрабатывают ручное управление данными и усилия по данным, имеющие решающее значение для создания надежного продукта ИИ.
В мае поставщик интеллектуального управления данными (IDMC) Informatica дебютировал в Claire GPT, многопользовательском инструменте по разговору AI, который позволяет пользователям обнаруживать, взаимодействовать и управлять своими активами данных IDMC с входами естественного языка. Он обрабатывает несколько заданий в рамках платформы IDMC, включая обнаружение данных, создание и редактирование конвейеров данных, исследование метаданных, качество данных и исследование отношений и генерацию правил качества данных.
Затем, чтобы помочь командам создать предложения искусственного интеллекта, калифорнийский заправка AI предоставляет специально построенную большую языковую модель, которая помогает с заданиями маркировки данных и обогащения. В статье, опубликованной в октябре 2023 года, также показывается, что LLMS может выполнять хорошую работу по удалению шума из наборов данных, что также является важным шагом в создании надежного ИИ.
Другими областями в разработке данных, где LLMS может вступить в игру, являются интеграция данных и оркестровая. Модели могут по существу генерировать код, необходимый для обоих аспектов, независимо от того, нужно ли преобразовать различные типы данных в общий формат, подключаться к различным источникам данных или запрос для шаблонов кода YAML или Python для построения DAGS.
Гораздо больше
Прошло всего год с тех пор, как LLMS начали делать волны, и мы уже видим так много изменений в домене предприятия. По мере того, как эти модели улучшаются в 2024 году, и команды продолжают внедрять инновации, мы увидим больше приложений языковых моделей в различных областях стека корпоративных данных, включая постепенно развивающее пространство наблюдаемой наблюдения данных.
Монте -Карло, известный поставщик в этой категории, уже запустил исправление с помощью ИИ, инструмента, который обнаруживает проблемы в трубопроводе данных и предлагает код исправить их. Acceldata, еще один игрок в пространстве, также недавно приобрел Bewgle, чтобы сосредоточиться на интеграции LLM для наблюдения данных.
Однако, когда эти приложения появятся, для команд также станет более важным, чем когда-либо, чтобы убедиться, что эти языковые модели, созданные с нуля или настраиваемые, работают прямо на марке. Небольшая ошибка здесь или там, и вниз по течению может быть затронута результат, что приведет к сломанному каким -либо каким -либо каким -либо каким -либо каким -либо образом.
Источник