完善資料讓更多小伙伴認識你，還能領(lǐng)取20積分哦，立即完善>

3天內(nèi)不再提示

TextBind：在開放世界中多輪交織的多模態(tài)指令跟隨

摘要

擁有指令跟隨能力的大型語言模型已經(jīng)徹底改變了人工智能領(lǐng)域。這些模型通過其自然語言界面展現(xiàn)出卓越的通用性，能夠應(yīng)對各種現(xiàn)實世界任務(wù)。

然而，它們的性能在很大程度上依賴于高質(zhì)量的示例數(shù)據(jù)，通常難以獲得。當涉及到多模態(tài)指令跟隨時，這一挑戰(zhàn)進一步加劇。

我們介紹了TextBind，這是一個幾乎無需注釋的框架，用于賦予更大型的語言模型多輪交織的多模態(tài)指令跟隨能力。

我們的方法僅需要圖像描述對，并從語言模型生成多輪多模態(tài)指令-響應(yīng)對話。我們發(fā)布了我們的數(shù)據(jù)集、模型和演示，以促進未來在多模態(tài)指令跟隨領(lǐng)域的研究。

數(shù)據(jù)

TextBind提供了處理和生成任意交織的圖像和文本內(nèi)容的示例，使語言模型能夠在開放世界場景中與用戶進行自然互動。

模型

我們的模型包括一個圖像編碼器、一個圖像解碼器、一個語言模型，以及連接它們的橋接網(wǎng)絡(luò)，支持多輪交織的多模態(tài)指令跟隨。它可以生成并處理任意交織的圖像和文本內(nèi)容。

demo

語言模型能夠執(zhí)行各種任務(wù)，包括根據(jù)一組圖像創(chuàng)作引人入勝的故事，比較多個圖像中的共同和不同之處，用生動的圖像解釋概念，生成帶有插圖的長篇連貫故事等等。最有趣的是，我們模型的核心創(chuàng)新在于其能夠在廣泛的真實場景中與用戶自然互動。歡迎訪問我們的demo[1]。

例子

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

編碼器

編碼器

+關(guān)注

關(guān)注
45

文章
3669

瀏覽量
135251
圖像

圖像

+關(guān)注

關(guān)注
2

文章
1089

瀏覽量
40574
語言模型

語言模型

+關(guān)注

關(guān)注
0

文章
538

瀏覽量
10342

原文標題：TextBind：在開放世界中多輪交織的多模態(tài)指令跟隨

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

體驗MiniCPM-V 2.6 多模態(tài)能力

多模態(tài)組網(wǎng)

jf_23871869

發(fā)布于 :2025年01月20日 13:40:48

交織多址接入系統(tǒng)信道容量證明

交織多址接入系統(tǒng)信道容量證明:交織多址接入系統(tǒng)(IDMA)是使用低速率碼并利用交織器區(qū)分用戶的多

發(fā)表于 10-20 17:48 ?5次下載

lABCIWQmultyWindows多模態(tài)窗口2010

lABCIWQmultyWindows多模態(tài)窗口2010。

發(fā)表于 05-17 17:47 ?0次下載

多文化場景下的多模態(tài)情感識別

自動情感識別是一個非常具有挑戰(zhàn)性的課題，并且有著廣泛的應(yīng)用價值．本文探討了在多文化場景下的多模態(tài)情感識別問題．我們從語音聲學和面部表情等模態(tài)

發(fā)表于 12-18 14:47 ?0次下載

Transformer模型的多模態(tài)學習應(yīng)用

隨著Transformer在視覺中的崛起，Transformer在多模態(tài)中應(yīng)用也是合情合理的事情

發(fā)表于 03-25 09:29 ?1.1w次閱讀

Transformer模型的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>學習應(yīng)用

多模態(tài)MR和多特征融合的GBM自動分割算法

多模態(tài)MR和多特征融合的GBM自動分割算法

發(fā)表于 06-27 11:45 ?32次下載

一個真實閑聊多模態(tài)數(shù)據(jù)集TikTalk

隨著大量預訓練語言模型在文本對話任務(wù)中的出色表現(xiàn)，以及多模態(tài)的發(fā)展，在對話中引入多

發(fā)表于 02-09 09:31 ?2012次閱讀

中文多模態(tài)對話數(shù)據(jù)集

隨著大量預訓練語言模型在文本對話任務(wù)中的出色表現(xiàn)，以及多模態(tài)的發(fā)展，在對話中引入多

發(fā)表于 02-22 11:03 ?1438次閱讀

中文<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>對話數(shù)據(jù)集

多模態(tài)GPT：國內(nèi)發(fā)布一款可以在線使用的多模態(tài)聊天機器人！

基于開源多模態(tài)模型 OpenFlamingo，作者使用公開數(shù)據(jù)集創(chuàng)建了各種視覺指令數(shù)據(jù)，包括視覺問答、圖像字幕、視覺推理、文本 OCR 和視覺對話。此外，還使用僅包含語言指令數(shù)據(jù)的語言

發(fā)表于 05-12 09:55 ?1247次閱讀

<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>GPT：國內(nèi)發(fā)布一款可以在線使用的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>聊天機器人！

多模態(tài)上下文指令調(diào)優(yōu)數(shù)據(jù)集MIMIC-IT

然而，一個理想的 AI 對話助手應(yīng)該能夠解決涉及多種模態(tài)的任務(wù)。這需要獲得一個多樣化和高質(zhì)量的多模式指令跟隨數(shù)據(jù)集。比如，LLaVAInstruct-150K 數(shù)據(jù)集（也被稱為 LLa

發(fā)表于 06-12 16:36 ?795次閱讀

<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>上下文<b class='flag-5'>指令</b>調(diào)優(yōu)數(shù)據(jù)集MIMIC-IT

VisCPM：邁向多語言多模態(tài)大模型時代

可以大致分為兩類： 1. 在圖生文（image-to-text generation）方面，以 GPT-4 為代表的多模態(tài)大模型，可以面向圖像進行開放域?qū)υ捄蜕疃韧评恚?2.

發(fā)表于 07-10 10:05 ?751次閱讀

VisCPM：邁向多語言<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大模型時代

更強更通用：智源「悟道3.0」Emu多模態(tài)大模型開源，在多模態(tài)序列中「補全一切」

當前學界和工業(yè)界都對多模態(tài)大模型研究熱情高漲。去年，谷歌的 Deepmind 發(fā)布了多模態(tài)視覺語言模型 Flamingo ，它使用單一視覺語言模型處理多項任務(wù)，

發(fā)表于 07-16 20:45 ?751次閱讀

更強更通用：智源「悟道3.0」Emu<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大模型開源，<b class='flag-5'>在</b><b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>序列<b class='flag-5'>中</b>「補全一切」

基于Transformer多模態(tài)先導性工作

多模態(tài)（Multimodality）是指在信息處理、傳遞和表達中涉及多種不同的感知模態(tài)或信息來源。這些感知模態(tài)可以包括語言、視覺、聽覺、觸覺

發(fā)表于 08-21 09:49 ?905次閱讀

基于Transformer<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>先導性工作

商湯日日新多模態(tài)大模型權(quán)威評測第一

剛剛，商湯科技日日新SenseNova多模態(tài)大模型，在權(quán)威綜合評測權(quán)威平臺OpenCompass的多模態(tài)評測

發(fā)表于 12-20 10:39 ?351次閱讀

智譜 GLM-PC 開放體驗，多模態(tài) Agent 升級

1月23日，北京智譜華章科技有限公司宣布旗下智譜GLM-PC開放體驗，標志著自主操作電腦的多模態(tài)Agent迎來重要升級。 GLM-PC是基于智譜多模

發(fā)表于 01-24 14:10 ?275次閱讀

深度學習自然語言處理
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關(guān)注個人主頁

Hot 一個給NLP領(lǐng)域帶來革新的預訓練語言大模型Bert
Hot 推薦一些翻譯英文文獻比較準確的軟件

New 高效大模型的推理綜述
New 什么是RAG，RAG學習和實踐經(jīng)驗

精選推薦
更多

文章

資料

帖子

【干貨】基于儲能變流器測試方法與技術(shù)的綜述

jf_58953878
5小時前

95 閱讀

信創(chuàng)算力關(guān)鍵年的三個趨勢與最佳選擇

腦極體
4小時前

181 閱讀

康謀方案 | BEV感知技術(shù)：多相機數(shù)據(jù)采集與高精度時間同步方案

康謀自動駕駛
6小時前

251 閱讀

華為2024年營收超8600億！DeepSeek擴充朋友圈/英飛凌2025財年第一季度業(yè)績熱點科技新聞點評

章鷹觀察
8小時前

900 閱讀

如何使用MATLAB構(gòu)建Transformer模型

MATLAB
9小時前

235 閱讀

LA1787高頻頭電路原理圖

王蘭
344

10積分

409下載

CY8CMBR2016 IC datasheet

lanlanw
1.02 MB

免費

43下載

如何在幾分鐘內(nèi)使用PSoC構(gòu)建嵌入式系統(tǒng)？

Kelly Yang
1.89 MB

免費

91下載

yunbao-zhibo-web云豹直播APP源碼

李勇俊
36.39 MB

2積分

1下載

MMPopupView iOS彈出框的基類

飄逸的D
0.60 MB

免費

0下載

在fpga上實現(xiàn)NAND控制器的問題請教

jf_39870250
19小時前

112 閱讀

【ELF 2學習板試用】命令行功能測試-shell腳本進行IO控制-紅綠燈項目

lustao
19小時前

225 閱讀

迅為RK3568開發(fā)板篇OpenHarmony實操HDF驅(qū)動控制LED-編寫應(yīng)用APP

jf_23361246
19小時前

210 閱讀

CS8M320燒錄不進

jf_71751014
19小時前

164 閱讀

【貝啟科技BQ3568HM開源鴻蒙開發(fā)板深度試用報告】3 - 智能家居中控屏連接華為云IoTDA物聯(lián)網(wǎng)平臺

zealsoft
19小時前

242 閱讀

推薦專欄
更多

那曲檬骨新材料有限公司

搜索歷史