您所在的位置:首页 >观点 >
7 Papers & Radios | 21℃室温超导引爆物理圈;微软发布视觉ChatGPT 天天观察

时间:2023-03-19 00:02:45    来源:机器之心

机器之心& ArXiv Weekly

参与:楚航、罗若天、梅洪源

本周论文包括微软亚洲研究院提出的视觉 ChatGPT;罗切斯特大学的物理学家 Ranga Dias 及其团队实现了一种超导体,其能在室温和接近常压的环境下工作。
目录:Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models Evidence of near-ambient superconductivity in a N-doped lutetium hydride Understanding and Unifying Fourteen Attribution Methods with Taylor Interactions MAGE: MAsked Generative Encoder to Unify Representation Learning and Image Synthesis PaLM-E: An Embodied Multimodal Language Model Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages Dropout Reduces Underfitting ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频) 论文 1:Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models作者:Chenfei Wu 、 Shengming Yin 、 Weizhen Qi 等 论文地址:https://arxiv.org/pdf/2303.04671.pdf 摘要:微软亚洲研究院的研究者提出了一个名为 Visual ChatGPT的系统,他们 将 ChatGPT 和多个 SOTA 视觉基础模型连接,实现在对话系统中理解和生成图片。为了方便复现,该研究已经将代码完全开源。 他们不是从头开始训练一个新的多模态 ChatGPT,而是直接基于 ChatGPT 构建 Visual ChatGPT,并结合了各种 VFM。为了弥合 ChatGPT 和这些 VFM 之间的差距,该研究提出了一个 Prompt Manager,其支持以下功能: 1)明确告诉 ChatGPT 每个 VFM 的功能并指定输入输出格式; 2) 将不同的视觉信息,例如 png 图像、深度图像和 mask 矩阵,转换为语言格式以帮助 ChatGPT 理解; 3) 处理不同 VFM 的历史、优先级和冲突。 下图为 Visual ChatGPT 概览。左边进行了三轮对话,中间是 Visual ChatGPT 如何迭代调用 Visual Foundation Models 并提供答案的流程图。右侧展示了第二次 QA 的详细过程。 推荐:视觉 ChatGPT 来了,微软发布,代码已开源。 论文 2:Evidence of near-ambient superconductivity in a N-doped lutetium hydride作者:Nathan Dasenbrock-Gammon、Elliot Snider 等 论文地址:https://www.nature.com/articles/s41586-023-05742-0 摘要:本周二下午,在拉斯维加斯举行的美国物理学会(APS March Meeting)三月年度会议上,罗切斯特大学的物理学家 Ranga Dias 发表了一场座无虚席的演讲,他宣布他和他的团队已经实现了该领域的百年梦想:一种超导体,能在室温和接近常压的环境下工作。 在新研究中,人们锻造的化合物成功在 21 摄氏度(69.8 华氏度,294K)和大约 1 吉帕的压力下无电阻地传导电流。这仍然是一个很大的压力 —— 大约是马里亚纳海沟最深处压力的 10 倍 —— 但它比以前使用类似材料进行的实验所需的压力低 100 多倍。 近环境下镥 - 氮 - 氢的超导性压力推荐:21℃室温超导引爆物理圈。 论文 3:Understanding and Unifying Fourteen Attribution Methods with Taylor Interactions作者:Huiqi Deng 、 Na Zou 等 论文地址:https://arxiv.org/pdf/2303.01506.pdf 摘要:本文提出了「 统一解释 14 种输入单元重要性归因算法的内在机理」。表 1 展示了十四种不同的归因算法分别是如何对独立效应与交互效应进行分配。 此外,本文还提出了以下三条评估准则,以评价某一个归因算法是否公平合理地分配独立效应和交互效应。(1)准则一:分配过程中涵盖所有独立效应和交互效应。(2)准则二:避免将独立效应和交互分配给无关的输入单元。(3)准则三:完全分配。 推荐:理解并统一 14 种归因算法,让神经网络具有可解释性。 论文 4:MAGE: MAsked Generative Encoder to Unify Representation Learning and Image Synthesis作者:Tianhong Li、Huiwen Chang 等 论文地址:https://arxiv.org/abs/2211.09117 摘要:来自 MIT 和 Google Research 的研究人员提出了一种基于图像语义符掩码的表征学习方法,首次在一个统一的框架中实现了图像生成和表征学习,并在多个数据集上取得了 SOTA 表现。研究论文已被 CVPR 2023 接收,相关代码与预训练模型已开源。 本文作者提出了 MAGE(Masked Generative Encoder),首次实现了统一的图像生成和特征提取模型。与 MIM 直接作用于图像的掩码方法不同,MAGE 提出了基于图像语义符的 masked image token modeling 方法。如图所示,MAGE 首先使用 VQGAN [3] 编码器将原始图像转换为离散的语义符。之后,MAGE 对其进行随机掩码,并使用基于 transformer 的 encoder-decoder 结构对掩码进行重构,重构后的语义符可以通过 VQGAN 解码器生成原始图像。通过在训练中使用不同的掩码率,MAGE 可以同时进行生成模型(接近 100% 掩码率)和表征学习(50%-80% 掩码率)的训练。如图 1 所示,MAGE 重建出的图像不仅具有与原始图像一致的语义信息,还能够同时保证生成图像的多样性与真实性。 图 2:MAGE 结构图推荐:谷歌、MIT 提出统一框架 MAGE:表征学习超 MAE,无监督图像生成超越 Latent Diffusion。 论文 5:PaLM-E: An Embodied Multimodal Language Model作者:Danny Driess 、 Fei Xia 等 论文地址:https://palm-e.github.io/assets/palm-e.pdf 摘要:谷歌推出的 具身语言模型 PaLM-E,它可以将连续的传感器数据直接整合到语言模型里,从而使得语言模型能够做出更有根据的推理。值得一提的是,他们之所以将此模型命名为 PaLM-E,是因为本文使用了 2022 年谷歌发布的 PaLM 作为预训练语言模型。 PaLM-E-562B 在 OK-VQA 基准上实现了 SOTA 性能,而不依赖特定于任务的微调。除此以外,PaLM-E-562B 在其他任务上也表现良好,包括零样本多模态思维链 (CoT) 推理、少样本提示、OCR-free 数学推理和多图像推理等。 如下图,给定一张图像,并向 PaLM-E 提问:「如果一个机器人想在这里发挥作用,它应该采取哪些步骤?」PaLM-E 给出的回答是:首先清理桌子,清理垃圾,然后挪动椅子,擦椅子,最后把椅子放回原处。PaLM-E 的回答看起来很符合逻辑。 推荐:5620 亿参数,最大多模态模型控制机器人,谷歌把具身智能玩出新高度。 论文 6:Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages作者:Yu Zhang、Wei Han 等 论文地址:https://arxiv.org/abs/2303.01037v2 摘要:谷歌公开了 通用语音模型 (USM) 的信息,这是支持 1000 种语言的第一步。USM 包含一系列 SOTA 语音模型,带有 20 亿参数,经过 1200 万小时的语音和 280 亿个文本句子的训练,涵盖 300 多种语言。USM 不仅可以对英语和普通话等广泛使用的语言执行自动语音识别(ASR),还可以对阿姆哈拉语、宿雾语、阿萨姆语、阿塞拜疆语等使用人数很少的语言执行自动语音识别。 谷歌证明了利用大型未标记的多语言数据集来预训练模型的编码器,并用较小的标记数据集进行微调,能够让模型识别使用人数非常少的语言。此外,谷歌的模型训练过程可以有效地适应新的语言和数据。 USM 支持的语言示例。‍推荐:谷歌的野心:通用语音识别大模型已经支持 100 + 语言。 论文 7:Dropout Reduces Underfitting作者:Zhuang Liu、Zhiqiu Xu 等 论文地址:https://arxiv.org/abs/2303.01500 摘要:近日在一篇论文《Dropout Reduces Underfitting》中,Meta AI、加州大学伯克利分校等机构的研究者展示了如何使用 dropout 来解决欠拟合问题。 他们首先通过对梯度范数的有趣观察来研究 dropout 的训练动态,然后得出了一个关键的实证发现:在训练初始阶段,dropout 降低小批量的梯度方差,并允许模型在更一致的方向上更新。这些方向也更与整个数据集的梯度方向保持一致,具体如下图 1 所示。 研究者提出了 early dropout(即 dropout 仅在训练早期使用),来帮助欠拟合模型更好地拟合。与无 dropout 和标准 dropout 相比, early dropout 降低了最终的训练损失。相反,对于已经使用标准 dropout 的模型,研究者建议在早期训练 epoch 阶段移除 dropout 以降低过拟合。他们将这一方法称为 late dropout,并证明它可以提升大模型的泛化准确率。下图 2 比较了标准 dropout、early 和 late dropout。 推荐:改进 Hinton 的 Dropout:可以用来减轻欠拟合了。 ArXiv Weekly Radiostation机器之心联合由楚航、罗若天、梅洪源发起的ArXiv Weekly Radiostation,在 7 Papers 的基础上,精选本周更多重要论文,包括NLP、CV、ML领域各10篇精选, 并提供音频形式的论文摘要简介,详情如下:

本周 10篇 NLP 精选论文是:


【资料图】

1. Stylometric Detection of AI-Generated Text in Twitter Timelines. (from Huan Liu)

2. Extracting Accurate Materials Data from Research Papers with Conversational Language Models and Prompt Engineering -- Example of ChatGPT. (from Dane Morgan)

3. Towards Interpretable and Efficient Automatic Reference-Based Summarization Evaluation. (from Dragomir Radev)

4. Adaptive Knowledge Distillation between Text and Speech Pre-trained Models. (from Erik Cambria)

5. Let"s Get Personal: Personal Questions Improve SocialBot Performance in the Alexa Prize. (from Marilyn Walker)

6. Automatically Summarizing Evidence from Clinical Trials: A Prototype Highlighting Current Challenges. (from Denis Jered McInerney)

7. Guilt Detection in Text: A Step Towards Understanding Complex Emotions. (from Alexander Gelbukh)

8. Prompt-Based Learning for Thread Structure Prediction in Cybersecurity Forums. (from Chitta Baral)

9. RweetMiner: Automatic identification and categorization of help requests on twitter during disasters. (from Young-Koo Lee)

10. Speak Foreign Languages with Your Own Voice: Cross-Lingual Neural Codec Language Modeling. (from Furu Wei)

本周 10篇 CV 精选论文是:

1. Generalized Semantic Segmentation by Self-Supervised Source Domain Projection and Multi-Level Contrastive Learning. (from Jian Sun)

2. Where We Are and What We"re Looking At: Query Based Worldwide Image Geo-localization Using Hierarchies and Scenes. (from Mubarak Shah)

3. A Meta-Learning Approach to Predicting Performance and Data Requirements. (from Bernt Schiele, Stefano Soatto)

4. Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection. (from Jie Yang, Lei Zhang)

5. Centroid-centered Modeling for Efficient Vision Transformer Pre-training. (from Dacheng Tao)

6. AZTR: Aerial Video Action Recognition with Auto Zoom and Temporal Reasoning. (from Dinesh Manocha)

7. SoftMatch Distance: A Novel Distance for Weakly-Supervised Trend Change Detection in Bi-Temporal Images. (from Licheng Jiao)

8. PixMIM: Rethinking Pixel Reconstruction in Masked Image Modeling. (from Kai Chen)

9. TAEC: Unsupervised Action Segmentation with Temporal-Aware Embedding and Clustering. (from Horst Bischof)

10. Word-As-Image for Semantic Typography. (from Daniel Cohen-Or, Ariel Shamir)

本周 10篇 ML 精选论文是:

1. Exploration via Epistemic Value Estimation. (from John Shawe-Taylor)

2. Mark My Words: Dangers of Watermarked Images in ImageNet. (from Klaus-Robert Müller)

3. Multi-Symmetry Ensembles: Improving Diversity and Generalization via Opposing Symmetries. (from Marin Soljacic)

4. On the Expressiveness and Generalization of Hypergraph Neural Networks. (from Joshua B. Tenenbaum, Leslie Pack Kaelbling)

5. Planning with Large Language Models for Code Generation. (from Joshua B. Tenenbaum)

6. Neural Operator Learning for Long-Time Integration in Dynamical Systems with Recurrent Neural Networks. (from George Em Karniadakis)

7. Graph Decision Transformer. (from Dacheng Tao)

8. CoSyn: Detecting Implicit Hate Speech in Online Conversations Using a Context Synergized Hyperbolic Network. (from Dinesh Manocha)

9. Tensorized LSSVMs for Multitask Regression. (from Johan A.K. Suykens)

10. Provable Data Subset Selection For Efficient Neural Network Training. (from Daniela Rus)

©THE END

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

标签:
7 Papers & Radios | 21℃室温超导引爆物理圈;微软发布视觉ChatGPT 天天观察

7 Papers & Radios | 21℃室温超导引爆物理圈;微软发布视觉ChatGPT 天天观察

机器之心&ArXivWeekly参与:楚航、罗若天、梅洪源本周论文包括微软亚洲研究院提出的视觉ChatGPT;罗切斯...

预约!中央歌剧院弦乐室内乐音乐会

预约!中央歌剧院弦乐室内乐音乐会

弦乐室内乐音乐会本次音乐会将会上演哪些作曲家的经典作品呢?让我们先睹为快!莫扎特D大调第二号弦乐四...

色温图片 对照表_色温图

色温图片 对照表_色温图

1、见图。2、那是CIE1931-XYZ系统色度图。3、是我自己画的。4、可惜不是彩色的。5、世上的颜色,都在“舌形图”

13岁王诗龄又高又瘦,回国约俩闺蜜打卡旅游景点,穿短裙秀麻杆腿 全球今亮点

13岁王诗龄又高又瘦,回国约俩闺蜜打卡旅游景点,穿短裙秀麻杆腿 全球今亮点

3月16日深夜,13岁星二代Angela王诗龄在其个人社交平台更新一则“即刻”动态,没有文案与表情符号,仅有...

流感每年都会季节性流行 不必自行囤药测抗原

流感每年都会季节性流行 不必自行囤药测抗原

有媒体报道称,全国哨点医院流感样病例流感病毒阳性率连续六周攀升,已经达到41 6%。近日,羊城晚报记...

红砂属_关于红砂属介绍

红砂属_关于红砂属介绍

1、红砂属(学名:ReaumuriaLinn )是柽柳科下一个属,半灌木或灌木,有多数曲拐的小枝。2、叶细小,鳞片

英国说唱_关于英国说唱的简介 今日讯

英国说唱_关于英国说唱的简介 今日讯

1、英国说唱是一种音乐风格,尽管英国金属在大不列颠和北爱尔兰联合王国以及欧洲以外很少听说,但却是有...

ST热电(600719):大连热电股份有限公司关于部分固定资产报废处置 每日报道

ST热电(600719):大连热电股份有限公司关于部分固定资产报废处置 每日报道

证券代码:600719证券简称:ST热电公告编号:临2023-008大连热电股份有限公司关于部分固定资产报废处置的公告本

天天视讯!因经营策略调整 海印股份与清控集团解除战略合作

天天视讯!因经营策略调整 海印股份与清控集团解除战略合作

本着优势互补、资源共享原则,海印股份于2020年4月22日与清控科创(广州)实业有限公司(现已更名为“清...

【环球快播报】pos机刷卡到账时间表_pos机刷卡到账时间

【环球快播报】pos机刷卡到账时间表_pos机刷卡到账时间

1、刷卡消费一般次日到账,逢周末调至下周一进帐,即星期五的营业款和周六周日一起在下周一进账,节隔天...

世界球精选!15年前,那个要嫁给刘德华,逼父跳海自杀的杨丽娟,如今怎样了?

世界球精选!15年前,那个要嫁给刘德华,逼父跳海自杀的杨丽娟,如今怎样了?

1994年,16岁的甘肃女孩杨丽娟做了个梦。她梦到了刘德华,并且还大着胆子,向刘德华提出了一个问题,“...

浙江舟山高新区开展3•15曝光食品专项检查

浙江舟山高新区开展3•15曝光食品专项检查

本网讯3月16日,针对3•15晚会曝光涉事问题产品,浙江省舟山市市场监管局高新区分局结合“守查保”专项...

各重点网站平台拦截清理涉网暴信息2875万条_今日播报

各重点网站平台拦截清理涉网暴信息2875万条_今日播报

记者16日从国新办举行的新闻发布会上获悉,去年11月,国家网信办制定出台《关于切实加强网络暴力治理的...

天天速看:东曜药业-B(01875)发布2022年业绩,营收同比增长479%至4.42亿元,自研产品销量大幅提升

天天速看:东曜药业-B(01875)发布2022年业绩,营收同比增长479%至4.42亿元,自研产品销量大幅提升

智通财经APP讯,东曜药业-B(01875)发布截至2022年12月31日止年度业绩,营业收入人民币4 42亿元,同比增

视讯!扎卡本赛季已打进5球,创造其阿森纳生涯的单赛季进球纪录

视讯!扎卡本赛季已打进5球,创造其阿森纳生涯的单赛季进球纪录

扎卡本赛季已打进5球,创造其阿森纳生涯的单赛季进球纪录,对阵,阿森纳,欧联杯,巴西足球,德国足球,英格兰...

文心一言的首秀与疑问_速递

文心一言的首秀与疑问_速递

一切都透露着不寻常,从多场预热沟通会、规模化披露生态伙伴,到严格的内测范围。3月16日,多年不到现场...

环球热点评!他夏了夏天歌曲教学_他夏了夏天

环球热点评!他夏了夏天歌曲教学_他夏了夏天

当前大家对于他夏了夏天。都是颇为感兴趣的,大家都想要了解一下他夏了夏天。,那么小美也是在网络上收...

240 280 320 420啥意思_240 280 420什么意思_当前信息

240 280 320 420啥意思_240 280 420什么意思_当前信息

1、先说说T,经常在汽车的后面会看到一些大写的英文字母T,而这个字母所代表的意思就是这台车配备的是涡...

男生寝室和女生打游戏,室友酸出猴叫,网友:花果山高级会议

男生寝室和女生打游戏,室友酸出猴叫,网友:花果山高级会议

男生寝室和女生打游戏,室友酸出猴叫,网友:花果山高级会议

伪装学渣语录经典(伪装学渣语录) 全球今头条

伪装学渣语录经典(伪装学渣语录) 全球今头条

1、我会告诉你有好好听课一天的课,撑不住的时候,可以大声对自己说“我好累“,但永远不要在心里承认说...

广东金融学院怎么样呀_广东金融学院怎么样-全球短讯

广东金融学院怎么样呀_广东金融学院怎么样-全球短讯

1、我就直指广东金融学院的优劣势吧!自包家丑先一,升本科不到10年,有些教学还有些是沿用之前专科的一...

新线即将开通!四座新建高铁站亮相!

新线即将开通!四座新建高铁站亮相!

近日,沪宁沿江高速铁路(原江苏南沿江城际铁路)四座新建高铁站句容站、金坛站、武进站、江阴站主体结...

2021深圳车展时间表-世界关注

2021深圳车展时间表-世界关注

1、1 展会日期:2021年3月5日-3月7日9:00-18:002 展会地点:宝安体育中心(地铁1号线宝体A出口)。

【全球时快讯】异步操作是什么意思_异步spoc是什么意思

【全球时快讯】异步操作是什么意思_异步spoc是什么意思

1、SPOC的概念,是指使用在线的课程(类似于MOOC)对少数真实在校注册的学生实施的课程教育。2、和MOOC相比,

当前快看:湿气重的症状怎么治疗(湿气重的症状怎么调理)

当前快看:湿气重的症状怎么治疗(湿气重的症状怎么调理)

1、一般来说,当空气中的湿度为40%至60%时,人体体感比较舒适。2、但如果湿度过大,细菌则更易繁殖或传...

广告

X 关闭

广告

X 关闭