亚洲高清视频一区二区,在线视频福利一区,国产精品毛片va一区二区三区

機(jī)器之心 & ArXiv Weekly

(資料圖片僅供參考)

參與：楚航、羅若天、梅洪源

本周重要論文包括圖靈獎(jiǎng)得主 Yann LeCun 世界模型的首項(xiàng)研究，以及 Meta 開(kāi)源的文本生成音樂(lè)模型 MusicGen。

Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture

Adversarial Example Does Good: Preventing Painting Imitation from Diffusion Models via Adversarial Examples

Disentangling Writer and Character Styles for Handwriting Generation

INSTRUCTEVAL: Towards Holistic Evaluation of Instruction-Tuned Large Language Models

Reverse Engineering Self-Supervised Learning

VideoComposer: Compositional Video Synthesis with Motion Controllability

Simple and Controllable Music Generation

ArXiv Weekly Radiostation：NLP、CV、ML 更多精選論文（附音頻）

論文 1：Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture

作者：Mahmoud Assran 等

論文鏈接：https://arxiv.org/pdf/2301.08243.pdf

摘要：讓 AI 像人類一樣學(xué)習(xí)和推理，這是人工智能邁向人類智能的重要一步。圖靈獎(jiǎng)得主 Yann LeCun 曾提出自監(jiān)督 + 世界模型的解決方案，如今終于有了第一個(gè)實(shí)實(shí)在在的視覺(jué)模型 —— I-JEPA。如下圖所示，I-JEPA 使用單個(gè)上下文塊來(lái)預(yù)測(cè)源自同一圖像的各種目標(biāo)塊的表征。

推薦：LeCun 世界模型首項(xiàng)研究來(lái)了：自監(jiān)督視覺(jué)，像人一樣學(xué)習(xí)和推理，已開(kāi)源。

論文 2：Adversarial Example Does Good: Preventing Painting Imitation from Diffusion Models via Adversarial Examples

作者：Chumeng Liang 等

論文鏈接：https://arxiv.org/abs/2302.04578

摘要：本文介紹的是一篇收錄于 ICML 2023 Oral 的論文，論文由位于上海交通大學(xué)的上海市可擴(kuò)展計(jì)算與系統(tǒng)重點(diǎn)實(shí)驗(yàn)室、紐約大學(xué)和貝爾法斯特女王大學(xué)的華揚(yáng)老師共同完成。論文的共同一作是即將攻讀南加州大學(xué)博士學(xué)位的梁楚盟和上海交通大學(xué)的研究生吳曉宇。

推薦：給圖片悄悄加上像素級(jí)水?。悍乐?AI「抄襲」藝術(shù)作品的方法找到了。

論文 3：Disentangling Writer and Character Styles for Handwriting Generation

作者：Gang Dai 等

論文鏈接：https://arxiv.org/abs/2303.14736

摘要：本文中，來(lái)自華南理工大學(xué)、新加坡國(guó)立大學(xué)、香港理工大學(xué)以及琶洲實(shí)驗(yàn)室的研究者們聯(lián)合提出一種有趣的手寫(xiě)文字生成方法，僅需提供少量的參考樣本即可臨摹用戶的書(shū)寫(xiě)風(fēng)格，進(jìn)而生成符合該風(fēng)格的任意文字。

推薦：會(huì)模仿筆跡的 AI，為你創(chuàng)造專屬字體，入選 CVPR 2023。

論文 4：INSTRUCTEVAL: Towards Holistic Evaluation of Instruction-Tuned Large Language Models

作者：Yew Ken Chia 等

論文鏈接：https://arxiv.org/abs/2306.04757

摘要：這么多年來(lái)，指令調(diào)優(yōu)大語(yǔ)言模型的性能到底怎么樣呢？本研究提出了一個(gè)全新的評(píng)估套件，對(duì)它們?cè)诮鉀Q問(wèn)題、寫(xiě)作和對(duì)齊人類價(jià)值觀等方面進(jìn)行了全面評(píng)估，結(jié)果可能超乎你的預(yù)料。研究者在下表 3 中提供了開(kāi)源指令模型的整體概述。

推薦：四年了，基礎(chǔ)開(kāi)源模型沒(méi)有真正進(jìn)步，指令調(diào)優(yōu)大模型評(píng)估驚人發(fā)現(xiàn)。

論文 5：Reverse Engineering Self-Supervised Learning

作者：Ido Ben-Shaul 等

論文鏈接：https://arxiv.org/abs/2305.15614v2

摘要：自監(jiān)督學(xué)習(xí)可以利用輔助任務(wù)（pretext）無(wú)監(jiān)督數(shù)據(jù)中挖掘自身的監(jiān)督信息，通過(guò)這種構(gòu)造的監(jiān)督信息對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練，從而可以學(xué)習(xí)到對(duì)下游任務(wù)有價(jià)值的表征。近日，圖靈獎(jiǎng)得主 Yann LeCun 在內(nèi)的多位研究者發(fā)布了一項(xiàng)研究，宣稱對(duì)自監(jiān)督學(xué)習(xí)進(jìn)行了逆向工程，讓我們得以了解其訓(xùn)練過(guò)程的內(nèi)部行為。

為了直觀地理解 SSL 訓(xùn)練，下圖 1 通過(guò) UMAP 可視化展示了網(wǎng)絡(luò)的訓(xùn)練樣本的嵌入空間，其中包含訓(xùn)練前后的情況并分了不同層級(jí)。

推薦：Yann LeCun 團(tuán)隊(duì)新研究成果：對(duì)自監(jiān)督學(xué)習(xí)逆向工程，原來(lái)聚類是這樣實(shí)現(xiàn)的。

論文 6：VideoComposer: Compositional Video Synthesis with Motion Controllability

作者：Xiang Wang 等

論文鏈接：https://arxiv.org/abs/2306.02018

摘要：在 AI 繪畫(huà)領(lǐng)域，阿里提出的 Composer 和斯坦福提出的基于 Stable diffusion 的 ControlNet 引領(lǐng)了可控圖像生成的理論發(fā)展。但是，業(yè)界在可控視頻生成上的探索依舊處于相對(duì)空白的狀態(tài)。相比于圖像生成，可控的視頻更加復(fù)雜，因?yàn)槌艘曨l內(nèi)容的空間的可控性之外，還需要滿足時(shí)間維度的可控性?；诖?，阿里巴巴和螞蟻集團(tuán)的研究團(tuán)隊(duì)率先做出嘗試并提出了 VideoComposer，即通過(guò)組合式生成范式同時(shí)實(shí)現(xiàn)視頻在時(shí)間和空間兩個(gè)維度上的可控性。

該研究在 9 個(gè)不同的經(jīng)典任務(wù)上直接測(cè)試 VideoComposer 的性能，均獲得滿意的結(jié)果，證明了 VideoComposer 通用性。

推薦：時(shí)間、空間可控的視頻生成走進(jìn)現(xiàn)實(shí)，阿里大模型新作 VideoComposer 火了。

論文 7：Simple and Controllable Music Generation

作者：Jade Copet 等

論文鏈接：https://arxiv.org/pdf/2306.05284.pdf

摘要：年初，谷歌推出了音樂(lè)生成大模型 MusicLM，效果非常不錯(cuò)。有人稱這比大火的 ChatGPT 還重要，幾乎解決了音樂(lè)生成問(wèn)題。近日，Meta 也推出了自己的文本音樂(lè)生成模型 MusicGen，并且非商業(yè)用途免費(fèi)使用。

如下輸入周杰倫《七里香》歌詞中的前兩句「窗外的麻雀在電線桿上多嘴，你說(shuō)這一句很有夏天的感覺(jué)」（支持中文）。

推薦：Meta 開(kāi)源文本生成音樂(lè)大模型，我們用《七里香》歌詞試了下。

ArXiv Weekly Radiostation

機(jī)器之心聯(lián)合由楚航、羅若天、梅洪源發(fā)起的 ArXiv Weekly Radiostation，在 7 Papers 的基礎(chǔ)上，精選本周更多重要論文，包括 NLP、CV、ML 領(lǐng)域各 10 篇精選 , 并提供音頻形式的論文摘要簡(jiǎn)介，詳情如下：

本周 10 篇 NLP 精選論文是：

1. Can Large Language Models Infer Causation from Correlation?. ( from Bernhard Sch lkopf )

2. Developing Speech Processing Pipelines for Police Accountability. ( from Dan Jurafsky )

3. SqueezeLLM: Dense-and-Sparse Quantization. ( from Michael W. Mahoney, Kurt Keutzer )

4. Morphosyntactic probing of multilingual BERT models. ( from Noah A. Smith )

5. ChatGPT for Us: Preserving Data Privacy in ChatGPT via Dialogue Text Ambiguation to Expand Mental Health Care Delivery. ( from Kai-Wei Chang, Majid Sarrafzadeh )

6. Language models are not naysayers: An analysis of language models on negation benchmarks. ( from Timothy Baldwin )

7. Modality Adaption or Regularization? A Case Study on End-to-End Speech Translation. ( from Jingbo Zhu )

8. Xiezhi: An Ever-Updating Benchmark for Holistic Domain Knowledge Evaluation. ( from Rui Xu )

9. Word sense extension. ( from Lei Yu )

10. Instruction Tuned Models are Quick Learners. ( from Chitta Baral )

本周 10 篇 CV 精選論文是：

1. Multi-Modal Classifiers for Open-Vocabulary Object Detection. ( from Andrew Zisserman )

2. AVIS: Autonomous Visual Information Seeking with Large Language Models. ( from Kai-Wei Chang, Cordelia Schmid )

3. SMC-UDA: Structure-Modal Constraint for Unsupervised Cross-Domain Renal Segmentation. ( from Rama Chellappa, Xinbo Gao )

4. Aladdin: Zero-Shot Hallucination of Stylized 3D Assets from Abstract Scene Descriptions. ( from Leonidas Guibas )

5. Adding 3D Geometry Control to Diffusion Models. ( from Alan Yuille )

6. Compositor: Bottom-up Clustering and Compositing for Robust Part and Object Segmentation. ( from Alan Yuille )

7. Teaching AI to Teach: Leveraging Limited Human Salience Data Into Unlimited Saliency-Based Training. ( from Kevin Bowyer )

8. Instant Multi-View Head Capture through Learnable Registration. ( from Michael J. Black )

9. FlowFormer: A Transformer Architecture and Its Masked Cos Volume Autoencoding for Optical Flow. ( from Xiaogang Wang )

10. MOFI: Learning Image Representations from Noisy Entity Annotated Images. ( from Jon Shlens )

本周 10 篇 ML 精選論文是：

1. A Comprehensive Survey on Applications of Transformers for Deep Learning Tasks. ( from Witold Pedrycz )

2. Inductive Linear Probing for Few-shot Node Classification. ( from Huan Liu )

3. Virtual Node Tuning for Few-shot Node Classification. ( from Huan Liu )

4. Understanding How Consistency Works in Federated Learning via Stage-wise Relaxed Initialization. ( from Dacheng Tao )

5. Extending Kernel PCA through Dualization: Sparsity, Robustness and Fast Algorithms. ( from Johan A. K. Suykens )

6. Variational Positive-incentive Noise: How Noise Benefits Models. ( from Xuelong Li )

7. Privacy Preserving Bayesian Federated Learning in Heterogeneous Settings. ( from Joydeep Ghosh )

8. One-for-All: Generalized LoRA for Parameter-Efficient Fine-tuning. ( from Eric Xing )

9. Identification of Nonlinear Latent Hierarchical Models. ( from Eric Xing )

10. Composing Efficient, Robust Tests for Policy Selection. ( from Peter Stone )

THE END

轉(zhuǎn)載請(qǐng)聯(lián)系本公眾號(hào)獲得授權(quán)

投稿或?qū)で髨?bào)道：content@jiqizhixin.com

關(guān)鍵詞：

精彩推薦

閱讀排行

要聞

頭條

“雙創(chuàng)板”10余家擬IPO企業(yè)卡在注冊(cè)環(huán)節(jié)，

全球觀焦點(diǎn)：LeCun 世界模型首次嘗試；Meta 開(kāi)源文本音樂(lè)生成模型

全球觀焦點(diǎn)：LeCun 世界模型首次嘗試；Meta 開(kāi)源文本音樂(lè)生成模型