1. Github 仓库:

2. 博客:

3. 调查研究:

  1. 语言模型合成数据的最佳实践与经验教训。 Ruibo Liu, Jerry Wei, Fangyu Liu, Chenglei Si, Yanzhe Zhang, Jinmeng Rao, Steven Zheng, Daiyi Peng, Diyi Yang, Denny Zhou, Andrew M. Dai. COLM 2024。
  2. 关于大模型驱动的合成数据生成、管理和评估的调查。 Lin Long, Rui Wang, Ruixuan Xiao, Junbo Zhao, Xiao Ding, Gang Chen, Haobo Wang. ACL Findings 2024。
  3. 用于数据标注的大语言模型:一项调查 Zhen Tan, Dawei Li, Song Wang, Alimohammad Beigi, Bohan Jiang, Amrita Bhattacharjee, Mansooreh Karami, Jundong Li, Lu Cheng, Huan Liu. EMNLP 2024。
  4. 用于合成数据生成的生成式人工智能:方法、挑战与未来。 Xu Guo, Yiqiang Chen. Arxiv 2024。
  5. 合成数据生成的全面探索:一项调查。 André Bauer, Simon Trapp, Michael Stenger, Robert Leppich, Samuel Kounev, Mark Leznik, Kyle Chard, Ian Foster. Arxiv 2024。

4. 方法:

4.1. 预训练 (Pre-training)

4.2. 指令微调 (Instruction Tuning)

4.3. 模型坍塌 (Model Collapse)

4.4. 大模型基准测试 (LLM Benchmarking)

4.5. 评估 (Evaluation)

4.6. 知识蒸馏 (Distillation)

5. 应用领域:

5.1. 数学推理 (Mathematical Reasoning)

5.2. 代码生成 (Code Generation)

5.3. 文本到 SQL (Text-to-SQL)

5.4. 对齐 (Alignment)

5.5. 奖励建模 (Reward Modeling)

5.6. 长上下文 (Long Context)

5.7. 由弱到强 (Weak-to-Strong)

5.8. 智能体与工具使用 (Agent and Tool Use)

5.9. 视觉与语言 (Vision and Language)

5.10. 事实性 (Factuality)

5.11. 联邦学习 (Federated Learning)

5.12. 生成式设计 (Generative Design)

5.13. 安全性 (Safety)

6. 工具 (Tools)

7. 数据集 (Datasets)

  • Open Artificial Knowledge Vadim Borisov, Richard Schreiber. ICML Workshop 2024。
  • PromptSource:自然语言提示的集成开发环境和存储库 Stephen H. Bach, Victor Sanh, Zheng-Xin Yong, Albert Webson, Colin Raffel, Nihal V. Nayak, Abheesht Sharma, Taewoon Kim, M Saiful Bari, Thibault Fevry, Zaid Alyafeai, Manan Dey, Andrea Santilli, Zhiqing Sun, Srulik Ben-David, Canwen Xu, Gunjan Chhablani, Han Wang, Jason Alan Fries, Maged S. Al-shaibani, Shanya Sharma, Urmish Thakker, Khalid Almubarak, Xiangru Tang, Dragomir Radev, Mike Tian-Jian Jiang, Alexander M. Rush,ACL 2022 Demo。
  • Super-NaturalInstructions:通过 1600 多个 NLP 任务的声明式指令实现泛化 Yizhong Wang, Swaroop Mishra, Pegah Alipoormolabashi, Yeganeh Kordi, Amirreza Mirzaei, Anjana Arunkumar, Arjun Ashok, Arut Selvan Dhanasekaran, Atharva Naik, David Stap, Eshaan Pathak, Giannis Karamanolakis, Haizhi Gary Lai, Ishan Purohit, Ishani Mondal, Jacob Anderson, Kirby Kuznia, Krima Doshi, Maitreya Patel, Kuntal Kumar Pal, Mehrad Moradshahi, Mihir Parmar, Mirali Purohit, Neeraj Varshney, Phani Rohitha Kaza, Pulkit Verma, Ravsehaj Singh Puri, Rushang Karia, Shailaja Keyur Sampat, Savan Doshi, Siddhartha Mishra, Sujan Reddy, Sumanta Patro, Tanay Dixit, Xudong Shen, Chitta Baral, Yejin Choi, Noah A. Smith, Hannaneh Hajishirzi, Daniel Khashabi。EMNLP 2022。