大模型的合成数据相关内容

1. Github 仓库:

https://github.com/wasiahmad/Awesome-LLM-Synthetic-Data.

2. 博客:

合成数据：使用开源节省金钱、时间和碳排放。 Moritz Laurer，2024 年 2 月 16 日。
合成数据生成（第一部分）。 Dylan Royan Almeida，2024 年 4 月 10 日
合成数据集生成技术：Self-Instruct。 Daniel van Strien，2024 年 5 月 15 日。
CodecLM：通过定制的合成数据对齐语言模型 Zifeng Wang 和 Chen-Yu Lee，2024 年 5 月 30 日。
智能体数据生成的兴起。 Maxime Labonne，2024 年 7 月 15 日。
大模型驱动的合成数据生成、管理与评估。 Cobus Greyling，2024 年 8 月 2 日。
使用大模型进行合成数据生成：权威指南 Kritin Vongthongsri，2024 年 11 月 8 日。

3. 调查研究:

语言模型合成数据的最佳实践与经验教训。 Ruibo Liu, Jerry Wei, Fangyu Liu, Chenglei Si, Yanzhe Zhang, Jinmeng Rao, Steven Zheng, Daiyi Peng, Diyi Yang, Denny Zhou, Andrew M. Dai. COLM 2024。
关于大模型驱动的合成数据生成、管理和评估的调查。 Lin Long, Rui Wang, Ruixuan Xiao, Junbo Zhao, Xiao Ding, Gang Chen, Haobo Wang. ACL Findings 2024。
用于数据标注的大语言模型：一项调查 Zhen Tan, Dawei Li, Song Wang, Alimohammad Beigi, Bohan Jiang, Amrita Bhattacharjee, Mansooreh Karami, Jundong Li, Lu Cheng, Huan Liu. EMNLP 2024。
用于合成数据生成的生成式人工智能：方法、挑战与未来。 Xu Guo, Yiqiang Chen. Arxiv 2024。
合成数据生成的全面探索：一项调查。 André Bauer, Simon Trapp, Michael Stenger, Robert Leppich, Samuel Kounev, Mark Leznik, Kyle Chard, Ian Foster. Arxiv 2024。

4. 方法:

4.1. 预训练 (Pre-training)

Phi-4 技术报告 Microsoft Research. Arxiv 2024。
Nemotron-CC：将 Common Crawl 转化为精细化的长时程预训练数据集 Dan Su, Kezhi Kong, Ying Lin, Joseph Jennings, Brandon Norick, Markus Kliegl, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro，Arxiv 2024
MAmmoTH2：扩展来自网络的指令。 Xiang Yue, Tuney Zheng, Ge Zhang, Wenhu Chen. Neurips 2024。
Hunyuan-Large：腾讯开源的具有 520 亿激活参数的 MoE 模型 Tecent Hunyuan Team. Arxiv 2024。

4.2. 指令微调 (Instruction Tuning)

STaR：通过推理引导推理 Eric Zelikman, Yuhuai Wu, Jesse Mu, Noah D. Goodman. NeurIPS 2022。
使用语言模型生成训练数据：迈向零样本语言理解 Yu Meng, Jiaxin Huang, Yu Zhang, Jiawei Han. NeurIPS 2022。
ZeroGen：通过数据集生成实现高效的零样本学习 Jiacheng Ye, Jiahui Gao, Qintong Li, Hang Xu, Jiangtao Feng, Zhiyong Wu, Tao Yu, Lingpeng Kong. EMNLP 2022。
符号知识蒸馏：从通用语言模型到常识模型 Peter West, Chandra Bhagavatula, Jack Hessel, Jena D. Hwang, Liwei Jiang, Ronan Le Bras, Ximing Lu, Sean Welleck, Yejin Choi. NAACL 2022。
非自然指令：使用（几乎）无人力来微调语言模型 Or Honovich, Thomas Scialom, Omer Levy, Timo Schick. ACL 2023。
大语言模型作为属性化训练数据生成器：多样性与偏差的故事 Yue Yu, Yuchen Zhuang, Jieyu Zhang, Yu Meng, Alexander Ratner, Ranjay Krishna, Jiaming Shen, Chao Zhang. NeurIPS D&B 2023。
Self-instruct：通过自我生成的指令对齐语言模型。 Yizhong Wang, Yeganeh Kordi, Swaroop Mishra, Alisa Liu, Noah A. Smith, Daniel Khashabi, Hannaneh Hajishirzi. ACL 2023。
在保持准确性的同时提高多样性：使用大型语言模型和人工干预生成文本数据 John Joon Young Chung, Ece Kamar, Saleema Amershi. ACL 2023。
大型语言模型可以自我改进 Jiaxin Huang, Shixiang Gu, Le Hou, Yuexin Wu, Xuezhi Wang, Hongkun Yu, Jiawei Han. EMNLP 2023。
使大型语言模型成为更好的数据创建者 Dong-Ho Lee, Jay Pujara, Mohit Sewak, Ryen W. White, Sujay Kumar Jauhar. EMNLP 2023。
使用大型语言模型生成可信的合成数据：计算社会科学的案例研究 Veniamin Veselovsky, Manoel Horta Ribeiro, Akhil Arora, Martin Josifoski, Ashton Anderson, Robert West, Arxiv 2023。
自我奖励的语言模型。 Weizhe Yuan, Richard Yuanzhe Pang, Kyunghyun Cho, Xian Li, Sainbayar Sukhbaatar, Jing Xu, Jason Weston. ICML 2024。
使用 1,000,000,000 个角色扩展合成数据创建。 Xin Chan, Xiaoyang Wang, Dian Yu, Haitao Mi, Dong Yu. Arxiv 2024。
学习生成用于零样本任务适配的指令微调数据集 Nihal V. Nayak, Yiyang Nan, Avi Trost, Stephen H. Bach. ACL Findings 2024。
重塑网络：一种计算和数据高效的语言建模方案 Pratyush Maini, Skyler Seto, He Bai, David Grangier, Yizhe Zhang, Navdeep Jaitly. ACL 2024。
大型语言模型的自动指令进化。 Weihao Zeng, Can Xu, Yingxiu Zhao, Jian-Guang Lou, Weizhu Chen. EMNLP 2024。
自博弈对抗性语言游戏增强大模型推理能力 Pengyu Cheng, Tianhao Hu, Han Xu, Zhisong Zhang, Yong Dai, Lei Han, Nan Du. Neurips 2024。
WizardLM：使大型语言模型能够遵循复杂指令。 Can Xu, Qingfeng Sun, Kai Zheng, Xiubo Geng, Pu Zhao, Jiazhan Feng, Chongyang Tao, Daxin Jiang. ICLR 2024。
CodecLM：通过定制的合成数据对齐语言模型。 Zifeng Wang, Chun-Liang Li, Vincent Perot, Long T. Le, Jin Miao, Zizhao Zhang, Chen-Yu Lee, Tomas Pfister. NAACL Findings 2024。
TarGEN：使用大型语言模型进行目标数据生成 Himanshu Gupta, Kevin Scaria, Ujjwala Anantheswaran, Shreyas Verma, Mihir Parmar, Saurabh Arjun Sawant, Chitta Baral, Swaroop Mishra. COLM 2024。
几乎从零开始的合成数据：用于语言模型的通用指令微调 Haoran Li, Qingxiu Dong, Zhengyang Tang, Chaojun Wang, Xingxing Zhang, Haoyang Huang, Shaohan Huang, Xiaolong Huang, Zeqiang Huang, Dongdong Zhang, Yuxian Gu, Xin Cheng, Xun Wang, Si-Qing Chen, Li Dong, Wei Lu, Zhifang Sui, Benyou Wang, Wai Lam, Furu Wei. 提交至 ICLR 2025。
预警在先：通过失败诱导探索利用大模型进行数据合成。提交至 ICLR 2025。
Magpie：通过使用无任何提示的对齐大模型从零开始合成对齐数据 Zhangchen Xu, Fengqing Jiang, Luyao Niu, Yuntian Deng, Radha Poovendran, Yejin Choi, Bill Yuchen Lin. 提交至 ICLR 2025。
Source2Synth：基于真实数据源的合成数据生成和管理 Alisia Lupidi, Carlos Gemmell, Nicola Cancedda, Jane Dwivedi-Yu, Jason Weston, Jakob Foerster, Roberta Raileanu, Maria Lomeli. 提交至 ICLR 2025。

4.3. 模型坍塌 (Model Collapse)

AI 模型在递归生成数据上训练时会发生坍塌 Ilia Shumailov, Zakhar Shumaylov, Yiren Zhao, Nicolas Papernot, Ross Anderson & Yarin Gal, Nature 2024。
在合成数据上训练有多糟糕？语言模型坍塌的统计分析。 Mohamed El Amine Seddik, Suei-Wen Chen, Soufiane Hayou, Pierre Youssef, Merouane Abdelkader DEBBAH. COLM 2024。
ToEdit：如何合成文本数据以避免模型坍塌？提交至 ICLR 2025。
超越模型坍塌：使用合成数据进行扩展需要强化 Yunzhen Feqng, Elvis Dohmatob, Pu Yang, Francois Charton, Julia Kempe. 提交至 ICLR 2025。

4.4. 大模型基准测试 (LLM Benchmarking)

DataGen：通过大型语言模型进行统一的合成数据集生成提交至 ICLR 2025。

4.5. 评估 (Evaluation)

关于合成数据的多样性及其对训练大型语言模型的影响 Hao Chen, Abdul Waheed, Xiang Li, Yidong Wang, Jindong Wang, Bhiksha Raj, Marah I. Abdin. 提交至 ICLR 2025。

4.6. 知识蒸馏 (Distillation)

FreeAL：在大型语言模型时代迈向无人值守的主动学习, Ruixuan Xiao, Yiwen Dong, Junbo Zhao, Runze Wu, Minmin Lin, Gang Chen, Haobo Wang. EMNLP 2023。
让我们逐步合成：通过从小模型外推误差，使用大型语言模型进行迭代数据集合成 Ruida Wang, Wangchunshu Zhou, Mrinmaya Sachan, EMNLP finding2023
使用大型语言模型进行文本分类的合成数据生成：潜力与局限性, Zhuoyan Li, Hangxiao Zhu, Zhuoran Lu, Ming Yin. EMNLP finding2023。

5. 应用领域:

5.1. 数学推理 (Mathematical Reasoning)

将大模型的分解能力提炼到紧凑型语言模型中 Denis Tarasov, Kumar Shridhar. AutoRL@ICML 2024。
MuggleMath：评估查询和响应增强对数学推理的影响 Chengpeng Li, Zheng Yuan, Hongyi Yuan, Guanting Dong, Keming Lu, Jiancan Wu, Chuanqi Tan, Xiang Wang, Chang Zhou. ACL 2024。
MathGenie：使用问题反向翻译生成合成数据，以增强大模型 (LLM) 的数学推理能力 Zimu Lu, Aojun Zhou, Houxing Ren, Ke Wang, Weikang Shi, Junting Pan, Mingjie Zhan, Hongsheng Li. ACL 2024。
MetaMath：为大型语言模型引导你自己的数学问题 Longhui Yu, Weisen Jiang, Han Shi, Jincheng Yu, Zhengying Liu, Yu Zhang, James T. Kwok, Zhenguo Li, Adrian Weller, Weiyang Liu. ICLR 2024。
通过迭代问题组合增强数学应用题 Haoxiong Liu, Yifan Zhang, Yifan Luo, Andrew Chi-Chih Yao. DPFM@ICLR 2024。
关键点驱动的数据合成及其在数学推理方面的增强 Yiming Huang, Xiao Liu, Yeyun Gong, Zhibin Gou, Yelong Shen, Nan Duan, Weizhu Chen. Arxiv 2024。
Dart-math：用于数学问题求解的难度感知拒绝调整 Yuxuan Tong, Xiwen Zhang, Rui Wang, Ruidong Wu, Junxian He. NeurIPS 2024。

5.2. 代码生成 (Code Generation)

使用大型语言模型进行程序合成 Jacob Austin, Augustus Odena, Maxwell Nye, Maarten Bosma, Henryk Michalewski, David Dohan, Ellen Jiang, Carrie Cai, Michael Terry, Quoc Le, Charles Sutton. Arxiv 2021。
CodeRL：通过预训练模型和深度强化学习掌握代码生成 Hung Le, Yue Wang, Akhilesh Deepak Gotmare, Silvio Savarese, Steven C.H. Hoi. NeurIPS 2022。
InterCode：标准化和基准化使用执行反馈的交互式编码 John Yang, Akshara Prabhakar, Karthik Narasimhan, Shunyu Yao. Arxiv 2023。
语言模型可以自学以更好地编程 Patrick Haluptzok, Matthew Bowers, Adam Tauman Kalai. ICLR 2023。
CODEGEN：用于代码的开源大型语言模型，具有多轮程序合成能力。ICLR2023。
Code Alpaca：在代码生成指令上训练的指令跟随 LLaMA 模型 Sahil Chaudhary。GitHub 2023。
Genetic Instruct：扩大用于大型语言模型 (LLM) 的编码指令合成生成 Somshubra Majumdar, Vahid Noroozi, Sean Narenthiran, Aleksander Ficek, Jagadeesh Balam, Boris Ginsburg. Arxiv 2024。
Magicoder：使用 OSS-Instruct 增强代码生成 Yuxiang Wei, Zhe Wang, Jiawei Liu, Yifeng Ding, Lingming Zhang. ICML 2024。
WaveCoder：通过指令微调对代码大型语言模型进行广泛而通用的增强 Zhaojian Yu, Xin Zhang, Ning Shang, Yangyu Huang, Can Xu, Yishujie Zhao, Wenxiang Hu, Qiufeng Yin. ACL 2024。
WizardCoder：使用 Evol-Instruct 增强代码大型语言模型 Ziyang Luo, Can Xu, Pu Zhao, Qingfeng Sun, Xiubo Geng, Wenxiang Hu, Chongyang Tao, Jing Ma, Qingwei Lin, Daxin Jiang. ICLR 2024。
学习改进性能的代码编辑 Alexander Shypula, Aman Madaan, Yimeng Zeng, Uri Alon, Jacob Gardner, Milad Hashemi, Graham Neubig, Parthasarathy Ranganathan, Osbert Bastani, Amir Yazdanbakhsh. ICLR 2024。
InverseCoder：使用 Inverse-Instruct 释放指令微调代码大模型 (LLM) 的力量 Yutong Wu, Di Huang, Wenxuan Shi, Wei Wang, Lingzhe Gao, Shihao Liu, Ziyuan Nan, Kaizhao Yuan, Rui Zhang, Xishan Zhang, Zidong Du, Qi Guo, Yewen Pu, Dawei Yin, Xing Hu, Yunji Chen. Arxiv 2024。
OpenCodeInterpreter：将代码生成与执行和改进相结合 Tianyu Zheng, Ge Zhang, Tianhao Shen, Xueling Liu, Bill Yuchen Lin, Jie Fu, Wenhu Chen, Xiang Yue. Arxiv 2024。
AutoCoder：使用 AIEV-Instruct 增强代码大型语言模型 Bin Lei, Yuchen Li, Qiuwu Chen. Arxiv 2024。
你的代码大模型 (LLM) 表现如何？使用高质量数据增强代码指令微调 Yejie Wang, Keqing He, Dayuan Fu, Zhuoma Gongque, Heyang Xu, Yanxu Chen, Zhexu Wang, Yujia Fu, Guanting Dong, Muxi Diao, Jingang Wang, Mengdi Zhang, Xunliang Cai, Weiran Xu. Arxiv 2024。
SelfCodeAlign：用于代码生成的自对齐 Yuxiang Wei, Federico Cassano, Jiawei Liu, Yifeng Ding, Naman Jain, Zachary Mueller, Harm de Vries, Leandro von Werra, Arjun Guha, Lingming Zhang. Arxiv 2024。

5.3. 文本到 SQL (Text-to-SQL)

从弱大模型 (LLM) 和强大型模型合成文本到 SQL 数据 Jiaxi Yang, Binyuan Hui, Min Yang, Jian Yang, Junyang Lin, Chang Zhou. ACL 2024。
Synthetic-Text-To-SQL：一个合成数据集，用于训练语言模型以从自然语言提示生成 SQL 查询 Meyer, Yev and Emadi, Marjan and Nathawani, Dhruv and Ramaswamy, Lipika and Boyd, Kendrick and Van Segbroeck, Maarten and Grossman, Matthew and Mlocek, Piotr and Newberry, Drew. Huggingface 2024。

5.4. 对齐 (Alignment)

宪法 AI：来自 AI 反馈的无害性 Yuntao Bai, Saurav Kadavath, Sandipan Kundu, Amanda Askell, Jackson Kernion, Andy Jones, Anna Chen, Anna Goldie, Azalia Mirhoseini, Cameron McKinnon, Carol Chen, Catherine Olsson, Christopher Olah, Danny Hernandez, Dawn Drain, Deep Ganguli, Dustin Li, Eli Tran-Johnson, Ethan Perez, Jamie Kerr, Jared Mueller, Jeffrey Ladish, Joshua Landau, Kamal Ndousse, Kamile Lukosuite, Liane Lovitt, Michael Sellitto, Nelson Elhage, Nicholas Schiefer, Noemi Mercado, Nova DasSarma, Robert Lasenby, Robin Larson, Sam Ringer, Scott Johnston, Shauna Kravec, Sheer El Showk, Stanislav Fort, Tamera Lanham, Timothy Telleen-Lawton, Tom Conerly, Tom Henighan, Tristan Hume, Samuel R. Bowman, Zac Hatfield-Dodds, Ben Mann, Dario Amodei, Nicholas Joseph, Sam McCandlish, Tom Brown, Jared Kaplan. Arxiv 2022。
在最少的人工监督下，从零开始的语言模型的原则驱动的自我对齐 Zhiqing Sun, Yikang Shen, Qinhong Zhou, Hongxin Zhang, Zhenfang Chen, David Cox, Yiming Yang, Chuang Gan. NeurIPS 2023。
SALMON：使用可指导奖励模型的自我对齐 Zhiqing Sun, Yikang Shen, Hongxin Zhang, Qinhong Zhou, Zhenfang Chen, David Cox, Yiming Yang, Chuang Gan. ICLR 2024。
使用合成数据进行行为对齐的大模型 (LLM) 的精细化直接偏好优化 V´ıctor Gallego. Arxiv 2024。
使用执行反馈进行自博弈：提高大型语言模型的指令跟随能力。Guanting Dong, Keming Lu, Chengpeng Li, Tingyu Xia, Bowen Yu, Chang Zhou, Jingren Zhou. 提交至 ICLR 2025。
Rainbow Teaming：多样化对抗性提示的开放式生成 Mikayel Samvelyan, Sharath Chandra Raparthy, Andrei Lupu, Eric Hambro, Aram H. Markosyan, Manish Bhatt, Yuning Mao, Minqi Jiang, Jack Parker-Holder, Jakob Foerster, Tim Rocktäschel, Roberta Raileanu. NeurIPS 2024。
使用指令反向翻译进行自对齐 Xian Li, Ping Yu, Chunting Zhou, Timo Schick, Omer Levy, Luke Zettlemoyer, Jason Weston, Mike Lewis. ICLR 2024。

5.5. 奖励建模 (Reward Modeling)

West-of-N：用于改进奖励建模的合成偏好生成。 Alizée Pace, Jonathan Mallinson, Eric Malmi, Sebastian Krause, Aliaksei Severyn. Arxiv 2024。

5.6. 长上下文 (Long Context)

让你的大模型 (LLM) 充分利用上下文。 Shengnan An, Zexiong Ma, Zeqi Lin, Nanning Zheng, Jian-Guang Lou. Arxiv 2024。
从人工针到真干草堆：通过在合成数据上进行微调来提高大模型 (LLM) 的检索能力。Zheyang Xiong, Vasilis Papageorgiou, Kangwook Lee, Dimitris Papailiopoulos。提交至 ICLR 2025。
通过分层合成数据生成将指令微调的大模型 (LLM) 扩展到百万 tokens 上下文提交至 ICLR 2025。

5.7. 由弱到强 (Weak-to-Strong)

由弱到强泛化：用弱监督引出强大的能力。Collin Burns, Pavel Izmailov, Jan Hendrik Kirchner, Bowen Baker, Leo Gao, Leopold Aschenbrenner, Yining Chen, Adrien Ecoffet, Manas Joglekar, Jan Leike, Ilya Sutskever, Jeffrey Wu. ICML 2024。
自博弈微调将弱语言模型转化为强语言模型。 Zixiang Chen, Yihe Deng, Huizhuo Yuan, Kaixuan Ji, Quanquan Gu. ICML 2024。
不可能的蒸馏用于释义和摘要：如何从小型的低质量模型中制作出高质量的柠檬水 Jaehun Jung, Peter West, Liwei Jiang, Faeze Brahman, Ximing Lu, Jillian Fisher, Taylor Sorensen, Yejin Choi. NAACL 2024。

5.8. 智能体与工具使用 (Agent and Tool Use)

ToolAlpaca：使用 3000 个模拟案例进行语言模型的通用工具学习。Qiaoyu Tang, Ziliang Deng, Hongyu Lin, Xianpei Han, Qiao Liang, Boxi Cao, Le Sun. Arxiv 2023。
Toolformer：语言模型可以自学使用工具。Timo Schick, Jane Dwivedi-Yu, Roberto Dessì, Roberta Raileanu, Maria Lomeli, Luke Zettlemoyer, Nicola Cancedda, Thomas Scialom. NeurIPS 2023。
GPT4Tools：通过自指令教大型语言模型 (LLM) 使用工具。Rui Yang, Lin Song, Yanwei Li, Sijie Zhao, Yixiao Ge, Xiu Li, Ying Shan. Neurips 2023。
Gorilla：与海量 API 连接的大型语言模型。 Shishir G. Patil, Tianjun Zhang, Xin Wang, Joseph E. Gonzalez. NeurIPS 2024。
质量至关重要：评估用于工具使用大模型 (LLM) 的合成数据。Shadi Iskander, Nachshon Cohen, Zohar Karnin, Ori Shapira, Sofia Tolmach. EMNLP 2024。
Voyager：具有大型语言模型的开放式具身智能体。Guanzhi Wang, Yuqi Xie, Yunfan Jiang, Ajay Mandlekar, Chaowei Xiao, Yuke Zhu, Linxi Fan, Anima Anandkumar. TMLR 2024。

5.9. 视觉与语言 (Vision and Language)

视觉指令微调 Haotian Liu, Chunyuan Li, Qingyang Wu, Yong Jae Lee. NeurIPS 2023。
Qwen-VL：用于理解、定位、文本阅读及其他功能的多功能视觉-语言模型 Jinze Bai, Shuai Bai, Shusheng Yang, Shijie Wang, Sinan Tan, Peng Wang, Junyang Lin, Chang Zhou, Jingren Zhou. Arxiv 2023。
G-LLaVA：使用多模态大型语言模型解决几何问题 Jiahui Gao, Renjie Pi, Jipeng Zhang, Jiacheng Ye, Wanjun Zhong, Yufei Wang, Lanqing Hong, Jianhua Han, Hang Xu, Zhenguo Li, Lingpeng Kong. 提交至 ICLR 2025。
MiniGPT-4：使用先进的大型语言模型增强视觉-语言理解 Deyao Zhu, Jun Chen, Xiaoqian Shen, Xiang Li, Mohamed Elhoseiny. ICLR 2024。
通过图像理解的自训练增强大型视觉语言模型 Yihe Deng, Pan Lu, Fan Yin, Ziniu Hu, Sheng Shen, James Zou, Kai-Wei Chang, Wei Wang. NeurIPS 2024。
LLaVA-OneVision：简易的视觉任务迁移 Bo Li, Yuanhan Zhang, Dong Guo, Renrui Zhang, Feng Li, Hao Zhang, Kaichen Zhang, Yanwei Li, Ziwei Liu, Chunyuan Li. Submit to TMLR。

5.10. 事实性 (Factuality)

MiniCheck：在基础文档上对大模型 (LLM) 进行高效的事实核查 Liyan Tang, Philippe Laban, Greg Durrett. EMNLP 2024。
微调语言模型以提高事实性 Katherine Tian, Eric Mitchell, Huaxiu Yao, Christopher D. Manning, Chelsea Finn. ICLR 2024。

5.11. 联邦学习 (Federated Learning)

提示公共大型语言模型为私有设备端应用合成数据。Shanshan Wu, Zheng Xu, Yanxiang Zhang, Yuanbo Zhang, Daniel Ramage. COLM 2024。
利用大型语言模型生成私有合成文本。Alexey Kurakin, Natalia Ponomareva, Umar Syed, Liam MacDermed, Andreas Terzis. Arxiv 2024。

5.12. 生成式设计 (Generative Design)

通过质量-多样性数据合成和语言模型实现生成式设计。 Adam Gaier, James Stoddart, Lorenzo Villaggi, Shyam Sudhakaran. GECCO 2024。

5.13. 安全性 (Safety)

SynthPAI：个人属性推断的合成数据集 Hanna Yukhymenko, Robin Staab, Mark Vero, Martin Vechev. NeurIPS D&B 2024。

6. 工具 (Tools)

DataDreamer：用于合成数据生成和可复现的大模型 (LLM) 工作流程的工具。 Ajay Patel, Colin Raffel, Chris Callison-Burch. ACL 2024。
AgentInstruct：迈向使用智能体流程的生成式教学。 Arindam Mitra, Luciano Del Corro, Guoqing Zheng, Shweti Mahajan, Dany Rouhana, Andres Codas, Yadong Lu, Wei-ge Chen, Olga Vrousgos, Corby Rosset, Fillipe Silva, Hamed Khanpour, Yash Lara, Ahmed Awadallah. Arxiv 2024。
Distilabel：用于构建包含和面向大模型 (LLM) 的数据集的 AI 反馈 (AIF) 框架。Álvaro Bartolomé Del Canto, Gabriel Martín Blázquez, Agustín Piqueres Lajarín and Daniel Vila Suero. GitHub 2024。
Fuxion：使用 Langchain + 大模型 (LLM) 的合成数据生成和标准化功能。

7. 数据集 (Datasets)

Open Artificial Knowledge Vadim Borisov, Richard Schreiber. ICML Workshop 2024。
PromptSource：自然语言提示的集成开发环境和存储库 Stephen H. Bach, Victor Sanh, Zheng-Xin Yong, Albert Webson, Colin Raffel, Nihal V. Nayak, Abheesht Sharma, Taewoon Kim, M Saiful Bari, Thibault Fevry, Zaid Alyafeai, Manan Dey, Andrea Santilli, Zhiqing Sun, Srulik Ben-David, Canwen Xu, Gunjan Chhablani, Han Wang, Jason Alan Fries, Maged S. Al-shaibani, Shanya Sharma, Urmish Thakker, Khalid Almubarak, Xiangru Tang, Dragomir Radev, Mike Tian-Jian Jiang, Alexander M. Rush，ACL 2022 Demo。
Super-NaturalInstructions：通过 1600 多个 NLP 任务的声明式指令实现泛化 Yizhong Wang, Swaroop Mishra, Pegah Alipoormolabashi, Yeganeh Kordi, Amirreza Mirzaei, Anjana Arunkumar, Arjun Ashok, Arut Selvan Dhanasekaran, Atharva Naik, David Stap, Eshaan Pathak, Giannis Karamanolakis, Haizhi Gary Lai, Ishan Purohit, Ishani Mondal, Jacob Anderson, Kirby Kuznia, Krima Doshi, Maitreya Patel, Kuntal Kumar Pal, Mehrad Moradshahi, Mihir Parmar, Mirali Purohit, Neeraj Varshney, Phani Rohitha Kaza, Pulkit Verma, Ravsehaj Singh Puri, Rushang Karia, Shailaja Keyur Sampat, Savan Doshi, Siddhartha Mishra, Sujan Reddy, Sumanta Patro, Tanay Dixit, Xudong Shen, Chitta Baral, Yejin Choi, Noah A. Smith, Hannaneh Hajishirzi, Daniel Khashabi。EMNLP 2022。

目录

1. Github 仓库:

2. 博客:

3. 调查研究:

4. 方法:

4.1. 预训练 (Pre-training)

4.2. 指令微调 (Instruction Tuning)

4.3. 模型坍塌 (Model Collapse)

4.4. 大模型基准测试 (LLM Benchmarking)

4.5. 评估 (Evaluation)

4.6. 知识蒸馏 (Distillation)

5. 应用领域:

5.1. 数学推理 (Mathematical Reasoning)

5.2. 代码生成 (Code Generation)

5.3. 文本到 SQL (Text-to-SQL)

5.4. 对齐 (Alignment)

5.5. 奖励建模 (Reward Modeling)

5.6. 长上下文 (Long Context)

5.7. 由弱到强 (Weak-to-Strong)

5.8. 智能体与工具使用 (Agent and Tool Use)

5.9. 视觉与语言 (Vision and Language)

5.10. 事实性 (Factuality)

5.11. 联邦学习 (Federated Learning)

5.12. 生成式设计 (Generative Design)

5.13. 安全性 (Safety)

6. 工具 (Tools)

7. 数据集 (Datasets)