minimind

kanshan/minimind

Fork 0

mirror of https://github.com/jingyaogong/minimind.git synced 2026-01-13 19:57:20 +08:00

Commit Graph

Select branches

Hide Pull Requests

docs

master

website

#132

#136

#144

#162

#189

#2

#204

#205

#214

#214

#237

#240

#240

#262

#29

#315

#317

#323

#331

#34

#349

#354

#376

#377

#383

#385

#394

#409

#412

#42

#421

#421

#424

#43

#44

#442

#443

#452

#452

#478

#478

#491

#493

#497

#497

#503

#507

#507

#509

#513

#518

#518

#521

#521

#523

#523

#524

#524

#528

#534

#536

#539

#54

#54

#543

#569

#569

#570

#571

#577

#579

#586

#586

#59

#59

#591

#591

#594

#598

#599

#599

#609

#609

#621

#63

#77

#77

#86

#90

#95

minimind-v1

v2

1279a61681 [update] prompt prefill master jingyaogong 2026-01-13 17:46:54 +0800
db82ca8bce

Merge f5079ce090 into 05d0b216f6 LearnMan 2026-01-08 19:08:28 +0000
09f012ef4d

Merge b3069d4743 into 05d0b216f6 yuyu5333 2026-01-08 17:30:44 +0800
fe3dde125d

Merge 4fd7b5a65b into 05d0b216f6 Dong Jiaxin 2026-01-08 17:13:08 +0800
77084acab2

Merge daf6cc0c2e into 05d0b216f6 李子浩 2026-01-07 21:59:46 +0100
05d0b216f6 [update] show speed jingyaogong 2026-01-07 23:33:47 +0800
df89069362 [update] params log jingyaogong 2026-01-07 23:08:45 +0800
f55d4c32a0 [update] mask log jingyaogong 2026-01-07 22:12:26 +0800
c972c4e090

Fix DPO loss_mask boundary (include first assistant token) xiao-baia 2026-01-07 21:00:46 +0800
20a43d7db0 [update] readme jingyaogong 2026-01-07 00:58:38 +0800
f9341bc0e2

Merge e34bd5c90e into 7641985d14 Jifeng Zhao 2026-01-06 16:27:43 +0800
7641985d14 [update] simplify loader jingyaogong 2026-01-06 01:20:52 +0800
0b4a8ad4aa [update] readme jingyaogong 2026-01-06 01:18:10 +0800
07364c3fbe [update] rename train tokenizer jingyaogong 2026-01-06 01:17:33 +0800
a91ecceda7

Merge 3692d609be into 9830915d87 Daisuki 2026-01-05 23:18:01 +0800
9830915d87 [update] readme jingyaogong 2026-01-05 23:15:25 +0800
4e73f34823 [update] rename reason jingyaogong 2026-01-05 23:11:49 +0800
a8455ca8a3 [fix] messages num jingyaogong 2026-01-04 11:03:16 +0800
42a4e8c86a [fix] dist cleanup jingyaogong 2026-01-02 22:25:55 +0800
9d898576ac [update] aux loss jingyaogong 2026-01-01 22:37:49 +0800
c65335b56f [fix] experts unused jingyaogong 2025-12-31 21:47:04 +0800
bc8fd82166 [fix] layers set 8 jingyaogong 2025-12-31 21:06:37 +0800
5dd4df7e18 [fix] moe unused jingyaogong 2025-12-31 21:00:06 +0800
9236260a4a [feat] get params jingyaogong 2025-12-31 20:46:59 +0800
288a1d7212 [feat] get params jingyaogong 2025-12-31 20:44:34 +0800
e34bd5c90e docs: clarify pretraining data format in README dieu 2025-12-31 13:39:59 +0800
eead9538b2 [feat] update config jingyaogong 2025-12-31 10:29:13 +0800
6242980917 [feat] update lr jingyaogong 2025-12-31 10:27:09 +0800
936d105e9b [feat] compatible tokenizer jingyaogong 2025-12-31 10:26:46 +0800
4a5c9f5ece [feat] stream load data jingyaogong 2025-12-28 16:58:52 +0800
7eae14f3ce [feat] remove empty_cache jingyaogong 2025-12-27 07:14:36 +0800
daf6cc0c2e

Apply suggestions from code review 李子浩 2025-12-24 16:14:18 +0800
0afc6d6741 [fix] table flow website jingyaogong 2025-12-24 13:43:10 +0800
41ef5fd8b8 perf: merge LoRA weights into base model for inference whitesword 2025-12-23 20:55:52 +0800
3d4f37bf61 start to pr whitesword 2025-12-23 20:14:53 +0800
9faf7a6fea feat: implement merge_lora function whitesword 2025-12-23 20:10:01 +0800
11b962da06 [feat] explicit left padding jingyaogong 2025-12-23 18:59:48 +0800
a9c56b20e9 [fix] lora weight jingyaogong 2025-12-22 21:27:29 +0800
048d84abc7

Merge pull request #594 from whiteswordLI/fix/lora-load-ddp-weights jingyaogong 2025-12-22 21:19:16 +0800
3a18fdd666 Fix: support loading DDP-saved LoRA weights for inference whitesword 2025-12-22 20:50:25 +0800
3692d609be refactor: optimize tensor wrapping in lm_dataset.py dsq 2025-12-20 15:09:26 +0800
b3069d4743

Delete README_web.md yuyu5333 2025-12-17 16:52:43 +0800
d137420466

Merge pull request #1 from Litmeb/codex/modify-lora-code-for-rsvd Ltimbe 2025-12-16 19:37:14 +0800
bae81a2ce9 Add rSVD-based adaptive LoRA rank estimation Ltimbe 2025-12-16 19:36:14 +0800
4fd7b5a65b 添加数据集加载逻辑、网页内容抓取与多卡并行模型推理 DirakeasSea 2025-12-16 01:59:49 +0000
e988830b31

Merge 7de4b9ecd6 into fe24501602 yuyu5333 2025-12-15 15:43:10 +0800
fe24501602 [feat] adjust seq length jingyaogong 2025-12-14 20:41:58 +0800
05616a8bd1 Feat: Introduce Gated Attention to improve model performance wanghao 2025-12-12 21:32:40 +0800
66263101b9 feat: Add LoRA alpha scaling factor for improved parameter efficiency and stability wanghao 2025-12-12 11:30:47 +0800
02ae87113e

Merge 717d465689 into fa82707c9c VinodHatti_ 2025-12-11 23:17:51 +0530
fa82707c9c [feat] update readme jingyaogong 2025-12-11 15:45:50 +0800
5129f0e2a2 [fix] dtype & lr jingyaogong 2025-12-09 13:01:38 +0800
aa7dc0f61e

Merge pull request #571 from dyhuachi/dyhuachi-patch-1 jingyaogong 2025-12-09 12:59:11 +0800
511b317511

Merge b7f58ce95e into ecd1ae1563 dyhuachi 2025-12-08 16:30:15 +0800
b7f58ce95e

Merge branch 'jingyaogong:master' into feat-merge-lora-model dyhuachi 2025-12-08 16:28:34 +0800
c37d924b47 [fix]:Fixed the gradient explosion problem that occurred during pre-training of the MOE module. dieu 2025-12-08 15:25:34 +0800
bf3878ace8

[fix] Refactor get_lr function to include min_lr calculation dyhuachi 2025-12-06 17:09:51 +0800
ecd1ae1563 [fix] reduce aux_loss_alpha jingyaogong 2025-12-05 23:08:29 +0800
be979ec9e7

Modify LoRA application conditions in model_lora.py Ltimbe 2025-12-05 21:13:42 +0800
cc29d9a351 feat: add merge_lora.py to support merging LoRA weights into base model dieu 2025-12-05 13:55:20 +0800
5e1447b913 [fix] cuda memory #559 jingyaogong 2025-12-01 16:17:43 +0800
151fdf7e76 [feat] update yarn jingyaogong 2025-12-01 16:15:05 +0800
6b86ea399a [feat] release memory jingyaogong 2025-11-27 19:39:49 +0800
0ebf835006 update start bash yuyu5333 2025-11-14 07:40:47 +0000
aee1913d3d update para from_resume yuyu5333 2025-11-25 03:28:56 +0000
d9dddccd71 update process step wangyuzhan 2025-11-21 18:43:41 +0800
826a1fbe1e add process step wangyuzhan 2025-11-21 17:44:24 +0800
b336bc6008 remove useless file yuyu5333 2025-11-21 17:22:33 +0800
4b1bd00eaa 第一次尝试 wzyandyzw 2025-11-21 17:14:12 +0800
5e5b1bedb0 update web ui yuyu5333 2025-11-21 15:34:01 +0800
80f75a252b update log flash wangyuzhan 2025-11-21 15:11:11 +0800
dfe1e5c6c7 update web dataset file wangyuzhan 2025-11-21 14:11:37 +0800
8845d9170c update web dataset file wangyuzhan 2025-11-21 12:33:04 +0800
249d1c08fe update web dataset file wangyuzhan 2025-11-21 12:09:05 +0800
a0013eae8f update web dataset file wangyuzhan 2025-11-21 10:41:05 +0800
4a741b3d3b update web dataset file wangyuzhan 2025-11-20 21:55:48 +0800
fc1f07bf74 remove sdk wangyuzhan 2025-11-20 21:19:28 +0800
102a7c0199 update web ui wangyuzhan 2025-11-20 20:47:00 +0800
a95568644b update import web wangyuzhan 2025-11-20 17:21:10 +0800
a794898a18 update check web server health wangyuzhan 2025-11-20 15:58:31 +0800
25cf74eec1 update sdk wangyuzhan 2025-11-20 15:54:08 +0800
d7f4f4eab8 [fix] ppo mask jingyaogong 2025-11-19 23:39:02 +0800
f5374dc87f [fix] model attn_mask jingyaogong 2025-11-19 22:26:53 +0800
63d50b8778 fix: resolve high vulnerability trailofbits.python.pickles-in-pytorch.pickles-in-pytorch orbisai0security 2025-11-19 06:08:46 +0000
66dcb40db7 init sdk wangyuzhan 2025-11-18 21:35:26 +0800
52b7b88ec2 update web wangyuzhan 2025-11-18 21:21:13 +0800
a044578d73 [fix] update model jingyaogong 2025-11-18 13:07:20 +0800
ce9394670b

Merge pull request #536 from yuyu5333/fix/attn_forward jingyaogong 2025-11-18 13:02:46 +0800
7d02ce673c fix: attn_forwad when is_causal=True assert attn_mask is None yuyu5333 2025-11-18 03:17:17 +0000
49bd32f168 support rl-grpo, rl-spo yuyu5333 2025-11-17 17:46:19 +0800
58c39a020c [feat] Support Minimind retrieval-augmented generation (RAG) ztzhu1 2025-11-17 00:08:37 +0800
9c98cabc9a [fix] prompt length calculate jingyaogong 2025-11-15 18:25:37 +0800
544c889533 rewrite web yuyu5333 2025-11-14 16:08:30 +0800
ebf1a853ab update bash start yuyu5333 2025-11-14 15:45:36 +0800
c0b39e2396 rewrite web wangyuzhan 2025-11-14 14:21:14 +0800
7c947e59c1 update http && process logs yuyu5333 2025-11-13 07:01:05 +0000
3a03cedd00 support Swanlab check yuyu5333 2025-11-11 13:26:34 +0000
04477b72f2 update safe web yuyu5333 2025-11-11 07:43:17 +0000
d66a7945db support ppo and Training web code refactoring yuyu5333 2025-11-11 07:40:38 +0000
3f316cb2c5

Merge d4f2339c1b into f3441b0078 Wenjie Dong 2025-11-10 22:13:40 +0530