本人求职中!大模型 Post-Training 方向 · 长三角、南方地区优先 · 如果您有兴趣,欢迎联系 zhimi64@foxmail.com 👀 了解更多

關於我

算法工程師,對大語言模型的訓練與優化充滿熱情。具備基於國產千卡集群的後訓練調優經驗,負責了多個大模型實際項目的落地。目前正在尋找全職工作機會,base 長三角地區。

感興趣的方向

大模型 Post-Training

  • Supervised Fine-Tuning (SFT):指令微調的數據構建、策略設計與效果評估
  • RLHF / DPO:對齊技術的實現與改進
  • Reward Modeling:獎勵模型的訓練與泛化能力研究
  • 多模態對齊:視覺語言模型的 post-training 階段訓練策略

更廣泛的興趣

  • 大模型訓練基礎設施與訓練效率優化
  • 模型評估與評測體系建設

如果您認為我的博客有趣,或者對您有幫助,歡迎您為我介紹相關的工作(* ̄︶ ̄)

聯繫方式

郵箱:zhimi64@foxmail.com

歡迎交流與推薦機會!