当前位置: 代码迷 >> 综合 >> 胡晓曼:MindSpore 开源运营与治理 | DEV. Together 2021 中国开发者生态峰会
  详细解决方案

胡晓曼:MindSpore 开源运营与治理 | DEV. Together 2021 中国开发者生态峰会

热度:25   发布时间:2024-01-12 08:32:33.0

内容来源:2021 年 6 月 5 日,由 SegmentFault 思否主办的 2021 中国开发者生态峰会圆满落幕。会上,华为 MindSpore 运营总监胡晓曼发表了主题为《MindSpore 开源运营与治理》的演讲。

分享嘉宾:胡晓曼,华为 MindSpore 运营总监

速记整理及发布:SegmentFault 思否编辑部

           

 

今天跟大家分享一下 MindSpore 的开源运营与治理。在讲之前,先跟大家做个自我介绍。我叫胡晓曼,15年毕业,毕业之后一直在做算法工程师,做了四年的算法工程师写了四年代码,19年去了百度,做深度学习布道师,去年加入华为,负责 MindSpore 整个社区的开源运营。其实在接到大会邀请的时候,我非常地诧异,也非常开心,因为从算法转到运营的时候,我特别担心会不会失业(笑)。因为圈子太小了,很多人不会特别关注开发者运营这个事情。其实开源运营可以算是新的工种,它不像研发或算法工程师去做图像、做 NLP,有非常明确的目的,也有非常明确的职业规划,在市面上找任何这样的工作都非常方便。所以今天跟大家分享到底什么是开源运营与治理,我们这一年到底在做什么事情?

 

什么是开源运营与治理?

 

开源运营到底是什么?我总结了几个点。

 

 

我们认为开源运营的核心点用技术把圈内人连接起来,用创新的方式把圈层的影响力不断扩大,让圈外人也能知道你的技术产品是什么。很多人只注重前者,做的内容只针对圈内技术人群,但是如果要火,一定要让不想看你内容的人也能看完,我们叫「出圈」。但难点在于,现在很多运营的方式非常趋于同质化,大家对于运营很常见的误解是他们是做新媒体的,或者是不是在朋友圈发广告的,以为他们是小编,这其实是一种误区。我们发现市面上有技术背景的运营同学非常少见,也非常非常难招。我们要运营的是技术框架,那么有技术背景对于我们来说是必不可缺的。我们目前整个团队基本上都是有技术背景的。

 

整体的开源运营的内容,我把它分为四块:第一块是产品运营,包含我们常见的内容、渠道、社区、KOL 以及品牌;第二块是社区治理,包括TSC、SIG、WG等;第三块是开源合作,包括功能型合作和应用型合作等等;后一块是我们最常见的基础设施,包括 CI 系统,也有数字化运营看板,帮助你更好地了解运营效果到底怎么样。

 

总结而言,我们目前对于开源运营有几个原则。第一,我们认为开源运营的核心人员必须要懂技术。我待过的一些运营团队中,很多人是不懂技术的。那么在正常的工作中,你很难跟他进行深入的交流,对于框架或者对技术本体,我们到底应该采取哪种合适的方式,让开发者更好地了解它。来到华为之后,我们要求我们组所有人必须懂技术,如果你不会,那就去学。有的同学是学文科的,我们要他也必须去学Shell脚本去学Python,再慢慢去学习 MindSpore。

 

第二,营销和商业的氛围不要过于浓厚。很多人会把运营、市场和商务BD分不清楚。他们会说,这三个好像可以互相转换,运营不也是用推销吗?营销市场marketing不也是做广告吗?好像会让人感觉没有区别。但其实运营和marketing和营销人员是有本质区别的,我们不是纯粹的PR,不是纯粹地打广告。

 

第三块是我们总结出来的经验,在所有的运营块,我们认为应该要敢于试错。我们现在没有特别完整或者说特别规范的一条路让大家去遵循。对于很多方式,我们都是在去尝试。尝试之后,再去看它的效果,如果觉得效果可以,就把比较好的经验总结下来,如果觉得不太好,我们再继续去迭代。不断迭代,反复复盘再总结经验,实践多了,路就出来了。

 

先简单讲一下MindSpore是什么,它是去年3月28号华为开源的一个全场景AI计算框架。有人会觉得很疑惑,现在市面上已经有TensorFlow、PyTorch,为什么我们还要去做深度学习框架?它的核心优势在哪里?你凭什么让开发者选择你的框架,把原来的框架给替换掉?

 

 

其实MindSpore有几个非常核心的点。大家可以看到右边“自动并行”、“二阶优化”,这两点让大家能够非常高效地训练模型。比如说你原来需要一周或一天的时间来训练模型,那么在其他条件不变的情况下,使用MindSpore,你可以极大地缩短模型训练时间,这对于很多企业实际生产落地是非常大的优势。第二是动静态图的转化非常方便,适合开发者切换。第三是全场景部署协同,对于开发者而言简化了部署流程,具有非常好的易用性。后面的几点就不详细讲了,今天主要是讲开源运营,这里只是给大家介绍一下我们MindSpore到底是什么。

 

我们做了一年的开源社区运营,整体来说,截止到2020年5月底,MindSpore累计下载量有35万多,整体的PR数是2.6万,目前社区一共上线了120多个模型、2000多个上线应用。没有用过不要紧,大家如果用的是华为手机,华为手机就有用MindSpore Lite训练的模型应用,日均调用量3亿多次。

 

开源运营与治理核心内容

 

接下来进入正题。今天想跟大家分享的是用模型的思维做开源运营。

 

 

我以前是做算法的,我们每天要去训练各种各样的模型,现在发现这个思路完完全全可以用到运营上面。大家想一下,我们做算法的时候,拿到一个项目,首先关注的是项目的需求应该怎么样去分析,怎样满足业务方。那么在分析完需求之后,我们要去对数据做大量地清洗,获取高质量的数据,再去进行模型训练、模型评估,看模型效果再进行调优。如果达到指标了,我们就可以进行模型的上线和部署。

 

把这个思路放到运营这块也是一样的,运营也是需要先了解现在要做的项目,要达到怎样的目标,再来分解任务。比如说我们要做MindSpore的开源运营,那么我们首年的目标是什么,第二年的目标是什么,第三年之后我们要做成什么样都需要先想清楚。所以头三年的目标我们要先要确定,尤其是首年的。首年的目标确定了之后,我们要对目标进行分解,比如 MindSpore 第一年我们要达到的总体下载量是10万。这个数字是怎么出来的呢?其实10万这个数字并不是非常明确的目标,不是说其他家首年下载是10万,我们也得是10万。我们只是认为要达到这个数字,就能证明我们有向上的趋势,我们才有值得继续向前去做的基础,两者之间是相关性,不是因果性。

 

那么分解指标之后,我们在做的所有运营活动都得满足最小MVP原则,什么意思呢?就是我们做任何活动都会满足最小可用产品原则。比如我们团队开发的一个技术项目TinyMS,它是基于MindSpore做的高级API工具,这个小工具是为了让大家,尤其是小白更轻松地上手,非常简单地去学习MindSpore,入门AI。当时我们做这个工具的时候,我们团队虽然大家都有技术背景,但有些同学不是纯算法,那我们一定要想好这个产品的最小可用的产品形态是怎么养的,需要设计一个解决用户痛点,同时功能不能过于复杂的技术架构。于是我设计了整体的技术架构,带着组里的研发把核心功能做出来,三个月先出一个版本,做出来上线之后看开发者的反应,再不断地去调整,在下一个阶段第二个版本迭代的时候,去做相应的调整。所以,最小MVP上线之后,我们要对它的效果做一些评估。不管是我们做的技术项目也好,还是说做任何课程,都会去看活动带来哪些核心指标的转化,评估之后进行优化,再不停地反复迭代,知道我们总结出一个可复用成经验的方法论,后续再做新产品/任务的时候可以按照流程化去做,大量节省人力,并且保证产品质量的稳定性。

 

我们可以看到,算法模型和运营模型有非常多的相同点。第一个相同点是都可以作为项目制,都要满足最小MVP原则把项目尽快上线,而不是说花一两个月的时间去做一节课,这非常浪费时间,市场并不会等你。第二个是都需要反复迭代。你就反复地去迭代,去发现问题所在,不断地去优化它,你的效果才能不断地进步。第三个是不管是算法还是做运营,都需要做到差异化竞争。比如说做推荐算法,淘宝的推荐、京东的推荐、拼多多的推荐一定是有机制上的差异的。如果说三个都一样,那对于用户来说在选择上会有一定的份额流失。尤其是对运营来说,你如果没有差异化的推荐,今天用户看到其他厂商做了课程,可以选他们的课程,隔天又看到我们做的课程,那用户为什么要选择我们?我们跟他们的差异化在什么地方?是我们老师更强,课程设计更有趣?还是我们运营的服务体验更好,能够让所有的用户在上课之后还能有些答疑,能够得到完整的学习反馈?这是我们在做项目的时候需要经常思考的点。

 

但是它们还有几个不同的地方。第一个是在公司里做算法模型需要更多地关注大量的数据。因为不管网络结构优化到什么地步,根据经验,更多的时候还不如把数据做到足够好,增加到足够多的高质量数据去训练模型。但是运营更关注的是实际的数据。要警惕数据指标的虚假繁荣,它虽然能在一定程度上体现工作成果,但也会蒙蔽你需要改进和提升的点。当然会有人持反对意见,认为数据能够反映一切。我们不争论这个论点,我想表达的是开源运营这个类别比较新,你没有办法找到非常符合你现在运营需求的数据,去帮你做前期的调研,再给你们一些指导建议,再去做项目。别人的调研数据和你现有的繁荣数据的统计指标不一定能给你真实的正确的指标。第二个点是算法模型经常做反复地优化和迭代,达到一定的阈值之后再上线,但运营不是,运营最需要的是快速地产出你所期望的内容。要给自己设置一个baseline,即设置一个基线的版本,而不是说我把产品的功能全部做完了,才能上线。做完再上线,别的竞品可能早就已经出来了,压根不会等你。第三个是算法模型对于异常值,或者对于个体的关注会非常小,尤其是我们对于这种离异点的关注并不会特别的大(大部分场景)。但我觉得运营一块对于个体的关注还是会非常重要,因为你只有知道开发者,尤其是一对一或者跟足够多的开发者去聊,知道他们内心真正关注的产品核心痛点是什么。你跟他聊了之后,才能做一些精细化的运营,找到他们最核心的诉求。不断的假设自己是用户,以及真正到用户场景下体验,和真正的用户聊,才能挖掘需求的本质。这不仅是做运营很重要的一点,做产品也是一样。

 

开源运营的整个体系化结构可以分为这几块。

 

 

第一块是品牌营销。品牌营销这块,我们会做一些大型活动。活动的目的就只是为了提升品牌的影响力,不对关键的指标做直接转化。很多人会问你们做这种大型活动到底带来了哪些收益,做市场的人也可能会解释不清楚到底带来怎样的收益。你可以说这个会议或是全网的关注量、播放量有多少,但老板会问你,它到底带来了什么收益?我们最后得出来结论,对于品牌营销,我们不对关键的直接指标做转化。你看,我们做大型的会议、大型的活动,最后真的能像播放量的数字一样,提升我们的核心指标吗?未必,但让更多的用户感知也是非常重要的一环。

 

第二块是开源运营的核心内容。这块内容非常多,我们有各种各样不同的形式,包括文章、图文、视频、播客等等。形式非常多样,我们要做到高频的产出,对于每类活动或者内容,我们都会设定特定的指标去做提升。比如课程,我们为了提升核心的开发者,那么核心的开发者,我们就不会把它放在你去做播客或者是做一些对于开发者比较好的短视频来去作为他的指标来去提升。

 

第三块是高校拓展。高校拓展是为了解决用户的源头问题,做高校拓展是为了发展开发者的基数,收集学生的建议,提升整体框架或者整体产品的应用性。

 

最后一块是企业落地。今年我们会联合华为AI计算中心昇腾创新中心,做核心区域的企业行活动,给企业提供算力并赋能,拓展一些企业的落地项目,提升市场份额。

 

品牌营销

 

先给大家讲一下我们做的哪些品牌营销。比如今年五月初,在央视CCTV-2《经济半小时》里,给大家介绍了MindSpore这一年来做出的成绩。第二块是MindSpore周年庆。因为MindSpore是在去年3月28号开源的,所以我们在今年的3月28号做了周年庆活动,邀请了TSC委员会的成员、全球40多位技术专家和核心开发者以及企业落地用户录制祝福视频和技术分享。最后是MindSpore吐槽大会。吐槽大会大家看过吧,我们为什么要做吐槽大会呢?因为很多开发者对我们的产品有一些建议,但是他没有办法或者没有渠道做一些非常直观的吐槽,基本就是提issue,或者去QQ群/论坛提问,所以我们就给开发者提供这么一个渠道,让大家集中地去吐槽。这样既可以拉近开发者和我们之间的距离,也可以让我们的核心开发人员知道产品哪些地方容易让开发者产生不好的体验,实际做下来,效果非常好。此外,左边是一些高端活动,右边是今年刚刚通过的可信开源社区评估体系认证,MindSpore是首批并且是唯一一个通过可信开源评估的AI框架。它的评估不仅包括技术,也包括社区的运营、社区的规范、社区的治理等等,对每个方面都会有评分,还是非常不容易的。

 

核心内容

 

接下来看核心内容这一块。先给大家说下产品内容,我们这块不仅包括自产内容,也包括开发者的内容。我们如果是自己产,那相当于我们自己关着门自己玩。我们一定要鼓励开发者,尤其是核心开发者去给我们贡献内容。开发者内容不仅包括普通的开发者、社区的开发者给我们去写文章,或者他参加了活动之后写了一些技术文章,我们还会联系一些核心的KOL给我们做一些核心技术亮点的视频。

 

这个是我们团队做的技术项目,刚刚给大家讲过。其实很多人对运营团队有刻板印象——运营团队也能做技术项目吗?包括我们公司内部也会觉得很奇怪:哎,这个项目你们是不是找的研发去做的?其实完全没有必要。我们当时想一个小白新用户去接触MindSpore框架,对他来说上手是有一定难度的,得熟悉它的API、整体架构,这对于纯小白开发者来说是有门槛的。TinyMS的目的是降低门槛,让纯小白开发者学习AI没有门槛,从零就能够去学习上手AI类的项目。TinyMS的整体架构非常简单,数据类的模块内置了很多数据集,在Model类里内置了不少常用的深度学习模型,对于开发者来说,你只需写一行代码就可以做数据集的调用、模型训练以及模型部署。

 

除了技术项目,我们所有的课程基本上都会录制一个系列。左上角的是21天集训营,是我们去年十月份做的趣味实战类课程;右上角是每一次迭代发布新版本发布之后做的两日集训营,让开发者能够最快速地了解我们迭代的新特性;下面是TinyMS配套的保姆级教程;右边是SIG meeting,以及TSC meeting等等。同一系列的视频,我们都是用相同的封面,风格非常统一,重点也非常突出,方便开发者寻找视频。公众号这一块比较常规,就不仔细讲了。整体的要求是希望我们的运营团队在做公众号的时候能够保持主KV色调一致,因为我们的主logo是渐变蓝,然后在高峰时段统一发布。

 

MindSpore B站运营的话,刚刚已经给大家讲了我们B站目前是哪些内容,投放的话也会在高峰的时间段去做。所有现在这些视频都已经上传到了CCF的电子图书馆,大家不仅可以在B站上看,也可以在CCF数字图书馆看。目前,我们是唯一一个在CCF图书馆上有完整视频学习课件的AI计算框架。

 

说到抖音,其实很多人会很好奇我们为什么要去做抖音。因为常规理解来说抖音并不是技术人员爱逛的社区,很多程序员手机里都没有抖音。但是我们当时想现在开发者越来越年轻。而MindSpore刚刚出来,很多人并不知道MindSpore到底是什么,到底有哪些亮点,它和其他框架的特性对比提升点到底在哪个地方。按照惯例,我们发布新版本都是有release note对吧?会有一系列具体的更新,这些更新对于作为新用户的开发者来说太长了,并不知道重点是哪一条。所以我就想能不能够用一分钟的视频给大家讲解我们版本发布的亮点。重点:不要超过一分钟,用贴近开发者生活的故事去讲我们版本迭代更新的技术特性。

 

比如左下角这个视频,这个是0.6-beta的版本。该版本当时发布的核心点之一Wide&Deep,Wide&Deep当时训练用昇腾的16pcs,23.6分钟就可以训练完成,在目前所有框架里是性能最高的。如果我直接说这样一句话,内行的会懂,但是你不做推荐方向的人不会懂,外行就更不懂了。所以当时我们就套了这么一个故事,女主角想要了解他有哪些喜好,可以用MindSpore的Wide&Deep模型,只需要23.6分钟就可以训练完成,做一个“猜你喜欢”的系统。然后打上了“爱情”的标签,把这个故事拍成一个短视频上线了之后,24小时内播放量达到10万+。我没有做任何投放,因为抖音投放太贵了,而且我们不知道效果怎么样,我们只是靠内容去吸引大家关注我们的产品亮点。

 

除了抖音之外,我们还运营了视频号和播客号。视频号以开发者内容为主,主题比较多变,形式非常有趣。但播客号不一样,播客号的内容集中在和AI技术专家的访谈为主,我们会分享AI产业实践落地的东西,跟视频号会有差异化。

 

整体的社区之间的体系,我们设置得也是跟常规的体系设置不一样的。

 

 

大家可以看到右下角这个图,我们分为SI、ST、GI、GT等等。它是MindSpore单词的拆分,中间加了Gradient和Jacobi的单词,每个等级的开发者都会有编号,且编号唯一。比如你今天参加了我们活动的认证,那么我们会给你认证的编号。你在社区的代号是唯一的,这个代号不同于GitHub账号或者其他的账号是你的个人标识,这个账号代表你在社区的标识。我们把这个推出来之后,更多的开发者愿意参与或者走进我们的社区,就是为了得到社区的认证编号,让他觉得有一种归属感和存在感。在KOL运营这块,在B站我们找了科普类KOL李永乐老师,来给我们用非常简单的方式讲解MindSpore到底能做什么。

 

直播这块其实非常常见,大家也都会做。但直播这块我们其实也是有区分的,我们会在抖音和B站上做直播,B站上的比较常规,分享技术内容,是纯分享式的直播,不会和观众面对面或者时刻关注弹幕去交流,一般都是先讲完了再看看有没有弹幕问题再去回答。抖音直播,和另外的人连线需要点PK模式,这对于开发者来说,它是非常新、而且沉浸式的互动。我可以邀请MindSpore技术专家共同聊聊技术特性到底是怎么产出的、开发过程中遇到哪些问题,会让开发者对这个技术特性有更深刻的兴趣或理解。除了找技术专家做直播以外,我们同样也会邀请开发者做直播。我们所有的优秀开发者都需要在抖音上做直播的答辩,去分享他们与MindSpore的故事。同样,MSG组织者也需要经过答辩,如果成为MSG组织者需要做哪些内容、有哪些经验等,并且所有直播我们都会公开放在B站上面。

 

课程这块,21天集训营是面向初中级开发者的趣味性课程。很多课程,尤其深度学习课程,第一堂课大多数是手写数字识别,对于很多开发者来说会有“审美疲劳”。如果我要学习MindSpore,第一课也是要学手写数字识别,就会觉得很没劲。我们当时就想第一课能不能用一种比较新的课程实践。当时微博有个热搜,一个云南的小伙子误食了毒蘑菇,出现了幻觉。于是我们就想,能不能够用MindSpore去做毒蘑菇识别,帮开发者或者日常生活中的人们检测蘑菇到底有没有毒。我们马上就研发了模型,找了蘑菇的数据集,去做了案例。没想到反响还挺好,大家最后做出来之后会拿各种各样的蘑菇图片,包括超级玛丽的那种蘑菇去测试。这非常能够拉近开发者对于框架技术本身的联系。此外还有两日集训营,从去年开始,我们每个月月末会做一次迭代并发布新版本,新版本会有新的特性。除了刚刚讲到的用技术视频让圈外的人了解新特性以外,圈内的人或开发者更希望知道这些特性能不能够运用在实际生产过程当中。所以我们做了两日集训营,专门让这些特性研发的技术专家来讲特性到底做了什么内容,做一些技术直播的干货分享。

 

下面是MindCon 极客周。MindCon 极客周是去年底做的活动,活动成本非常低,几乎没有花什么成本,但最后的效果非常好。我们最后整体收获了我1万多名D0级开发者参与贡献,合入了20多条bugfix。我们怎么做的呢?当时我们创建了一个组织MSG,MSG是MindSpore Study Group的简称,即MindSpore学习小组,我们去年做的是区域性的组织,在各个城市,包括上海、北京、深圳以及苏州、杭州、天津等都会做这么一些区域型的组织。让所有城市组织者来做比拼:哪个城市的人解决的bug越多,积分就会越高。最后得到积分最高的,我们会有一个物质激励。虽然激励不多,但是会非常激发开发者的兴趣,到最后他们来解bugfix的时候,他们已经被解bugfix、参与开源的过程给吸引住了,而不是仅仅说为了得到这个奖励才参加活动。所以即使没有获得第一,那也参与到开源贡献中了,从0成为开源转化的贡献者。

 

刚刚提到了一个词:MSG。其实大家看到TensorFlow、PyTorch都会有各自的区域型组织,TensorFlow的组织叫TFUG。我们完全可以做自己的城市化组织,MSG就是各个不同的区域组织一些线下活动。去年我们主要做的是区域型的组织,年底的时候做了一些高校型的,今年我们把它更为系统地梳理了一下,包括区域型、高校型和企业型。从去年七月份到现在,不到一年的时间,我们国内做了13个城市,海外做了七个城市(当然海外都是线上的),做了五场校园行,最后是做企业是一个尝试,我们联合白玉兰开源、云启资本、Julia社区、Graviti等一些初创公司,做了一个初创企业MSG,去了解他们公司,尤其是做开源的初创公司,到底有哪些是我们这边可以提供的。企业行对投资方来说是非常有收益的,因为它们在当中可以发现一些优秀的初创开源企业;对于我们来说也很有帮助,可以了解到现在市场上对于开源社区到底是怎么样的衡量标准,从而指导我们的工作,更好的去理解工作;对于参与的企业来说,他们也可以学习到优秀的开源社区到底应该怎么去做。所以是一个三方互赢的一件事儿,未来我们会做更大更多的探索,在下半年会围绕昇腾创新中心,做核心区域的企业行活动,给企业提供算力并赋能,持续拓展。

 

在技术比赛这块,我们面向学生、面向开发者、面向高校都有不同的活动。举例来说,面向学生的比赛是暑期2021开源软件供应链点亮计划,让大家参与社区做一些具体的任务;面向开发者做一些TinyMS模型复现赛。当时我们做的时候,TinyMS 0.1版本是3月31号发布的,我们发布了四个模型,让大家去复现。就是你用其他的框架做的模型,能不能用TinyMS再去复现一下。大家知道第一个提交复现的是多少时间吗?17小时内就有开发者基于TinyMS做出了第一个模型的复现。非常意外和惊喜!到现在,我们发布了一个月之后,四个模型都已经提交完成了。我们比赛设置的是三个月,开发者的积极性和对于产品的认可度已经远超我们当时的预期。

 

社群运营这块就不细说了,我们包括QQ群、微信群、Slack群,整体社群人数目前已经达到了2万+。很多群刚开始的时候比较火热,但是做一段时间就死了或者大家不说话了,这其实是很有问题的。如果大家不说话,我们会持续地丢一些技术问题,或者一些亮点的东西,激发开发者的兴趣,让大家持续在群里面进行讨论。还可以把活跃的开发者分散在各个不同的群里,这样就不用全部都是由官方的工作人员去运营。

 

这个是我们去年尝试的新的运营活动,朋友圈的话题运营。朋友圈有个新的功能:加上#号,带上话题,点击进去可以看到你的朋友圈里面用这个话题的有哪些朋友圈。我们给开发者提供MindSpore Lite的apk,这个apk安装到安卓手机上之后,你可以用它直接来拍照,去检测你现在拍到的物体是什么东西。于是我们策划了「MindSpore搞笑嘉年华」——找到最鬼畜的东西,带上这个话题发朋友圈。这对于很多开发者来说并没有任何难度,只是为了让大家能够更快地接触到这款产品,体验它的检测速度、准确率。整体来看,我们收获了非常多的搞笑的图片。并且有的开发者不满足于只用官方提供的apk做扫描,还基于自己的数据重新训练了模型来检测街上各种不同的人等等。

 

高校拓展

 

第三块是高校拓展。今年我们和教育部联合做了智能基座的项目,签了72所高校,会在学校里开课,以及MSG高校行的活动。学生是用户源,希望同学们能在学校里就养成在开源社区贡献的习惯、多接触到优质项目,持续提升技术能力。

 

企业落地

 

最后一块是企业。企业这块对于很多开源社区来说其实不太好做,尤其是对新的开源社区。我们采取的策略是先打头部用户,除了我在PPT上展示的,今年在HTC(4月23号)我们和鹏程实验室合作出了中文版的GPT-3模型——盘古大模型,它也是国内发布的首个最大中文GPT-3模型。还有深圳湾实验室,深圳湾实验室其实是来自于社区的线索。我们去年7月20号做的第一场深圳MSG,当时深圳湾实验室的张老师过来跟我们分享分子动力学的内容,听了MindSpore的分享后,在想是不是可以用MindSpore来做他们的训练框架,因为分子动力学模拟有非常多的高阶导数需要计算。他们尝试着用TensorFlow,当时用的是一点几的版本,对于分布式训练以及高阶导数的计算支持得并不是那么好。后来又转到PyTorch,发现很好用,但是性能却没有TensorFlow好,这两个就很矛盾。后来来到我们MindSpore社区之后,发现MindSpore在性能方面是有足够优势的,于是就用MindSpore去做,目前进展顺利。此外还有和京东联合创立了NLP标杆算法,在智能客服场景里去应用等等。

 

社区治理

 

最后是开源社区的治理。我们采取的态度是完全开源开放的态度。目前的技术委员会TSC成员都来自于各个不同的高校或者企业。除了专家委员会以外,我们还有一些SIG组,可以让对某个模块比较感兴趣的同学加入到SIG组里具体地做一些参与开发的工作。

 

大家可以看左边这张图,目前有包括akg图算融合的、data数据增长与处理的,以及scurity安全的等等。其实还有很多SIG组。我们今年和上海交大的曹老师新增了一个用户体验DX-SIG组,收集用户使用产品的问题和建议,再去改进。SIG组的开发方式,大家可以看一下,就不细讲了。提交issue之后,我们会有committer进行任务指派,开发完成就可以提交PR直到合入闭环。

 

我们整个基础设施包括CI系统、CI-CLA机器人与同步机器人。大家可以在Gitee上开发,也可以去GitHub上去贡献。

 

最后是数字化的运营看板。它包括很多,包括目前的star、fork、watch,以及你的每个层级的开发者。MindSpore的核心指标的变化趋势,以及下载量的组成,用户的留存,项目的健康度等等,所有这些都会集中在数字化运营看板里面。数字化运营看板可以及时帮我们复盘每一次活动带来的收益,即除了我们自己会统计,我们也需要有第三方平台帮我们统计,这样的话,双方验证就能知道你的活动到底实际带来的增量是多少,用户的拉新和留存的情况,再进一步分析。这些都可以帮助你来去反思,让你明白你的社区现在应该采取什么样的策略才能更好成长。

 

开源合作

 

开源合作这块,我们与Apache TVM、CNCF基金会、LFAI&Data基金会等均有合作,同时在AIIA开源开放推进组也有一些具体的开源合作内容,未来会一一跟大家见面。

 

这就是今天给大家分享的MindSpore开源运营和治理的相关内容,希望未来有更多的人加入到开源社区运营,推动开源生态,谢谢。

关注【开发者生态】公众号回复:hxm 下载演讲 PPT

点击【阅读原文】观看胡晓曼演讲视频,重温精彩时刻