<input id="pdps3"><address id="pdps3"></address></input>
      1. <dl id="pdps3"><ins id="pdps3"></ins></dl>

            <dl id="pdps3"></dl>

            <output id="pdps3"><font id="pdps3"><td id="pdps3"></td></font></output>

            <dl id="pdps3"><ins id="pdps3"></ins></dl>

            1. <small id="pdps3"><object id="pdps3"></object></small>
              <listing id="pdps3"><object id="pdps3"></object></listing><code id="pdps3"><object id="pdps3"></object></code>
            2. <meter id="pdps3"></meter>

                <tt id="pdps3"><pre id="pdps3"></pre></tt>

                      <dl id="pdps3"></dl>

                    1. <li id="pdps3"><s id="pdps3"><thead id="pdps3"></thead></s></li>

                        1. 技术干货

                          对于工业互联网的模式以及发展路径,信通院从制造业态的角度提出了大规模化定制、智能生产(叠加式/集成式)、网络化协同、服务化延伸等典型模式,行业中也有不少从实现技术、业务领域等不同的角度的深刻探讨。这里仅从生产要素的视角,谈谈我们对工业互联网的一些?#26234;?#35748;识。     生产模式、主导企业能力决定了工业互联网的模式   对于一个行业,其生产模式、主导企业能力决定了工业互联网的模式。这也是“生产力决定生产关系”这一唯物辩证思想在具体领域的体现。     生产模式   制造业生产模式主要体现在生产要素、行业价值链(行业分工协作方式)、生产力制?#23478;?#32032;等方面。   生产要素包括自然资源(土地)、资本、劳动力、管理(或企业家)经济学经典的四要素 1 ,以及最近提出的技术、信息等维度 2 。   行业间的生产要素存在显著差异。比如,在技术维度上,相对于SMT产线,液晶面板生产的工序长、设备类型多、工艺复杂。这些生产要素的差异可能决定?#21496;?#33829;模式的差异。例如,在设备(资本的一个细项)维度上,类似设备/装置(如:电机、动力电池、工程机械)的运维技术通用性较强,有一定的“公用性“的基础,而对于强机理、定制化设备(如:海工装备、大型化工装置),定制化服务可能是“最经济”的方法。   企业的核心能力   企业的能力,包括资源禀赋(掌握的生产要素)、组织结构能力(基于要素的生产能力)、环境制度能力(可撬动的生产要素)和创新能力,决定了他能解决的问题和受约条件,从而客观决定了其主导的工业互联网模式及其角色的选择范围。   同一类型企业,在不同产业链中,其资源禀赋可能不同。同为装备制造商,风力发电机组制造商对于装备后服务的掌控力比鼓风机制造商要大些,风力发电组是风场的核心装备,而鼓风机通常只是生产中的辅助设备之一,是生产工序中的一环,其工作状态受上下游设备影响很大,而这些上下游参数很少能回馈到第三方装备制造商,设备制造商掌握的更多是自产装备的振动、温度等监测量。   生产模式及核心能力决定工业互联网模式   以机加工为例,机床制造商的核心能力在于设备制造成本、对设备机理的深刻了解;而业主的核心能力在于工艺经验及产线整合。机床等某种特定类型装备也只是机加工Job Shop中的关键设备之一,业主的机床操作水平甚至超过原厂商,对来料品质、在制件质量的信息掌握也远超设备制造商。   从而,机床厂?#35752;?#23548;的工业互联网可能集中在设备租赁、制造谷—打造区域共性制造?#34892;摹?#20379;应链金融—将加工能力或在?#24452;?#21333;货币化。而机加工龙头企业可能会集中在产能转移及制造协同生态等方面,把老旧机台(相对于新产品的质量要求)转移到?#34892;?#20225;业,并将其工艺经验、机台的工程能力优化、质量控制、原材?#31995;?#37319;购能力以工业互联网的形式一并转移,快速提升?#34892;?#20225;业的加工能力。   工业互联网模式的成功要素   工业互联网模式就是如何解决当前价值链中生产要素配置的典型方法。对于一种工业互联网模式,反过来结合行业生产模式、核心企业的能力的分析,可更加明确其关键成功要素(必要条件)和发展路径。   工业互联网的价值创造之路:“新四化”   工业互联网是解决当前价值链中生产要素配置的一种手段,主要体现一下四类基本途径。   · 资源的“公用化” 降低设备/软件/计算资源/数据资源的TCO (Total Cost of Ownership),包括: 制造谷:把共性的制造装备及能力公用化 制造云:把专业软件、高性能计算资源、大数据数据集资源集中起来 物流园区:把大宗物质的购买、仓储、加工、运输等功能集中化   · 能力的“金融化” 通过供应链金融、设备租赁等手段,解决?#24335;?#21608;转的制约,这在大宗基础物质(如钢铁、水泥等)行业比较普遍。   · 流程的“协同化” 通过协同研发,协同制造,包括个性化定制,供需匹配,如新能源互联网,产能转移等手段提高价值链效率。   · 技能的“专业化” 将共性行业数据、行业知识、分析模型等分享出来,促进专业化分工   关键成功要素分析   对于一个选定的工业互联网模式(四个基本途径的组合),通过行业生产模式、核心企业的能力的分析,可更加明确其关键成功要素(必要条件)和发展路径。   以支撑工业APP Store为主的工业互联网模式为例(特别是APP主要来自于第三方的模式),APP的数量、质量、丰富性以及落地载体都是成功的关键要素。   在如何吸引优秀应用开发者入住平台这一细节问题上,我们必须回答工业互联网为开发者提供了什么便利?或者说开发者目前的瓶颈在哪里?比如:开发资源、IT运行环境、推广等。   对于很多行业应用(比如,故障诊断APP)开发来说,其瓶颈在于行业专家缺乏足够可靠的数据样本(比如,重大故障),以及完备的维度信息(全生命周期设备档案)、以及领域模型(比如航空发动机的流体力学分析,通常是分析模型的特征变量)。而APP推广不是瓶?#20445;?#24403;前已经存在很多机制就会让优秀专家和APP“酒香不怕巷子深?#20445;?#22240;此,全量的行业数据集和丰富的行业基础API也许是这类工业互联网早期的关键成功要素。   总 结 本文简要讨论了工业互联网模式的决定因素,以及如何分析其成功的必要条件。因为篇幅限制,没有讨论不同工业互联网模式对技术的要求。根据工业互联模式的成功要素分析,可以归纳出其背后的众多关键支撑技术。例如,对于产能协同工业互联网模式,工艺知识的形式化以及?#34892;?#30693;识产权保护;产能量化,其中包括动态产能估算、设备工程能力、单位加工成本核算;加工需求解耦、任务分配与信用评估机制等,生产力自由流动的前提。而对于设备运维服务模式,若不能构建设备的全生命周期档案,在此之?#31995;腁PP Store也就成了无?#31895;?#27700;。这就需要工业大数据、数据分析(包括人工智能)、物联网(边?#23548;?#31639;、新型传感技术、通信技术)等各个技术的?#34892;?#34701;合。 ...

                          Read More

                          问答机器人(Chatbot)已经渗透到我们生活中的各个角落,如Apple公司的Siri、Amazon的Alexa、阿里的旺旺。它们可以陪你闲聊、设?#31181;印?#35746;餐厅、控制?#19994;紜?#20570;商品导购等。在工业场景下,聊天机器人?#24515;?#20123;场景呢?比如,用户可以询问某个品?#21697;?#26426;当月的发电量和故障停机时间;查询机舱加速度超限的可能原因以及需要更换的备件,帮你?#19994;?#26816;修该故障最有经验的专家;询问公司的安全生产制度或报销流程。 相比其他领域,工业场景的Chatbot有如下特点: 1.需要领域内专业词库的支持,比如故障、备件名称; 2.需要多数据源的跨库查询,需要大数据平台的支持,比如同时查询海量的生产实时数据和故障事件数据; 3.需要基于专家知识的知识?#35745;?#25903;持,这点类似医疗知识?#35745;?#30340;应用,因为仅靠人工编写对话脚本,是无法穷尽所有可能问题的。 以上特点使得构建工业上好用的Chatbot?#27973;?#22256;难,当然困难程度因业务需求而异。另?#29615;?#38754;,Chatbot本身技术架构是通用的、可借鉴其他领域的,因此本文重点介绍通用的技术架构部分,先从Chatbot的分类说起。 1. Chatbot分类 Chatbot按照用途,可分为闲聊型和任务型两种。 闲聊型又称为开放域Chatbot,就是可以跟用户谈天说地,比如风靡一时的小黄鸡,用户更关注这类Bot的趣味?#38498;?#26234;能性。闲聊技能通常是数以万计的历史问答(QA)对学?#25226;?#32451;来的,同时还可以从新对话中学习,实现自我进化。 任务型又称为特定领域Chatbot,比如为用户导购的阿里旺旺,这种场景下用户更关注Bot答案的准确性,对Chatbot的开发者来讲就是可控性。 工业场景与之类似,通常首要考虑的就是回答的准确性,知之为知之不知为,比如用户询问发电机过热怎么办,Bot即便回答不知道,也?#28982;?#31572;去吃退?#25214;?#24378;,所以属于任务型Chatbot。 Chatbot按照技术框架可分为检索式、生成式和启发式。 2. Chatbot基本原理 Chatbot原理框图如下图所示: ASR(Auto Speech Recognition)和TTS(Text To Speech)代表语音识别和语音合成,它们分别实现语音转文字和文字转语音功能,是chatbot的入口和出口,是与用户进行语音交互的部分,当然也可以采用其他交互方式,比如文字(微信、浏览器页面等)。 核心对话模块是本文要展开介绍的内容,它包括: NLU(Natural Language Understanding)是采用NLP(Natural Language Processing)技术对用户问题进行意图识别和实体抽取。意图识别是要弄清楚用户到底要问什么,如是查询故障发生次数还是故障原因;实体抽取是这个意图下的具体槽位值。比如问句是“上个月发电机故障次数是多少?#20445;?#24847;图就是“查询故障次数?#20445;?#25925;障名称的槽位值是“发电机故障?#20445;?#26102;间的槽位值是“上个月”。意图识别可以描述成为分类问题,使用机器学习的方法来解决,如SVM、fastText;实体抽取使用NLP里的NER(命名实体识别)相关技术解决。 DM(Dialogue Management)模块根据问题匹配到相应答案(或采取什么动作,如查数据库或调用API);在多轮对话中它还负责对话状态跟踪,根据当前的对话状态(从历史对话内容更新获得),决定如何进行下一轮对话(或直接采取动作)。比如“上个月发电机故障次数是多少”问句除了故障名称和时间两个槽位,还有城市的槽位值(如是?#26412;?#36824;是上海),DM模块根据当前这个状态,要决定继续追?#35270;没А?#35201;查那个城市的故障?”。常用的DM策略包括有限状态机,HMM和神经网络[1]。 NLG(Natural Language Generation)是将DM模块返回的结果(如关键词、聚合数据)转变成自然语言文本,最常用的方法是通过规则模板生成回答,类似于NLU中问题匹配的逆向过程,另一种是基于深度学习的seq2seq生成方法。 以上介绍了Chatbot的基本框架和原理,从零开始开发Chatbot工作量很大,好在有大量的Chatbot框架可以使用,下面对几个常用的开源框架做简要介绍。 3. 任务式Chatbot构建工具框架 3.1 基于REfO的问句匹配 REfO(Regular Expressions for Objects)并不是一个框架,它把正则表达式的功能扩展到对象级别,它能同时使用关键和槽位匹配用户问句,从而实现DM模块的问句匹配功能,它支持python。举例, 见下图,REfO表达实现了“上个月发电机故障次数是多少”这个问句的匹配,匹配之后可以触发相应动作从数据库中查找问题答案。参见文献[2]提供REfO 匹配问句Python脚本实现例子。REfO虽然能匹配槽位,但是其脚本编写繁琐,也没有对话状态跟踪机制,基于脚本的规则引擎克服了上述缺点。 REfO问句匹配示例 3.2 基于脚本的规则引擎 该引擎根据人工编制的对话脚本,自动匹配问题模式,给出回答(动作),因此开发者只需把精力放在脚本编写上。引擎?#32423;?#20102;脚本语法,满足大部分对话编制需求,如随机对话模式、通配符、变量捕获、Topic机制(多轮对话机制)、动作触发(函数调用)等。常见的规则引擎包括AIML[3]、ChatScript[4]、RiveScript[3]、SuperScript[6],引擎诞生时间从早到晚,但其中最有名的还是AIML(支持Python调用)。其中使用AIML和ChatScript开发的Bot,都曾多次赢得年度Loebner Prize[7]人工智能大奖。RiveScript和SuperScript脚本更加简洁,下图是同一个随机问答功能的脚本比较,可见RiveScript要比AIML更简洁友好。此外RiveScript支持多开发语言Go/Java/JavaScript/Perl/Python,SuperScript虽然仅支持JavaScript,但其内嵌了图数据库功能,NLU和DM功能较RiveScript更加强大 。 AIML随机回答模式脚本 今天天气真好 是呀,天气不错。 要不出去走走? 希望?#21051;?#22825;气都这么好! RiveScript 随机回答模式脚本 + 今天天气真好 - 是呀,天气不错。 -...

                          Read More

                          智能制造不是一场突然而至的革命,也不是?#36135;?#32780;就的革新。   今天,我们不谈大数据和人工智能将为中国工业带来什么,也不谈昆仑数据服务的行业巨头企业在数字化转型上可圈可点的成果,我们希望抛开智能,看看中国万千?#34892;?#22411;制造企业谈及对新兴技术?#26159;?#20026;何会如鲠在喉。   ·技术不解决最根本的问题   如果真的到中西部、东南沿海乃至江浙工业重镇走一圈,你就会了解到,目前大多数?#34892;?#20225;业仍旧处在工业2.0阶段。企业为了保证交期、减少质量问题而疲于?#27982;?#29978;至缺乏最基本的标准化流程和作业的标准化,更不用谈管理的系统化,生产交付永远处于?#28982;?#29366;态,而粗放的管理方式一旦在企业内部形成恶性循环,不是靠“机器换人”和“信息化系?#22330;?#21487;以解决的。我们认为管理水平的提升、流程的优化、标准化的建立是当前企业应该首要解决的问题,才能让“智能”发挥出最大的价值。   ·智能化才刚?#25484;?#27493;   有多少制造企业长期依靠?#22303;?#21171;动力或牺牲环境资源赚得一手利润差,就将会有多少企业在低端制造业外流的浪潮下朝不保夕。有关数据显示,时至今日,我国企业信息化应用水平较高的企业仅占14.6%,多数企业使用智能设备替代人工的动力不足。现阶段,?#35789;?#24341;入智能设备,也仅停留在初级应用阶段,远没?#34892;?#25104;构建智能制造体系的战?#36816;?#32500;和总体规划。我国制造业全面实现数字化、网络化、智能化还有很长的路要走。   ·人才瓶颈制约   我国传统的工业重镇一般都地处偏远,且不说北上广深,也很?#24310;?#20154;才抢夺战中的网红省会城市一?#30784;?#36825;种人才的缺乏不仅仅是技术型岗位。从经营管理层面来看,企业缺少具有预见力的领军人物,以及在高水平的研发、市场开拓、财务管理等方面的专门人才。从技术员工?#28216;?#23618;面来看,初级技工多,高级技工少;传统型技工多,现代型技工少;单一技能的技工多,复合型的技工少的现象普遍存在。员工综合素质偏低,直接制约了智能制造系统的应用和推广。而在国家战略层面,涉及智能制造标准制定、国际谈?#23567;?#27861;律法规等方面的高级专业人才更是明显的“短板”。   ·工业界缺乏国际话语权   不得不承认,在工业领域,我国产、学、研的整体科技水平与美日欧等先进国家仍有较大差距。智能化的软硬件缺乏自主研发技术,除了被美国拿来要挟?#34892;?#29983;死的“高端?#37202;保?#24037;业制造中大量高端传感器、操作系?#22330;?#20851;键零部件主要?#35272;到?#21475;,在一定程度上阻碍了智能制造的发展。我国虽然是制造大国,但是由我国主导制定的制造业国?#26102;?#20934;并不多,国际上对中国标准的认可度也不高,中国在全球制造标准领域缺少话语权及影响力。   与昆仑数据服务的大型行业龙头企业相比,新兴技术的快速更迭正在加大这种制造业“贫富差距”。 “智能制造”、“企业上云”的观点都会每年不断被重复,在中国万千?#34892;?#22411;制造企业中,有的为了顺应政策号召?#31895;?#22312;表面做到了形似,而我们,更愿意以长期价值来衡量新兴技术如何渗透到一线,给企业带来多少利润和价值提升。   如何将显性知识、隐性经验、隐藏在过程数据中的模式规律透过新型感知、执行应用到设备控制、生产管理、工艺设计或经营过程中?   每个工业领域都经历了几十年的发展,有其特殊的行业知识沉淀。以?#27425;分?#24515;做工业大数据与工业智能,只有扎根行业,常驻一线,才能完成行业知识重构。   弯下身子搞“制造?#20445;?#34429;然不及翘起脚尖搞“智能”听起来高大上,但这正是当下工业界需要正面应对的问题。...

                          Read More

                          对于已经工作的我们 每年高?#32423;?#26159;一波回忆杀 有时候不经意想起那?#38382;?#20809;还是会热血沸腾 回望那个夏天总是有很多感动 其实高考不是终点,而是新的起点 …… 各位超龄考生们 与其感慨高考作文题 不如来刷一波昆仑数据热招岗位的考试题 现在开考↓↓↓ ...

                          Read More

                          提起我们大K2的数据分析团队,那可是相当优秀?#26680;?#26524;累累、客户满意,又有世界数据竞赛冠军加身,那这些大神平时都看什么书呢?#23458;?#38431;的首席数据科学家田博士就给出这样?#29615;?#20070;单,今天就让我们公开一下大神的内功秘籍吧!一共15本,排名?#29615;?#20808;后,能熟读巧用这些书籍的?#38431;?#25237;简历:[email protected]   数据挖掘经典教程推荐:四书五经一宝典一手册 这系列书目,包括4本入门书籍以及7本比较基础的书籍,适合对数据分析?#34892;?#36259;以及想从事该行业的人群阅读。   《数据挖掘:概念与技术》 作者: Jiawei Han 出版社: 机械工业出版社 ISBN: 9787111188285 内容简介: 全面实用地论述了从实际业务数据中抽取出的读者需要知道的概念和技术。以及统计和机器学习方面的更多资料。包含了许多算法和实现示例,全部以易于理解的伪代码编写,?#35270;?#23376;实际的大规模数据挖掘项目。   《回归分析》 作者:?#25381;? 出版社: 社会科学文献出版社 ISBN: 9787509716014 内容简介: 《回归分析》源于作者多年在密歇根大学教授回归分析的课程讲义,从基本的统计概念讲起,对线性回归分析的基本假定、回归中的统计推论和回归诊断做了详尽的介绍,同时?#36141;?#30422;了很多在社会科学中对实际研究?#27973;?#26377;用的内容,包括虚拟变量、交互作用、辅助回归、多项式回归、样条函数回归和?#33258;?#20989;数回归等。此外,《回归分析》还涉及通径分析、纵贯数据模型、多层线性模型和Iogit模型等方面的内容。   《图解机器学习》 作者: 杉山将 出版社: 人民邮电出版社 译者: 许永伟 ISBN: 9787115388025 内容简介: 本书适合所有对机器学习?#34892;?#36259;的初学者阅读。187张图解轻松入门,提供可执行的Matlab程序代码,覆盖机器学习中最经典、用途最广的算法,东京大学教授、机器学习权威专家执笔,浓缩机器学习的关键知识点,基于最小二乘法讲解各种有监督学习的回归和分类算法,以及无监督学习算法。   《机器学习》 作者: 周志华 出版社: 清华大学出版社 ISBN: 9787302423287 内容简介: 机器学习是计算机科学与人工智能的重要分支领域. 本书作为该领域的入门教?#27169;?#22312;内容上尽可能涵盖机器学习基础知识的各方面。适合有一定数学知识以及具有类似背景的对机器学?#26696;行?#36259;的人士。为方便读者, 本书附?#20960;?#20986;了一些相关数学基础知识简介。   《Pattern Recognition and Machine Learning》 作者: Christopher Bishop 出版社: Springer ISBN: 9780387310732 内容简介: 经典的机器学习书籍,难度适中,精选了最本?#39318;?#32463;典的算法模型,进行深入浅出的介绍。   《The Elements of Statistical Learning》 作者: Trevor...

                          Read More

                          他,去年刚从英国曼彻斯特大学念完硕士回国,?#25250;?#21516;学就被K2?#20449;?#30000;博士领进门,按到了电子制造领域,做起了数据分析师。聊起制造领域的数据分析,不论是技术工具还是行业发展,他总能用高昂饱满的热情,滔滔不绝。     比如他的处女作,SMT线的钢网设计参数优化。这是个什么鬼呢?   SMT是表面组装技术(Surface Mounted Technology的缩写),是目前电子组装行业里最流行的一种技术和工艺。它是一种将无引脚或短引线表面组装元器件(简称SMC/SMD,中?#26576;?#29255;状元器件)安装在印制电路板(Printed Circuit Board,PCB)的表面或其它基板的表面上,通过再流焊或浸焊等方法加以焊接组装的电路装连技术。   说人话——基本上需要控制的电子产品,?#21152;?#19968;个电路板。在基础电路板上,需要按照设计的电路图,用锡膏贴上各种电容、电阻等电子元器件,再进行高温焊接。   钢网设计参数优化需要综合钢网设计、使用数据、制程参数(刮刀压力等)锡膏、刮刀、机台、工单等多数据源数据,从刚好的孔里漏出刚好的锡膏到PCB板上,避免因为锡膏刷的过多导致短路、或刷得太少沾不上,造成电路板报废。   说起来,SMT是一个已经相当成熟且相对饱和的市场。在这类的市场中,大厂往往通过良品率和生产成本控制获得更大的订单。然而SMT产线不良品因子高达上千个,牵涉到的数据涉及到产品生命周期的各个方面。钢网优化是一个并不大的命题,只是SMT工艺流程中的一小步。但这也是K2数据科学家与客户业务专家共同探讨后认为可以有所作为的?#40644;瓶凇?   用了一个月左?#19994;?#26102;间,?#25250;?#21516;学了解了客户方的数据基础、业务语义、业务目标,并寻找方法,形成初步的探索报告。得到客户认同后,出于客户对数据的保护,他开始入驻到客场办公。   当时K2大家庭还没有搬?#19994;?#26234;造大街,蜗居在原办公?#19994;?#23453;宝们在初夏就被热得不能自?#36873;Q抢?#21516;学每每从客场办公回来,总会眉飞色舞的撩?#23433;?#27700;间俱乐部”的成员们:“我那儿可凉快了!” (……泥奏凯!)     细问下来,其实在客户现场要花费90%的精力去整理清洗数据。初期什么工艺都不太懂,只能对着一堆数据盲挖,尽量缩小范围,剔除异常数据。回忆起当时手边的数据对应的一亿多个孔,最开始他的内心也是糟烂的。   一般一个电路板有一百多个不同的元器件,有的元器件有可能对应20-30种孔,孔的大小从0.2?#25769;?3?#25769;?#19981;等。在厘清了千头万绪之后,?#25250;?#21516;学很快找准了根源,一个多月后提交了最终的实施建议报告,并增加了模型自学习能力,帮助客户完成系?#25104;?#32447;。从客户最终试验结果看,反馈数据方差变小,CP工程控制能力变强,由钢网设计造成的次品?#24335;?#20302;50%,满意交付。   其实,遇到的第一个工业大数据分析项目就能顺利看到结果,?#25250;?#21516;学也觉得很幸运。因为并不是每个业务问题都是目前大数据可解的,有的受限于数据质量,有的受限于数据种类,?#34892;?#19982;工艺强关联的关键数据缺失,还?#34892;?#38656;要投入实验设计成本。   如果能通过大数据平台先把所?#34892;?#35201;的数据管理好,为数据分析提供充分友好的资源和环境支持,会否事半功倍??#25250;?#21516;学说,那是基础,那就能把我们从糟心的数据整理中解放出来,去做最有创造力的工作了。   现在,?#25250;?#21516;学已经着手服务于新的客户项目,虽然是另一个全新的细分领域,但他觉得还是有部分共通的思路。学统计学出身的他,本着用最简单的办法快速解决问题的套路,继续电子制造领域翻滚。   工业领域的分析枯燥吗?对我们来说,哪一行的数据都是数据,?#19994;?#20048;趣就是在数据里找规律,越难成就?#24615;?#22823;。   可是要把一个真正行业共性的难题?#40644;疲?#25226;原来的成熟制造工艺通过大数据提升一个层次,形成全行业的新兴解决方案,这是一个需要耐心的长期命题,并不会通过一朝一夕一个工艺环节的?#32435;?#23601;能取得行业瞩目的变化。   ?#25250;?#21516;学对未来潜在的挑战充满了期待。他说,行业共性问题难解,是因为需要一环套一环的去解决一个一个的?#40644;?#28857;,解决了最明显的,才会暴露出深层次的,这需要长久的投入。行业问题是永无止境的,因为问题会跟随技术迭代不断升级,如果真的有一天问题没有了,可能这个行业也就升级了。   写在最后 ?#25250;?#21516;学做的项目只是制造领域大数据应用的一个细微分支,质量管理也只是工业企业的核心功能之一。   在以往,生产企业凭借以PDCA、TQM、6-sigma为代表的经典质量控?#21697;?#27861;论,在有限的数据基础上,通过业务价值评估,实现客户价值与生产成本的平衡。为了引导质量的根因分析,仅6-sigma就有一系列的方法论,如DMAIC、DMADV/DFSS、MFSS、SFSS等。在有了大数据技术的今天,这些先验知?#24230;?#26087;宝贵。   在大数据情形下,如何利用大数据提供的多维度关联、深度模式挖掘等能力,进一步提升质量管理的时效性、全局优化性、预见性、自?#35270;?#24615;?K2愿与业界同仁一起去探索更多?#31895;?#30340;可能。 ...

                          Read More

                          上篇回顾:作者介绍了文本分析的应用领域及常见方法,引起大批粉丝的强烈共鸣。今天继续介绍中文文本分析常见问题以及基于 Stanford CoreNLP Toolkit 和 Python NLTK 的中文分词实例。   中文文本分析常见的问题   中文的文本分析相对于英文有着很大的不同。英文天然具有分词的标?#23613;?#31354;格,每个单词之间一定是以空格进行分离,所里在对于英文文章进行分词变得相对简单,没有分错词的问题。然而对于中文来说,分词是一个十分困难的事情,中文之间并没有诸如空格这样的分?#26102;?#24535;,如何对中文进行分词,对于提高中文文本分析的准确率有着很重要的影响。   中文的分词大致可以分为两类,分别是基于字典的机械分词方法和以及基于统计模型的序列标注方法。字典匹配是将文本中的文?#26234;?#29255;和?#24310;?#30340;字典进行匹配,如果文?#26234;?#29255;在字典中出现,则为正确的匹配字符,字典匹配包括最大匹配法和全切分路径选择等方法。序列标注的方法有隐马尔?#21697;?#27169;型(HMM)和条件随机场(CRF),通过统计计算的方式,得出最有可能的文字组合。   基于Stanford CoreNLP Toolkit和Python NLTK的中文分词实例   Stanford CoreNLP Toolkit Stanford NLP是Stanford NLP团队开发的一款基于java的开源自然语?#28304;?#29702;工具集,提供了包括统计NLP和深度学习NLP在内的多种自然语言解决方案。Stanford NLP Software有着丰富的文本处理功能,包括分词,词性标注,命名实体辨别,句法依存分析等。Stanford NLP Word Segmenter提供了基于条件随机场(CRF)的中文分?#24335;?#20915;方案,拥有两个分别基于 Chinese Penn Treebank Standard和Peking University Standard的模型。 Stanford CoreNLP Online   Stanford NLP...

                          Read More

                          文本分析介绍   文本分析顾名?#23478;?#26159;对于文?#20013;?#24687;的分析,通过一系?#24418;?#26412;分析和识别的算法提取文章中关键信息。自从中国的毕昇发明了活?#38047;?#21047;术以及14世?#22242;分?#30340;文艺复兴运动以来,文字变成一种十分重要的记录信息的方式,原来难以广泛传播的知识,瞬间变得简单。   我们正处在一个信息爆炸的社会,如何通过大量的阅读文字记录来获得想要的信息已经变成一个十?#21046;?#36941;的问题。可是人的时间是有限的,需要一种能够快速挖掘文本中有用信息的方式,文本分析就起着重要的作用。   计算机技术的发展为文本分析提供了重要的支持,计算机的计算速度正在以指数级别上升,原来人一年的阅读的文献数量,电脑可以?#35813;?#38047;的时间内完成。深度学习技术的普及应用也促进了文本分析等自然语言技术(NLP)快速的发展,在精度和广度上都得到了很大的提升。   文本分析的应用领域   文本分析在现实生活中有着广泛的应用,大家最熟悉的莫过于以Google和百度为代表的搜索系?#24120;琁nformation Retrieval的核心就是文本分析的算法,当我们输入简单的关键词,系统就能为我们匹配出大量的相关的网页的链接,并按相关程度及网页的重要性程度进行排序。另一个令人深刻的案例就是Google刚刚发布了其基于深度神经网络的机器翻译系?#24120;?#32763;译的水?#23478;?#32463;能够一定程度上接近人类的翻译水平。   不论是各大电商的网站的在线问答机器人,还是基于商品,电影,餐厅等的评论数据的情感分析,基于网络海量文章的舆情判断,垃圾邮件的识别,都属于文本分析的范畴。   文本分析的常见方法   针对不同的实?#35270;?#36884;,文本分析可有五个常用的方法?#20309;?#26412;分类聚类,情感分析,主题分析,摘要提取,关键词提取。 以工业中的应用为例——   文本分类聚类:在工厂中有大量的人工记录的信息,比如人的行为规范判断和设备的报错工单,这类文本信息具有明确分类判断标准和查询需求,且?#21051;?#37117;会产生大量文本数据,人工很难去全部阅读,不同部门关心的文本类别也不尽相同。这?#26412;?#38656;要我们基于经验和分类标准,对大量的工单数据或者人的行为数据进行分类聚类,将相关的文本归于一起,便于之后的基本统?#21697;?#26512;和查询效率的提高。   情感分析:制造业企业最关心的可能就是使用者对?#32422;?#20135;品的使用体验的满意度以及产品反馈。不管对于产品的问卷调查,或者是电商网?#26087;系?#21830;品的评论,挖掘出使用者对于产品的态度都是一种很好的产品评价指标,利用文本分析的情感分析方法则可以获取使用者对产品处于较为客观的积极或消极态度,这对于产品改进,也提供了一定的指?#23478;?#20041;。   摘要提取:在工业中,不管是工单中的具体故障描述,还是员工的行为规范评价,由于人为记录的文本结构,信息量和规范程度千差万别。很多情况下,大量文?#32622;?#36848;的并不是关键信息,如何快速提取文本信息中最关键的部分?利用文本分析的摘要提取方法,可以总结大段文字中的主要信息,减少不必要信息的干扰,将会大大提升文本信息的利用效率。   关键词提取:通用词库并不能满足在不同专业领域中的使用,每个不同的工业领域都需要一个领域相关的专业词库,构建专业词库也是文本分析中一项意义重大但?#36136;?#20998;繁琐的工作,是为后期提供更精准的文本分析服务的一个基础。   文本分析中的关键词提取方法能帮助我们准确获得该领域最相关的关键词。关键词的提取对工业中的一般统?#21697;?#26512;也有很大的帮助,可以做诸如备件来源检测和故障原因检测等分析。在文本中挖掘具体的故障?#24597;?#25110;者备件更换信息,统计每个具体故障或者备件的发生频率,可以帮助我们?#39029;?#39057;繁发生的事故类型或者经常更换的备件,进而?#39029;?#35832;如经常被更换的备件可能属于特定批次或厂家,或是排查事故频发工厂的设备状态及员工工作规范,提早为工业企业减少不必要的损失。   明日预告——下篇内容包含:中文文本分析常见问题,以及基于 Stanford CoreNLP Toolkit 和 Python NLTK 的中文分词实例,?#38431;中?#20851;注。   作者:JasonKeine 出身华盛顿大学的数据科学小砖家,92年小鲜肉,180+,K2分析团?#21451;?#20540;担当之一,文艺,深沉……看到这里心动了?人家已脱离单身苦海。这次我们真的不招亲~ ...

                          Read More

                          世上没有一个分类器解决不?#35828;?#20998;类问题 如果有,就多用几个 ——TK 正文开始前,先讲个故事。 场景:理综开卷考试?#28023;?#36873;择题;试卷下发限时一天;答题过程不限) 人物:学渣A、学渣B、学渣C 经过: 学渣A单打独斗,很快交卷,不出意外考砸了; 学渣B叫来很多“学弱?#20445;?#27599;道题?#23478;?#32463;讨论决定答案。最终B拿到比A高很多的分数;但由于众口不一,浪费了B大量打游戏的时间; 学渣C只叫来为数不多的几个偏科“学弱?#20445;?#20182;们每人?#21152;兇约?#26368;擅长的科目。C做好?#32422;?#30830;定的题目后,把卷子扔给其他人就去打游戏了,最后一个人答完,C随便看了看就交卷了,结果成绩居然比B还高了一些,这让花费了大量时间、欠下众多人情的B愤愤不平…… 如果将上述场景类比到数据科学领域,A的做法是传统的训练分类器的办法,精度低,无法最大程度掌握训练数据中的信息,所以在测试数据?#31995;?#34920;现往往不尽如人意;于是科学家们秉?#23567;?#20154;多力量大”的基本原则,就像上述B和C一样,尝试着运用了多训练器一起解决问题的办法,这就是“集成学习”的思想雏形。 图1 传统方法vs集成学习 ?????? 同样是叫来了?#32422;?#30340;朋友们,但是B和C采用了完全不同的策略来完成那份试卷。如果?#36873;敖信笥选?#31867;比到机器学习领域的话,两位同学的策略正对应着“集成思想”孕育出的两大利器: B同学的“人海战术”---Bagging(Bootstrap Aggregation) C同学的“逐个击破”---Boosting 作者接下来会根据?#32422;?#23545;这两个算法的理解,力求以通俗的语言辅以图解来解释这两个“集成学习”中的著名思想。读者可以类比于场景中B、C同学的策略来辅助理解。(下面内容中相关术语均针对“分类”问题) B同学的“人海战术”---Bagging 全称Bootstrap Aggregation,是一种在原始数据集上通过有放回抽样重新选出N个新数据集来训练分类器的集成技术。 图2 Bagging流程 ?????? 如图2所示,一次完整的Bagging迭代过程可以分为以下两步: ①对原始数据(M个观测记录)进行m次随机有放回抽样,生成?#29615;?#35757;练样本(m个观测记录, m < M) ②运用?#25105;?#26426;器学习算法对产生的训练样本进行训练,得到一个分类器 ?#38142;?#25105;们完成了一次Bagging迭代并得到了一个分类器,重?#21019;?#36807;程?#25105;?#27425;(如果每次迭代选用的分类器能力不够强,则迭代次数较多为好),最后将每个迭代过程得到的分类器Ci进行组合即可。 C同学的“逐个击破”---Boosting 图3 Boosting流程 ?????? 同样是根据“集成学习”思想提出的算法,Boosting的核心原理与Bagging一样,对原始样本抽样来训练多个分类器,综合得到效果强大的最终模型,不过与后者不同的是,Boosting在每次抽取样本之前会对每一条观测数据赋予相应的权重,如同每次模拟考试之后老师往往会给予成绩不理想的学生更多的关注一样,Boosting通过这种赋予样本权重的方法?#20174;?#21270;每一?#20540;?#20195;所产生的基分类器。 一次完整的Boosting迭代共有以下三步: ①对已经被赋予权重的样本进行抽样(权重高的样本被抽到的概率大),得到训练样本 ②运用?#25105;?#26426;器学习算法对产生的训练样本进行训练,得到一个分类器 ③总结分类器在这一?#20540;?#20195;中的样本?#31995;?#20998;类表现,以此为根据产生新的样本权重 这样每次迭代都会得到一个基于上一轮训?#26041;?#26524;的?#25226;?#32451;器2.0?#20445;?#26368;后的分类器结果自然变现不?#20303;? 应用案例 1 模型介绍 本文主要聚焦于机器学习领域的分类问题,更具体的说是“二分类”问题,这类问题在平时生活以及业界?#21152;?#24456;高的出场率:我昨天的订单今天会不会发货?#31354;?#20301;客户下个月会不会及时还款?A厂的这台机器今天会不会出现故障… 对于这些疑问,最原始的办法是根据一些已知信息来人为判断,而引入机器学习的知识以后,我们可以建立模型来对这些?#31895;?#30340;结果进行预测。 作者选取了Kaggle社区?#31995;?#19968;个二分类问题的数据集来展现“集成学习”思想的威力。上文提到“集成学习”只是一?#21046;?#32032;的思想,而要解决实际问题则需要实实在在落地的模型,这里要介绍由这种思想衍生出的两种著名机器学习算法?#26680;?#26426;森林(RF)以及梯度提升树(GBDT)。 *由于GBDT的运行速度过慢,所以作者选取了这一算法的进?#35013;媯篨GBoost,下文中出现的所有GBDT均可以等价理解为XGBoost 图4 思想与模型 2 准确率对比 由于这两种算法都是在“决策树”这一基本分类器上应用“集成学习”思想得到,所以作者分别用决策树(DT)、随机森林(RF)、XGBoost三种算法对数据进行了训练,还选用了支持向量机(SVM)作为另一单分类器来进行对比,同时这四种算法可以与文章开头的小场景进行类比,其中: 决策树(DT)与支持向量机(SVM)作为单分类器对应于A的方法; 随机森林(RF)作为Bagging的代表对应于B的方法; 最后XGBoost作为Boosting的代表对应于C的方法。 下面进入没有对比就没有伤害的环节,来看一下不同算法的表现: 图5 传统方法vs集成学习 ?????? 由于这份数据已经采取预处理,所以总体分类准确?#24335;?#39640;,不过由图5可以看出,同为单?#29615;?#31867;器的DT与SVM表现差别还是很明显;不过RF与XGBoost已经与SVM的表现相差无几,作者这里选取了1000个样本作为测试数据,0.98的含义是在1000个样本中有20个分类错误。 虽然RF、XGBoost的表现已经追上甚至赶超了SVM,但是作者认为“集成学习”的威力应该不止于此,由于这次运用的模型参数均为默认参数,所以作者在对RF、XGBoost的模型参数进行调试(这是个十分费力的过程)后又做了新一轮的预测,见证奇迹的时刻: 图6 调参后模型准确率 ?????? 在整体预测?#35782;?#36739;高的情况下,应用了“集成学习”思想的算法在准确度上还是实现了某种程度的碾压。 3 调参经验 ?#27833;?可以看出,对于RF与XGBoost模型的参数调整还是得到了正反馈的效果,所以针对具备编程经验或者?#34892;?#36259;的同学,作者在这里简单介绍一下?#32422;?#30340;调参经验: ①RF:参数较少,只有生成森林所需树的棵数(ntree)与节点分裂时所需的特征个数(mtry),作者选取交叉验证的方法由参数的初始值开始搜寻,最终由预先设定的判别表征(RMSE、MAPE…)来决定参数。 ②XGBoost:参数很多(这也是此算法的一个缺点),具体的解释可以参考这篇文章http://blog.csdn.net/zc02051126/article/details/46711047, 这里不做冗余的介绍。 以下只列出作者在这个案例中主要调整的几个参数:max_depth、eta、min_child_weight,选用的方法依然是交叉验证进行参数遍历。值得一提的是,其中“min_child_weight”这一参数对于类别分布不平衡的问题十分重要,由于作者工作的领域与工业界接触较多,经常会遇到正负样本分?#25216;?#19981;均匀(通常<1:10000)的情形,所以XGBoost这一算法在合适的调参后往往会有比较理想的表现。 4 运行时间对比 图 7 运行时间 VS 数据量 ?????? 最后给出一个运行时间?#31995;?#23545;比作为文章的结尾,作者以3000为跨度逐步增加数据的容量,可以看出“集成学习”的算法在运行速度上表现出了碾压级别的优?#30130;?#21487;?#36816;?#26159;又?#21152;?#24555;的算法。 所以如果你对?#32422;?#30340;模型不够满意,用“集成学习”吧!   作者:TK 哥大海归研?#21487;?#19996;北话十级,精通R语言,所有球类运动都能玩的热血小青年一枚。...

                          Read More

                          ?#35272;?#20048;不如众乐乐,我们的数据科学家与分析师在?#36861;备?#26434;的工作中发现了一些可以提升数据分析效率的技巧,并很乐意奉献给刚入门或正准备入门工业大数据的攻城狮们,抛砖引玉,如有不同见解或有更深了解需求,?#38431;?#21518;台留言。   文本数据是工业大数据中一种重要的数据形式,包括如设备维修工单、服务反馈信息和产品质检报告等蕴藏着重要价值的文本。以维修工单为例,包含产品的故障问题、故障原因和解决方案等等描述信息。通过分析这些文本数据,工业企业可以及时发现产品质量问题,更能基于数据提示普遍趋势与建议方法,并形成反馈回路加速产品优化设计。然而,文本信息通常是半结构化和非结构化的手工填报记录,人工统?#21697;?#26102;费力。?#34892;?#37319;用文本挖掘技术,在相同的故障工单数据下,使统?#21697;?#26512;效率大大提升。   中文文本挖掘的主要技术包括中文分词、特征提取、文本分类、文本聚类、关联分析、文本摘要等,其中中文分词是文本挖掘最基础的步骤,其目的是将一个汉字句子切分成一个一个单独的词,便于后续的分析挖掘。本文将对中文分词基本流程、中文分词算法及R语言中文分词包进行简要介绍。   一、分词基本流程   中文的分词基本流程见图1。通常说分词,是指包括导入词典、执行分词两个步骤的狭义分词。但在实际的项目中,还需要做大量的文本预处理和后处理工作。   图1   1.文本预处理,分?#26159;?#30340;文本处理,通常需要用正则表达式来完成。   a) 同义词替换。比如“紧急停机”、“急停”、“度”和“°”、“号”和“#?#20445;?#19994;务语义相同,分词之前应统一成一种说法。   b) 英文大小写统一。小?#20174;?#25991;都变大写,如”plc”换成”PLC?#20445;粗?#20134;然。   c) 利用特定规则获取关键信息。比如打算在文?#24403;?#39064;中提取故障名,发现标题符合“某项目某机组报某故障”命名规则,就可以利用正则表达式提取故障信息。   d) 利用文本以外的结构化信息。如想去除文本中包含设备编号(A1、LY-12等),但这些编号很难总结出一定规则,这?#27604;?#26524;?#19994;?#21547;设备编号字段的文?#24403;?#26684;(如设备台账),就可以直接取?#20174;?#20110;过滤。   2.文本后处理,分词后的文档?#39318;?#30340;?#22659;?#21512;并操作。   a) 去除停止词。建立停止词库,去除“了”、“和”、“因为”、”发现”等,这些高频且对分析无意义的虚词、连词、动词等。   b) 利用特定规则?#22659;?#35789;。比如?#25484;冢?016年、1月。如不希望成为关键词,应使用正则表达式滤除。   c) 处理歧义词。比如分?#24335;?#26524;是“某编号”、“齿轮箱”两个词,前者单独出现时表示发电设备,但当两个词连续出现?#20445;?#21017;表示某编号齿轮箱,因此需要合并处理。   二、常见中文分词算法   分词技术常见的有两大类:   1.机械分词法   即扫描字符串,如果发现字符串的子串和词典中的词相同,就算匹配,因此也叫基于字符串匹配的分词方法。这类分词通常会加入一些启发式规则,比如“正向/反向最大匹配?#20445;?#38271;?#35270;?#20808;”等。常用的几种机械分词方法如下:   a.正向最大匹配法(由左到?#19994;?#26041;向); b.逆向最大匹配法(由?#19994;阶?#30340;方向); c.最少切分(使每一句中切出的词数最小)。   机械分词方法是一种很简单高效的分词方法,它的速度很快,都是O(n)的时间复杂度,效果也可以。但缺点是?#20113;?#20041;和新词的处理不是很好,对词典中未出现的词?#29615;?#36827;行处理,因?#21496;?#24120;需要其他分词方法进行协作。   2.统?#21697;?#35789;法   统?#21697;?#35789;法基于人工标注好的语料库对中文进行模型训练,在分?#24335;?#27573;再通过模型计算各种分词出现的概率,将?#24597;首?#22823;的分?#24335;?#26524;作为最终结果。常见的几种统?#21697;?#27861;如下:   a.nGram模型; b.隐马尔可夫(HMM)模型; c.条件随机场(CRF)模型。   统计类分词算法对于识别未登?#21363;视?#26377;较好的识别能力,分词精度较机械分词法高。但是需要大量的人工标注语料库,分词速度慢。 实践中,一般都是多种分词方法结合起来使用,相互弥补。   即:使用词典+统?#21697;?#32467;合的方法,用词典?#21019;?#20648;大部分关键词,使用统?#21697;?#35782;别新词。   三、R语言分词工具   表1总结了R语言在文本挖掘中常用的工具包,其中Rwordseg和jiebaR是目前R中最主流的中文分词工具包,这里予以着重介绍。     1.中文分词R包简介   jiebaR是“结巴”中文分词的R语?#22253;?#26412;,作者覃文锋,支持四种分词模式:最大概率法、HMM、混合模型和索引模型,同时有词性标注,关键词提取,文本Simhash相似度比?#31995;?#21151;能,项目使用了Rcpp和CppJieba进行开发,目前有测?#22253;?#21644;稳定版两种,托管在GitHub上 https://github.com/qinwf/jiebaR   Rwordseg的开发者是李舰,使用rJava调用Java分词工具Ansj。Ansj是一个开源的Java 中文分词工具,基于中科院的ictclas中文分词算法。孙健重写了Java版本,托管在GitHub上,https://github.com/ansjsun/ansj_seg,最新版本是基于nGram+CRF+HMM的混合模型。   2.分词功能介绍   回到分词功能介绍,jiebaR和Rwordseg的功能简要对比见表2。     1)jiebaR Cheatsheat             2.Rwordseg Cheatsheat         4.结论   本文主要总结了中文分词的主要算法和R语言中的两个分词包jiebaR和Rwordseg。从目前的R包版本来看,jiebaR功能比Rwordseg更全面。在实?#35270;?#29992;中,除了软件工具包的选择,分?#24335;?#26524;的?#27809;?#26356;加取决于词库的优劣,尤其是在专业?#35270;?#23494;集的工业文本分析场景,分析人员将不得不在专业词库建设中投入更多的时间精力。   作者:阿闯 江湖人称?#25353;?#21733;?#20445;?#38391;骚型男,隐?#28201;?#38712;,自动化专业博士,大数据分析攻城狮,满腔工业情怀及matlab/R数据建模与分析经验。   参考文献 [1] jiebaR 中文分词,?http://qinwenfeng.com/jiebaR/ [2] jiebaR中文分词——R的灵活,C的效率,?https://cos.name/2014/11/jiebar-text-segmentation/#more-10373 [3] Rwordseg中文分词,?http://jianl.org/cn/R/Rwordseg.html [4] 数学之美, 人民邮电出版社, 吴军...

                          Read More
                          山东十一选五 极速飞艇游戏介绍 足球的英文怎么读 天津11选5最新走势图 足彩15152期开奖结果查询奖金 贵州11选5精准预测 上海时时乐彩经网 ag真人视频 网球比分网 六合彩论坛 下载官方腾讯分分彩 信封彩图曾道人玄机 陕西11选5直播 山东11选5软件破解 今天的河南快三开奖结果 中彩网明天双色球预测