请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

老师,很感激这门课程

老师,这门课程看的很吃力,可以说是每一节都是脑洞大开,实际上,数据挖掘分析这样的技术我一直在关注,不得其法,从购买书籍到看博客,耗费大量精力,基本上就是多了点谈资,毫无实际意义,这门课程将整个数据分析讲的很透彻,良心产品,几乎涵盖所有内容,我现在有几个比较大的疑问,

在讲的过程中,大部分的数学公式讲的时间很长,大部分都很懵懂,但是最后代码演示,仅一行代码就将前面的数学公式问题解决了,这是不是有点像用手机的不需要知道手机怎样制造,只需要知道用法就可以了,人工智能领域入门门槛越来越低

第二,就是最后一节将的问题,关于海量数据的处理问题,其实spark已经学过了,但是现在学的spark用的是scala语言

pyspark没有接触过,现在的数据大部分都是T级别的,这些数据如果没有spark支持,单机运行是无法工作的,因此不知道是否能够给一些关于pyspark的学习资料推荐,

第三个问题,以前以为学习大数据是大海里找鲸鱼,很有感觉,现在感觉是在太空中开着光速机,速度是很快,但是无法整体理解数据, 直接无从下手,尤其对于新手来说,从那个维度看数据都像是一团乱麻,常常分析出一些毫无用处的信息,数据归一化后,只能交给算法,获取结果了,老师能够给说一下,作为一个新手,面对浩瀚数据,应该以怎样的思维方式,在这样的海量数据,方向错了,就要耗费大量的时间,

真的感谢老师的课程


正在回答

1回答

同学你好,你能很用心地在学习这门课,我很感动,也非常荣幸,谢谢。接下来解答你刚说的三个问题:

第一:确实如你所说,现在成熟的算法,调用一个包就可以实现了,一个个的“算法工程师”,也被挂上了“调参侠”的标签。从这个角度上来说,大数据和人工智能的入门门槛,是低了好多。但是,这些所谓的“包”,说到底,也只是工具而已,工具怎么去用,这才是一个算法工程师真正的本领所在。学到了假设检验、相关系数、归一化和标准化,但哪种情形下,该使用什么样的方法,会达到什么样的效果,这些经验,是不主动使用这些方法与工具所不能知道的。所以,门槛低了,进得来了,但是,然后呢?本领不用,终究还是会被废弃。另一方面,一个公式,一个包,重要的,不仅仅是它的结果,在理解这个结果的过程中,你的思考,也会产出非常多的“中间产物”,这些“中间产物”,有时甚至会比那个结果更重要一些。比如,我们最近在推导NLP的条件随机场时,需要对特殊字符进行额外的处理,但现有的包根本是实现不了的,我们就使用了条件随机场的理论知识,重搭底层框架,最终完美解决这个任务。解决这个任务的,不是最终调的那个包,而是我们在理解条件随机场时的想法,而起到的作用。学会了一个包,你只学会了一种产出;但你理解了一个包,就会学到一个体系,它带来的产出,是无法衡量的。

第二:pyspark的使用,官网一定是最权威的资料,可以参考spark官网,直接有关系python的接口阐述:http://spark.apache.org/examples.html。 至于安装什么的,百度一下就可以。如果有其它的Spark比较好的书,其实可以直接引用的,spark里所有接口的形式几乎是一致的,只是调用方式不同而已。比如:

Java:

https://img1.sycdn.imooc.com//szimg/5aaf709f0001e10304930132.jpg

Python:

https://img1.sycdn.imooc.com//szimg/5aaf70b5000164d608620131.jpg

Scala:

https://img1.sycdn.imooc.com//szimg/5aaf70d10001840408640127.jpg

第三:你做的比喻真是非常确切到位。现在我们的有了光速机,但面临的空间成了整个宇宙。这也是无数数据团队面临的问题,尤其对BAT这样的大公司来说,他们不缺数据,但如何将这些数据使用起来,也是一个难题。拿我的经历来讲,有两点可以和你分享的:一、一定要以目标为导向,切忌做看起来很厉害,但实际没什么用的事儿。数据多了,但最终也是要为目标服务的,“宇宙”那么大,你一定要知道你去哪。知道了去哪,接下来,就要看哪些数据有用了,于是,探索性数据分析的方法就可以派上用途了,我们用探索的的思想,来找寻有效、合适的数据,再接着,预处理、建模、评估……就一气呵成了。这一切的开端,都是以目标和想法开始的,这很重要,接着的,就是我们这门课里讲到的东西了。拿企业来讲,大目标、小目标都是随着企业的所谓”战略“而制定的,所以,做好自己,迎接挑战。二、能不能有一种方法统一起所有的方法?也就是说,我们只用一种方法,解决任何目标的任务?这个是有可能的,AI的终极目标,其实就是在做这个事。但这对数据量的需求,数据维度的需求,是极其巨量的,以至于我们现在看似巨大的”宇宙空间“,还是太小了。这个,或许是数据科学未来发展的方向。不管以上两种方法如何,一些冗余的工作,是避免不了的,确定方向,不断尝试,不害怕未知,”多逛逛宇宙空间“,这样才能找到最终的所谓”捷径“。


1 回复 有任何疑惑可以回复我~
  • 提问者 慕运维7479159 #1
    受益匪浅,非常感谢!
    回复 有任何疑惑可以回复我~ 2018-03-19 16:41:26
  • 提问者 慕运维7479159 #2
    老师,作为不在大城市的我们,面临的人工智能这波冲击,心中多少有些焦虑,刚才老师讲的这些,都是我们这些小城市的程序员,需要不断接触的新内容,希望老师以后能够开发一些针对机器学习大城市主流都在做什么的课程,期待老师的课程,这个课程还要深入学习理解,以后还会继续请教老师
    回复 有任何疑惑可以回复我~ 2018-03-19 16:46:36
  • 途索 回复 提问者 慕运维7479159 #3
    同学你好,后续会设计专门的项目课程,都是实战项目合集。如果你有什么想了解的,也可以提出来。咱们一起努力。
    回复 有任何疑惑可以回复我~ 2018-03-19 16:49:14
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信