老师你看是这样理解吗?
(1). pyspark能脱离spark和hadoop运行,来测试代码,只需要本地python环境pip install pyspark,就能跑pyspark的code。不过如果没有装hadoop的话,中间会报错“Failed to locate the winutils binary in the hadoop binary path”,找不到Hadoop环境,但不影响最终输出[1,2,3,4,5]。
(2). 在老师提供的虚拟机含hadoop和spark环境,spark自带pyspark,用来编程spark(也可以用scala),不会有找不到Hadoop的报错。
(3). 因此最合理是直接在虚拟环境装一个pycharm,而不是在windows本地装。