首页最新资讯

全部 新闻动态 技术文章 常见问题 技术问答

    • Spark RDD是什么?RDD特征介绍

      RDD( Resilient Distributed Dataset,弹性分布式数据集),是一个容错的、并行的数据结构,可以让用户显式地将数据存储到磁盘和内存中,并且还能控制数据的分区。对于迭代式计算和交互式数据挖掘,RDD可以将中间计算的数据结果保存在内存中,若是后面需要中间结果参与计算时,则可以直接从内存中读取,从而可以极大地提高计算速度。查看全文>>

      技术文章2020-12-22 |黑马程序员 |Spark RDD是什么
    • Scala下载和环境变量配置教程

      Scala语言可以在Windows、Linux、Mac OS等系统上编译运行。由于Scala是运JVM平台上的,所以安装Scala之前必须配置好JDK环境(JDK版本要求不低于1.5)。查看全文>>

      技术文章2020-12-22 |黑马程序员 |Scala环境变量配置教程
    • 什么是Scala?有什么特点?

      Scala是Scalable Language的简称,它是一门多范式的编程语言,其设计初衷是实现种可扩展的语言,并集成面向对象编程和函数式编程的各种特性。基于这个目标与设计,Scala具有以下显著的特性。查看全文>>

      技术文章2020-12-22 |黑马程序员 |什么是Scala
    • RDD为什么要进行数据持久化?它的操作方法有哪些?

      在Spark中,RDD是采用惰性求值,即每次调用行动算子操作,都会从头开始计算。然而,每次调用行动算子操作,都会触发一次从头开始的计算,这对于迭代计算来说,代价是很大的,因为迭代计算经常需要多次重复的使用同一组数据集,所以,为了避免重复计算的开销,可以让Spark对数据集进行持久化。查看全文>>

      技术文章2020-12-22 |黑马程序员 |数据持久化操作,持久化机制,RDD,Spark
    • Hadoop虚拟机怎样远程登录和开启SSH免密登录功能?

      完成虚拟机的安装和网络配置,虽然可以正常使用,但是工作中还需要远程操纵服务器进行各项操作,所以就需要对虚拟机实行配置远程登录和SSH免密登录,进行相关操作。接下来,就分别对这两种服务配置进行说明和详细讲解。查看全文>>

      技术文章2020-12-22 |黑马程序员 |Hadoop虚拟机,SSH服务,远程登录虚拟机
    • Java API接口怎样操作HBase分布式数据库?

      HBase是由Java语言开发的,它对外提供了Java API的接口。接下来,通过Java API来操作HBase分布式数据库,包括增、删、改以及查等对数据表的操作,具体操作步骤如下:查看全文>>

      技术文章2020-12-22 |黑马程序员 |HBase的Java API操作步骤,常见的Java API