데이터 베이스 MySQL 튜토리얼 超越Hadoop的大数据分析之前言

超越Hadoop的大数据分析之前言

Jun 07, 2016 pm 04:34 PM
da hadoop 머리말 데이터 분석 초월하다

本文翻译自《BIG DATA ANALYTICS BEYOND HADOOP》译者:吴京润 校对:方腾飞 我试图给人们学习大数据留下的一点深刻印象:尽管Apache Hadoop很有用,而且是一项非常成功的技术,但是这一观点的前提已经有些过时了。考虑一下这样一条时间线:由谷歌实现的MapR

本文翻译自《BIG DATA ANALYTICS BEYOND HADOOP》译者:吴京润 校对:方腾飞

我试图给人们学习大数据留下的一点深刻印象:尽管Apache Hadoop很有用,而且是一项非常成功的技术,但是这一观点的前提已经有些过时了。考虑一下这样一条时间线:由谷歌实现的MapReduce投入使用的时间可追溯到2002年,发表于2004年。Yahoo!于2006年发起Hadoop项目。MR是基于十年前的数据中心的经济上的考虑。从那时以来,已经有太多的东西发生了变化:多核心处理器、大内存地址空间、10G网络带宽、SSD,而至今,这已经产生足够的成本效益。这些极大改变了在构建可容错分布式商用系统规模方面的取舍。

此外,我们对于可处理数据的规模的观念也发生了变化。成功的公司诸如亚马逊、eBay、谷歌,它们想要更上一层楼,也促使随后的商业领袖重新思考:数据可以用来做什么?举个例子,十年前是否有为大型图书出版商优化业务的大规模图论用例?不见得有。出版社高层不可能有耐心听取这样一个古怪的工程建议。这本书本身的营销将基于大规模数据、开源、图论引擎,它们也将在本书后续章节讲到。同样的,广告科技和社交网络应用驱动着开发技术,而如今在工业化的因特网,采用Hadoop将显的捉襟见肘,也就是所谓的“物联网”——在某些情况下,会有几个数量级的差距。

自从MR的商用硬件规模首次制定以来,底层系统的模型已发生了巨大变化。我们的商业需求与期望模型也发生了显著的变化。此外,应用数学的数据规模与十年前的构想也有巨大的差异。如今主流编程语言也能为并行处理的软件工程实践提供更好的支持。

Agneeswaran博士认为这些视图,以及对它们的更多关注和系统方法,呈现了如今大数据环境的全景视图,甚至还有超越。本书引领我们看到过去十年如何通过MapReduce做批处理数据分析。这些章节介绍了理解它们的关键历史背景,并为应用这些技术提供了清晰的商业用例的至关重要的方面。这些论据为每个用例提供了分析,并指出为什么Hadoop不是很适合应用于此——通过对例证的彻底研究、对可用开源技术的出色调查、以及对非开源项目的出版文献的回顾。

本书研究了如今的商业需求中除Hadoop以外的最佳实践以及数据访问方式的可用技术:迭代、流式处理(译者注:原文是streaming)、图论,以及其它技术。比如,一些企业的收入损失计算可精确到毫秒级,以至于“批处理窗口”这样的概念变的毫无意义。实时分析是惟一可以想到的可行方案。开源框架诸如Apache Spark、Storm、Titan、GraphLab,还有Apache Mesos可以满足这些需求。Agneeswaran博士引导读者们了解这些框架的架构和计算模型、研究通用设计模式。他在书中提到了业务范围的影响以及实现细节还有代码样例。

伴随着这些框架,本书也为开放标准预测模型标记语言提出了一个引人入胜的例子,使得预测模型可以在不同平台与环境之间迁移。本书还提到YARN以及下一代超越MapReduce的模型。

这正是当今业界的焦点——Hadoop基于2002年以来的IT经济,然而更新的框架与当代业界的用例更为密切。另外,本书既提供了专家指导,也热烈欢迎由大数据分析开启的无限可能。

Paco Nathan

图书《Enterprise Data Workflows with Cascading》的作者 ? (校对注:样章下载)

Zettacap的顾问以及Amplify的合作伙伴

(全文完)如果您喜欢此文请点赞,分享,评论。


  • 原创文章转载请注明出处:超越Hadoop的大数据分析之前言
  • 小额赞助本站::我要赞助

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

Video Face Swap

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

<gum> : Bubble Gum Simulator Infinity- 로얄 키를 얻고 사용하는 방법
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
Nordhold : Fusion System, 설명
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora : 마녀 트리의 속삭임 - Grappling Hook 잠금 해제 방법
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

Pandas를 사용하여 CSV 파일을 읽고 데이터 분석을 수행합니다. Pandas를 사용하여 CSV 파일을 읽고 데이터 분석을 수행합니다. Jan 09, 2024 am 09:26 AM

Pandas는 다양한 유형의 데이터 파일을 쉽게 읽고 처리할 수 있는 강력한 데이터 분석 도구입니다. 그중 CSV 파일은 가장 일반적이고 일반적으로 사용되는 데이터 파일 형식 중 하나입니다. 이 기사에서는 Pandas를 사용하여 CSV 파일을 읽고 데이터 분석을 수행하는 방법을 소개하고 구체적인 코드 예제를 제공합니다. 1. 필요한 라이브러리 가져오기 먼저 아래와 같이 필요할 수 있는 Pandas 라이브러리 및 기타 관련 라이브러리를 가져와야 합니다. importpandasasspd 2. Pan을 사용하여 CSV 파일 읽기

데이터 분석 방법 소개 데이터 분석 방법 소개 Jan 08, 2024 am 10:22 AM

일반적인 데이터 분석 방법: 1. 비교 분석 방법 3. 교차 분석 방법 5. 원인 및 영향 분석 방법 8. , 주성분 분석 방법 9. 분산 분석 방법 10. 매트릭스 분석 방법. 세부 소개: 1. 비교 분석 방법: 둘 이상의 데이터를 비교 분석하여 차이점과 패턴을 찾습니다. 2. 구조 분석 방법: 전체의 각 부분을 비교 분석하는 방법 3. 교차 분석 방법. , 등.

데이터 과학자가 95%의 시간을 사용하는 11가지 기본 분포 데이터 과학자가 95%의 시간을 사용하는 11가지 기본 분포 Dec 15, 2023 am 08:21 AM

"데이터 과학자가 95%의 시간을 사용하는 11가지 기본 차트"의 마지막 목록에 이어 오늘은 데이터 과학자가 95%의 시간을 사용하는 11가지 기본 분포를 소개하겠습니다. 이러한 분포를 마스터하면 데이터의 특성을 더 깊이 이해하고 데이터 분석 및 의사 결정 중에 더 정확한 추론과 예측을 할 수 있습니다. 1. 정규 분포 정규 분포는 가우스 분포라고도 알려져 있으며 연속 확률 분포입니다. 평균(μ)을 중심으로 하고 표준 편차(σ)를 너비로 하는 대칭 종 모양 곡선을 갖습니다. 정규분포는 통계, 확률론, 공학 등 여러 분야에서 중요한 응용 가치를 갖고 있습니다.

ECharts 및 PHP 인터페이스를 사용하여 데이터 분석 및 통계 차트 예측을 구현하는 방법 ECharts 및 PHP 인터페이스를 사용하여 데이터 분석 및 통계 차트 예측을 구현하는 방법 Dec 17, 2023 am 10:26 AM

ECharts 및 PHP 인터페이스를 사용하여 통계 차트의 데이터 분석 및 예측을 구현하는 방법 데이터 분석 및 예측은 데이터의 추세와 패턴을 이해하고 향후 결정을 위한 참고 자료를 제공하는 데 도움이 됩니다. ECharts는 PHP 인터페이스를 사용하여 데이터를 동적으로 로드하고 처리할 수 있는 풍부하고 유연한 차트 구성 요소를 제공하는 오픈 소스 데이터 시각화 라이브러리입니다. 본 글에서는 ECharts와 PHP 인터페이스를 기반으로 통계차트 데이터 분석 및 예측을 구현하는 방법을 소개하고, 제공합니다.

Go 언어를 활용한 머신러닝 및 데이터 분석 Go 언어를 활용한 머신러닝 및 데이터 분석 Nov 30, 2023 am 08:44 AM

오늘날의 지능사회에서 머신러닝과 데이터 분석은 사람들이 대량의 데이터를 더 잘 이해하고 활용할 수 있도록 돕는 필수적인 도구입니다. 이러한 분야에서 Go 언어는 속도와 효율성으로 인해 많은 프로그래머들이 선택하는 프로그래밍 언어이기도 합니다. 이 글에서는 머신러닝과 데이터 분석에 Go 언어를 사용하는 방법을 소개합니다. 1. 기계 학습 생태계 Go 언어는 Python 및 R만큼 풍부하지 않습니다. 그러나 점점 더 많은 사람들이 Go 언어를 사용하기 시작하면서 일부 기계 학습 라이브러리 및 프레임워크는

추천하는 데이터 분석 사이트는 무엇인가요? 추천하는 데이터 분석 사이트는 무엇인가요? Mar 13, 2024 pm 05:44 PM

권장사항: 1. 비즈니스 데이터 분석 포럼, 2. 전국 인민대표대회 경제 포럼 - 계량경제학 및 통계 분야, 4. 데이터 마이닝 학습 및 교환 포럼, 6. 웹사이트 데이터 분석, 8. 데이터 마이닝 연구소 9. S-PLUS, R 통계 포럼.

통합 엑셀 데이터 분석 통합 엑셀 데이터 분석 Mar 21, 2024 am 08:21 AM

1. 이번 강의에서는 엑셀 통합 데이터 분석에 대해 설명하겠습니다. 강의 자료를 열고 E2 셀을 클릭하여 수식을 입력해 보겠습니다. 2. 그런 다음 E53 셀을 선택하여 다음 데이터를 모두 계산합니다. 3. 그런 다음 F2 셀을 클릭하고 수식을 입력하여 계산합니다. 마찬가지로 아래로 드래그하면 원하는 값을 계산할 수 있습니다. 4. G2 셀을 선택하고 데이터 탭을 클릭한 다음 데이터 유효성 검사를 클릭하고 선택하고 확인합니다. 5. 같은 방법으로 계산이 필요한 아래 셀도 자동으로 채워보겠습니다. 6. 다음으로 실제 임금을 계산하고 H2 셀을 선택하여 수식을 입력합니다. 7. 그런 다음 값 드롭다운 메뉴를 클릭하여 다른 숫자를 클릭합니다.

빅 데이터 분야에서 Java 적용 살펴보기: Hadoop, Spark, Kafka 및 기타 기술 스택에 대한 이해 빅 데이터 분야에서 Java 적용 살펴보기: Hadoop, Spark, Kafka 및 기타 기술 스택에 대한 이해 Dec 26, 2023 pm 02:57 PM

Java 빅데이터 기술 스택: Hadoop, Spark, Kafka 등 빅데이터 분야에서 Java의 응용을 이해합니다. 데이터의 양이 지속적으로 증가함에 따라 오늘날 인터넷 시대에 빅데이터 기술이 화두가 되고 있습니다. 빅데이터 분야에서 우리는 하둡(Hadoop), 스파크(Spark), 카프카(Kafka) 등의 기술 이름을 자주 듣습니다. 이러한 기술은 매우 중요한 역할을 하며, 널리 사용되는 프로그래밍 언어인 Java는 빅데이터 분야에서도 큰 역할을 합니다. 이 기사에서는 Java의 대규모 애플리케이션에 중점을 둘 것입니다.

See all articles