怎样成为一名真正的数据科学家?这10本书就是答案

news/2024/5/20 5:09:45 标签: 大数据, hadoop, spark, hdfs

导读:社交、出行、办公、购物、娱乐……一个生活在2020年的人,每天要产生多少数据?这些数据将怎样改变我们的生活、工作和思维方式?将创造哪些价值?这些价值又该怎样挖掘?

数据科学家被《哈佛商业评论》称为“21世纪最性感的职业”,那么怎样成为一名真正的数据科学家?今天推荐的10本书,一定能让你变得更“性感”。

1

 

Python机器学习

(原书第2版)

作者:塞巴斯蒂安·拉施卡 瓦希德·米尔贾利利

推荐语:本书将带领你进入预测分析的世界,并展示为什么Python会成为数据科学领域首屈一指的计算机语言。如果你想更好地从数据中得到问题的答案,或者想要提升并扩展现有机器学习系统的性能,那么这本基于数据科学实践的书籍非常值得一读。

本书自第1版出版以来,备受广大读者欢迎。与同类书相比,本书除了介绍如何用Python和基于Python的机器学习软件库进行实践外,还对机器学习概念的必要细节进行讨论,同时对机器学习算法的工作原理、使用方法以及如何避免掉入常见的陷阱提供直观且翔实的解释,是Python机器学习入门必读之作。

Python机器学习(原书第2版)

作者:(美)塞巴斯蒂安·拉施卡(Sebastian Raschka),瓦希德·米

2

 

 

 

数据中心一体化最佳实践

设计仓储级计算机

(原书第3版)

作者:路易斯·安德烈·巴罗索 等

推荐语:本书由谷歌3位资深专家亲笔撰写,利用多个真实案例,探讨新型系统如何在将数据中心本身当作超大规模仓储级计算机使用的同时,又能使软硬件充分协同以提供高性能的互联网服务。

3

 

 

 

文本数据管理与分析

信息检索与文本挖掘的实用导论

作者:翟成祥 肖恩·马森

推荐语:信息检索与数据挖掘领域世界知名学者、ACM Fellow、美国伊利诺伊大学香槟分校(UIUC)翟成祥教授厚积薄发之作,基于UIUC数据管理与分析相关课程多年的积累,覆盖作者两门在线课程“文本检索与搜索引擎”和“文本挖掘与分析”的主要内容。

 

文本数据管理与分析:信息检索与文本挖掘的实用导论

作者:翟成祥(Chengxiang Zhai) 肖恩·马森(Sean Massung)

 

4

 

 

计算机时代的统计推断

算法、演化和数据科学

作者:布拉德利·埃夫隆 特雷福·黑斯蒂

推荐语:统计推断入门经典,斯坦福大学知名教授、《The Elements of Statistical Learning》作者Trevor Hastie全新力作。汇集重要统计思想,系统阐释统计推断近60年的演化史,深入剖析各种经典算法及应用。

计算机时代的统计推断:算法、演化和数据科学

作者:[美] 布拉德利·埃夫隆(Bradley Efron) 特雷福·黑斯蒂

5

 

 

 

数据挖掘:概念与技术

(原书第3版)

作者:Jiawei Han, Micheline Kamber 等

推荐语:数据挖掘领域最具里程碑意义的经典著作,完整全面阐述该领域的重要知识和技术创新。

本书完整全面地讲述数据挖掘的概念、方法、技术和研究进展。本书对前两版做了全面修订,加强和重新组织了全书的技术内容,重点论述了数据预处理、频繁模式挖掘、分类和聚类等的内容,还全面讲述了OLAP和离群点检测,并研讨了挖掘网络、复杂数据类型以及重要应用领域。如果你对大数据开发感兴趣,想系统学习大数据的话,可以加入大数据技术学习交流扣扣君羊:522189307

数据挖掘:概念与技术(原书第3版)

作者:Jiawei Han, MIcheline Kamber, Jian Pei著

6

统计学习导论

基于R应用

作者:加雷斯·詹姆斯 丹妮拉·威滕 等 

推荐语:统计学习是一套以复杂数据建模和数据理解为目的的工具集,是近期才发展起来的统计学的一个新领域。本书出自统计学习领域声名显赫的几位专家,结合R语言介绍了分析大数据必不可少的工具,提供一些最重要的建模和预测技术,并借助丰富的实验来解释如何用R语言实现统计学习方法。

本书不仅是优秀的“统计学习”或“机器学习”课程的教材,也是数据挖掘、数据分析等相关从业者不可或缺的参考书。

统计学习导论 基于R应用

作者:(美)加雷斯·詹姆斯 著,王星 译

7

 

 

 

数据科学与大数据技术导论

作者:奥弗·曼德勒维奇 凯西·斯特拉 等

推荐语:使用Hadoop和Spark解决实际数据科学问题的专业人士,如今越来越缺乏。本书就是帮助读者提升为这种奇缺人士的完全指南。借鉴在Hadoop和大数据方面的丰富经验,三大顶尖专家在本书中汇集了读者所需要的一切:高层次的概念、深潜的技术、现实的用例、实际的应用和易上手的教程。

数据科学与大数据技术导论

作者:[美] 凯西·斯特拉

8

 

 

 

社交媒体数据挖掘与分析

作者:加博尔·萨博 格尔·波拉特坎 等

推荐语:社交媒体是大数据的丰富来源。了解社交媒体数据最有效的挖掘方法能够帮助你获得产生惊人业绩的信息。

由任职社交网络公司的业界专家所撰写的本书提供了一个实践教程,教授你如何使用最新的工具和专门针对社交媒体的复杂数据挖掘技术。本书深入剖析了收集和应用社交媒体数据的机制,以理解用户、定义趋势并做出预测,从而改善对增长和销售的分析。

社交媒体数据挖掘与分析

作者:(美)加博尔·萨博(Gabor Szabo), (美)格尔·波拉特坎(G

9

 

 

 

统计反思:用R和Stan例解贝叶斯方法

作者:理查德·麦克尔里思

推荐语:本书能增加你对统计模型的理解和信心。现在,基于模型的统计对编程有基本的要求,本书能促使你一步一步地计算原本自动的过程。书中独特的计算过程可确保你了解足够的细节,以便你在建模工作中合理地选择和解释模型。

本书从贝叶斯的角度介绍了广义线性分层模型,通过贝叶斯概率和最大熵的基础逻辑解释模型,涵盖从基础的回归分析到分层模型的内容。作者还讨论了测量误差、缺失数据,以及处理空间和网络自相关的高斯过程模型。

统计反思:用R和Stan例解贝叶斯方法

作者:[美]理查德·麦克尔里思(Richard McElreath)

10

 

 

利用Python进行数据分析

(原书第2版)

作者:韦斯·麦金尼

推荐语:Python数据分析经典畅销书全新升级。Python pandas创始人亲自执笔,Python语言的核心开发人员鼎立推荐。针对Python 3.6进行全面修订和更新。

利用Python进行数据分析(原书第2版)

作者:[美]韦斯·麦金尼(Wes McKinney

 

一直看到这里的你,一定是爱读书的人。


http://www.niftyadmin.cn/n/1574996.html

相关文章

关于高可用负载均衡的探索

2019独角兽企业重金招聘Python工程师标准>>> 本文于3月22日晚由张新峰,杭州爱医康架构师技术分享整理而成。本次分享介绍了如何使用负载均衡达到一个对用户友好(稳定无感)、对运维友好(傻瓜高效)、对架构友…

玩转大数据开发工具--上下全篇

为了降低大数据应用开发的门槛,简化开发过程,星环随Transwarp Data Hub 5.0开发出了大数据开发套件Transwarp Studio。Studio由一套PaaS产品构成,提供从提取、存储、计算、展示的全链路大数据开发服务,全面覆盖大数据开发流水线上…

kali wifi (not complete!)

1. apt-get install isc-dhcp-server -y 2. airmon-ng check kill airmon-ng start wlan0airbase-ng -e FreeWiFi -c 6 wlan0mon 转载于:https://www.cnblogs.com/yugengde/p/8650241.html

大数据开发实战系列之Spark电商平台

源于企业级电商网站的大数据统计分析平台,该平台以 Spark 框架为核心,对电商网站的日志进行离线和实时分析。 该大数据分析平台对电商网站的各种用户行为(访问行为、购物行为、广告点击行为等)进行分析,根据平台统计出…

netstat、Linux下抓包

1、netstat 命令 netstat 是在内核中访问网络连接状态及其相关信息的程序,它能提供TCP连接,TCP和UDP监听,进程内存管理的相关报告。netstat 是控制台命令,是一个监控TCP/IP网络的非常有用的工具,它可以显示路由表、实际的网络连接…

想从事数据科学,编码技能够格了吗?

先来看看这样一个故事: “那是周五的晚上。我记得非常清楚,要去跟父母一同度假。那是他们是第一次去班加罗尔,我都计划好了带他们逛逛。工作已经完成,且一般周五晚都不会太忙。可就在下班时,对方突然发邮件问我要很早…

Rust 和Erlang的对比

\本文要点:\\Erlang提供轻量级流程、不变性、位置透明的分布式、消息传递、监督行为以及许多其他高级动态功能,这些特性使其成为容错、高可用性和可扩展系统的理想之选。\\t不幸的是,在执行XML解析等低层次的事情时,Erlang并不是最…

Flink入门(五)——DataSet Api编程指南

##Apache Flink Apache Flink 是一个兼顾高吞吐、低延迟、高性能的分布式处理框架。在实时计算崛起的今天,Flink正在飞速发展。由于性能的优势和兼顾批处理,流处理的特性,Flink可能正在颠覆整个大数据的生态。 DataSet API 首先要想运行Fli…