Apache Spark in-memory clusters sẽ là sự việc cảnh báo của tương đối nhiều chủ thể trong câu hỏi ứng dụng công nghệ vào đối chiếu và xử lý dữ liệu nhanh gọn. Bài viết này tôi đã trình diễn một phương thức tổng quan liêu duy nhất về Apađậy Spark, một trong những phương án trải nghiệm buộc phải bao gồm Khi xử trí Big data.

Bạn đang xem: Spark tutorial: các câu hỏi phỏng vấn về apache spark thường gặp

Bài Viết: Spark là gì


Tổng quan liêu về Apabít Spark

Apabít Spark là 1 trong open source cluster computing framework được trở nên tân tiến sơ khởi vào năm 2009 vì AMPLab tại ĐH California. Sau này, Spark đang đc trao mang đến Apađậy Software Foundation vào năm 2013 và được phát triển cho tới lúc này. Nó được phnghiền ra đời đa số bài bản dự đoán nkhô nóng gọn gàng cùng với bài toán tính tân oán đc tiến hành trên một đội các laptop, bao gồm rất có thể tính toán thù đồng thời bên trên cục bộ tập tài liệu mà không nhất thiết phải trích xuất chủng loại tính toán xem sét. Vận tốc cách xử lý của Spark bao gồm đc vì câu hỏi tính toán thù đc xúc tiến đồng thời trên nhiều máy không giống nhau. Đồng thời bài toán tính toán đc thực thi sống bộ nhớ vào (in-memories) xuất xắc xúc tiến đầy đủ bên trên RAM.

Thành phần của Apađậy Spark

Matei Zaharia, phụ vương đẻ của Spark, bắt buộc sử dụng Hadoop từ những ngày đầu. Đến năm 2009 ông viết Apabít Spark để xử lý những bài bác toán thù học tập sản phẩm ở ĐH UC Berkely vị Hadoop MapReduce hoạt động ko công dụng cho những bài bác toán thù này. Rất nhanh chóng tiếp nối ông nhận biết rằng Spark không chỉ có lợi cho học tập trang bị mà còn cho tất cả vấn đề giải pháp xử lý luồng tài liệu hoàn hảo.


*

Thành phần trung của Spark là Spark Core: ưng ý các công dụng cnạp năng lượng bản duy nhất của Spark nhỏng lập lịch cho đa số tác vụ, cai quản trị bộ lưu trữ, fault recovery, can hệ với hầu như khối hệ thống lưu giữ trữ…Nổi nhảy, Spark Vi xử lý Core ưng ý API nhằm khái niệm RDD (Resilient Distributed DataSet) là tập vừa lòng của rất nhiều nhà cửa đc phân tán bên trên phần đa node của cluster và có thể được xử lý song tuy nhiên.


Spark có thể điều khiển xe trên nhiều các loại Cluster Managers nlỗi Hadoop YARN, Apache Mesos hoặc trên chủ yếu cluster manager đc ưng ý vị Spark được call là Standalone Scheduler.

Spark Squốc lộ được phnghiền truy vấn vấn dữ liệu kết cấu qua rất nhiều câu lệnh SQL. Spark SQL có thể làm việc với rất nhiều mối cung cấp tài liệu nhỏng Hive sầu tables, Parquet, và JSON.

Spark Streaming ưng ý API nhằm thuận lợi cách xử lý tài liệu stream,

MLlib Thỏa mãn rất đông thuật toán của học tập trang bị như: classification, regression, clustering, collaborative sầu filtering…

GraphX là thư viện nhằm giải pháp xử lý đồ gia dụng thị.

Trong phần lớn tlỗi viện nhưng Spark ưng ý thì tất cả 69% người mua Spark Squốc lộ, 62% phải áp dụng DataFrames, Spark Streaming & MLlib + GraphX là 58%

Tại sao đề xuất buộc phải áp dụng Apabít Spark


*

Các chức năng nổi biệt

“Spark as a Service”: Giao diện REST để quản lí (submit, start, stop, coi trạng thái) spark job, spark contextTăng tốc, giảm độ trễ xúc tiến job xuống mức chỉ tính bởi giây bởi thủ tục sinh sản sẵn spark context mang lại số đông job cần sử dụng thông thường.Stop job đang chạy bởi cách thức stop spark contextBỏ bước upload gói jar cơ hội start job khiến cho job được start nkhô hanh hơn.Thỏa mãn nhì nguyên tắc chạy job tương đồng và bất đồng bộCho phnghiền cache RDD theo thương hiệu , tăng tính tóm tắt & buộc phải thực hiện lại RDD trong số những jobHỗ trợ viết spark job bởi cú pháp SQLDễ dàng gắn vào với hồ hết phương pháp báo cáo như: Business Intelligence, Analytics, Data Integration Tools

Quản trị bộ nhớ của Apabít Spark

Về bộ nhớ lưu trữ, Spark giải quyết phần lớn vấn đề vấn đề phủ bọc có mang Resilient Distributed Datasets (RDDs). RDDs giúp đỡ nhị loại làm việc thao tác: transformations & action. Thao tác convert(tranformation) tạo nên dataset từ bỏ tài liệu tất cả sẵn. Thao tác actions trả về chi phí mang đến chương trình tinh chỉnh (driver program) sau khi tiến hành tính toán thù trên datamix.

Xem thêm: Nghĩa Của Từ Bicep Là Gì ? Các Bài Tập Cơ Tay Trước Hiệu Quả Nhất Cho Gymer

Spark triển khai gửi số đông làm việc RDD convert vào DAG (Directed Acyclic Graph) & Lúc đầu tiến hành. khi một action đc call trên RDD, Spark sẽ khởi tạo DAG & đưa cho DAG scheduler. DAG scheduler phân chia hầu như thao tác làm việc thành hầu như nhóm (stage) khác nhau của những task. Mỗi Stage bao gồm cả phần đông task dựa vào phân vùng của tài liệu đầu vào có thể pipline với nhau and có thể tiến hành một phương thức chủ quyền trên một vật dụng worker. DAG scheduler sắp xếp hầu hết làm việc tương xứng với các bước tiến hành theo thời hạn làm sao để cho về tối ưu duy nhất. Ví dụ: đều thao tác bản thứ để được chuyển vào và một stage vị ko xẩy ra shuffle tài liệu giữa những stage. Kết trái sau cùng của DAG scheduler là một tập phần lớn stage. Những Stages đc đưa đến Task Scheduler. Task Scheduler đã chạy phần đông task trải qua cluster manager (Spark Standalone/Yarn/Mesos). Task scheduler chưa biết đến về sự phụ thuộc của không ít stages. Nó chỉ Chịu đựng trách nát nhiệm thực hiện sắp xếp phần đa task một thủ tục buổi tối ưu độc nhất vô nhị.


Mỗi Worker bao gồm một hoặc các Excuter. Những excuter chịu trách nhiệm thực hiện gần như task trên đầy đủ luồng cá biệt. Việc phân tách nhỏ tuổi đần độn phần đa task cứu giúp mang về hiệu năng cao hơn nữa, bớt tđọc liên quan của tài liệu không đối xứng (kích thước phần lớn tệp tin ko đồng đều).

Quy trình Spark Ra đời DAG: Có nhị thứ hạng convert có thể yêu cầu sử dụng trên các RDDs đây là convert thuôn và convert rộng:

– Convert hẹp: không hề mong muốn xáo trộn dữ liệu vượt qua đầy đủ phân vùng

(partition).lấy ví dụ như tựa như những làm việc bản thứ, filter,..

– Convert rộng mong muốn dữ liệu yêu cầu xáo trộn. Ví dụ: reduceByKey,

sortByKey, groupByKey,…

Những yếu tố bao gồm trong quản lí trị cỗ nhớ:

Spark truy cập tài liệu được lưu trữ nghỉ ngơi phần đa nguồn khác nhau như: HDFS, Local Disk, RAM. Cabít Manager cần sử dụng Block Manager nhằm quản trị tài liệu. Cache Manager cai quản trị dữ liệu như thế nào đc Cabịt bên trên RAM, bình thường là tài liệu được đề nghị thực hiện tiếp tục tốt nhất, nó cũng có thể đc cam kết thủ công bằng tay thủ công thủ công buộc phải sử dụng cách thức persit hoặc cađậy. Nếu form size RAM không được chứa dữ liệu thì dữ liệu sẽ được lưu trữ sang trọng Tachyon và ở đầu cuối là lưu trữ ra dĩa. khi dữ liệu(RDD) ko được lưu trữ bên trên RAM, Khi yêu cầu cần thực hiện cho, bọn chúng sẽ được recompute lại. Nó yêu cầu thực hiện một khái niệm là “storage level” nhằm quản trị cấp độ của tàng trữ của dữ liệu.


Spark Languages

Lập trình viên hoàn toàn có thể viết đa số phần mềm Spark bằng những ngôn từ không giống nhau. Năm năm trước, 84% người mua phải sử dụng Scala, trong lúc Java và Pykhiêm tốn thuộc là 38% (Người sử dụng rất có thể buộc phải áp dụng nhiều hơn nữa 1 ngữ điệu Một trong những phần mềm của tôi). Đến năm 2015, Spark giúp đỡ thêm ngôn từ R, cực kỳ nhanh khô gọn gàng bao gồm tới 18% người tiêu dùng R, Pythanh mảnh cũng tăng lên 58%.


*

Các doanh nghiệp vẫn yêu cầu sử dụng Apabít Spark

Hôm ni, bao gồm rất đông doanh nghiệp khổng lồ sẽ yêu cầu áp dụng Spark nhỏng Yahoo, Twitter, Ebay….


*

Kết luận

Nếu với phần nhiều nhà vừa ý phương án CNTT, Apađậy Spark là 1 trong những lá bài đặc trưng vào câu hỏi buộc phải sử dụng hầu hết công nghệ chủ yếu để Ra đời những data warehouses tiến bộ. Đấy là 1 phân khúc to trong lĩnh vực IT có tác dụng đuc rút hàng tỉ đô doanh thu từng năm. Spark chỉ ra một khái niệm new với nhiều hứa hẹn sau này đó là data lakes. Đấy là một trong những địa điểm tàng trữ một lượng tài liệu to con với nhiều định dạng khác biệt và được truy nã vấn nhằm xử lý khi thiết yếu. Data lakes chỉ ra rằng một framework tài chính hoàn toàn có thể tạo được một môi trường thiên nhiên thiên nhiên lưu trữ vô hạn hốt nhiên nhiều loại tài liệu nào

And trên này là bài viết trình làng tổng quan lại về Apache Spark, hy vọng mọi bạn cũng có thể search cảm thấy những điều bổ ích trong đó. Bài viết chắc chắn là vẫn còn đấy sự nợ sót, mình rất hy vọng dìm được sự góp ý của bọn họ.

Tài liệu tìm hiểu thêm thêm

Learning Spark by Matei Zaharia, Patriông chồng Wendell, Andy Konwinski, Holden Karau

Thể Loại: Share Kiến Thức Cộng Đồng


Bài Viết: Spark Là Gì – Nghĩa Của Từ Spark Trong Tiếng Việt

Thể Loại: LÀ GÌ

Nguồn Blog là gì: https://clinkerhq.com Spark Là Gì – Nghĩa Của Từ Spark Trong Tiếng Việt


Related


About The Author
*

Là GìEmail Author

Leave a Reply Hủy

Lưu thương hiệu của mình, email, cùng website trong trình chuẩn y này đến lần bình luận sau đó của tôi.

Bài viết liên quan

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *