책 '빅데이터를 지탱하는 기술' 에서 발췌한 '영어로 표현해보고 싶은 문장들' 임

- 빅데이터를 지탱하는 기술 공부 필기 : https://eyeballs.tistory.com/m/574

 

 

< 1. 빅데이터의 기초 지식 >

 

'빅데이터'라는 단어는 하나의 기술 분야로 정착되었다.
→ The term "Big Data" has become established as a distinct field of technology.

빅데이터 취급이 어려운 이유는 '데이터 처리에 수고와 시간이 걸린다' 는 점이다.
→ The reason handling big data is difficult is that processing the data requires significant effort and time.

'Hadoop'은 다수의 컴퓨터에서 대량의 데이터를 처리하기 위한 시스템이다.
→ Hadoop is a system designed to process large volumes of data across multiple computers.

검색 엔진을 만들려면, 데이터를 순차적으로 처리할 수 있는 구조가 필요하다.
→ To build a search engine, a structure capable of processing data sequentially is necessary.

가속도적으로 늘어나는 데이터의 처리는 Hadoop 에 맡긴다.
→ The processing of rapidly increasing data is entrusted to Hadoop.

클라우드 서비스의 보급에 의해 빅데이터의 활용이 증가하였다. '여러 컴퓨터에 분산 처리한다' 라는 점이 빅데이터의 특징이다.
→ With the widespread adoption of cloud services, the use of big data has increased. A key characteristic of big data is that it is processed in a distributed manner across multiple computers.

클라우드 시대인 요즘은 시간 단위로 필요한 자원을 확보할 수 있다.
→ In today’s cloud era, it's possible to allocate the necessary resources on an hourly basis.

스몰 데이터를 처리하는 경우, 데이터양이 증가하면 처리 시간이 급격히 증가한다/감소한다.
→ When processing small data, the processing time increases/decreases sharply as the volume of data grows.

빅데이터 기술이 기존의 기술과 다른 점은, 다수의 분산 시스템을 조합하여 확장성이 뛰어난 데이터 처리 구조를 만든다는 점이다.
→ What sets big data technologies apart from traditional methods is that they combine multiple distributed systems to create highly scalable data processing architectures.

처음에는 간단한 구성으로도 끝나지만, 하고 싶은 일이 증가함에 따라 시스템은 점차 복잡해지고 그 시스템들을 어떻게 조합시킬지가 문제가 된다.
→ At first, a simple setup may suffice, but as the scope of work grows, the system becomes increasingly complex, and the challenge becomes how to integrate those systems effectively.

데이터 파이프라인은 데이터를 모으는 부분부터 시작한다.
→ A data pipeline begins with the collection of data.

데이터는 여러 장소에서 발생하고 각각 다른 형태를 보인다.
→ Data originates from various sources and appears in different formats.

'데이터 전송' 의 방법은 다음 두 가지가 있다.
→ There are two main methods for data transmission/data transfer.

 

'벌크형'은 이미 어딘가에 존재하는 데이터를 정리해 추출하는 방법이다. 데이터베이스에서 데이터를 정기적으로 수집한다.
→ The "bulk type" refers to a method of extracting existing data in an organized way. It involves periodically collecting data from a database.

'스트리밍형'은 차례차례로 생성되는 데이터를 끊임없이 보내는 방법이다.
→ The "streaming type" continuously transmits data as it is generated, in real time.

스트리밍형 방법으로 받은 데이터를 실시간으로 처리하는 것을 '스트림 처리'라고 한다.
→ Processing data received through the streaming method in real time is called "stream processing."

과거 30분간 취합한 데이터를 집계하여 그래프를 만든다. 이 때 '시계열 데이터베이스' 같은 실시간 처리를 지향하는 데이터베이스가 사용된다.
→ Data collected over the past 30 minutes is aggregated to create graphs. At this point, a database designed for real-time processing, such as a time-series database, is used.

스트림 처리는 장기적인 데이터 분석에는 적합하지 않다.
→ Stream processing is not well-suited for long-term data analysis.

지난 1년간의 데이터를 분석하려면, 데이터양은 단번에 수천에서 수만배로 증가한다.
→ To analyze data from the past year, the volume of data can instantly increase by thousands to tens of thousands of times.

'배치 처리'는 어느 정도 정리된 데이터를 효율적으로 가공한다.
→ "Batch processing" efficiently processes data that has already been somewhat structured.

수집된 데이터는 '분산 스토리지'에 저장된다. '분산 스토리지'란, 여러 컴퓨터와 디스크로 구성된 스토리지 시스템이다.
→ Collected data is stored in a "distributed storage" system. Distributed storage refers to a storage architecture made up of multiple computers and disks.

'객체 스토리지'는 한 덩어리로 모인 데이터에 이름을 부여해서 파일로 저장한다. Amazon S3가 대표적인 객체 스토리지다.
→ "Object storage" stores data as files by assigning names to data grouped as single units. Amazon S3 is a representative example of object storage.

 

나중에 데이터 용량을 늘릴 수 있는 확장성이 높은 스토리지를 사용해야 한다.
→ You should use highly scalable storage that allows for increasing data capacity in the future.

분산 스토리지에 저장된 데이터를 처리하는 데는 '분산 데이터 처리'의 프레임워크가 필요하다.
→ To process data stored in distributed storage, a distributed data processing framework is required.

MapReduce가 사용되어진 것이 바로 이 부분으로, 데이터양과 처리 방법에 따라 많은 컴퓨터 자원이 필요하게 된다.
→ This is where MapReduce is used; depending on the data volume and processing method, significant computing resources may be required.

나중에 분석하기 쉽도록 데이터를 가공해서 그 결과를 외부 데이터베이스에 저장한다.
→ Data is processed in a way that makes later analysis easier, and the results are stored in an external database.

대부분의 사람들은 데이터 집계를 위해 SQL을 사용하는 것이 익숙하다.
→ Most people are accustomed to using SQL for data aggregation.

이런 일련의 절차를 ETL 프로세스라고 한다. 데이터를 추출하고, 그것을 가공하고, 데이터 웨어하우스에 저장한다.
→ This series of procedures is called the ETL process—extracting data, transforming it, and loading it into a data warehouse.

매일 정해진 시간에 스케줄대로 배치 처리를 실행한다. 오류가 발생하면, 관리자에게 통지한다.
→ Batch processing is executed according to a fixed daily schedule. If an error occurs, the administrator is notified.

데이터 파이프라인이 복잡해짐에 따라, 그것을 한 곳에서 제어하지 않으면 움직임을 파악하는 것이 힘들어진다.
→ As the data pipeline becomes more complex, it becomes difficult to track its operations unless it is controlled from a centralized location.

빅데이터 처리에는 시스템 장애가 발생한다. 따라서 오류 발생 시 처리와 다시 처리하기 위한 기능을 만들어야 한다.
→ System failures can occur during big data processing. Therefore, it is necessary to implement functions to handle and retry tasks when errors occur.

데이터 웨어하우스는 대량의 데이터를 장기 보존하는 것에 최적화 되어있다.
→ A data warehouse is optimized for long-term storage of large volumes of data.

하루동안 쌓인 데이터를 야간 시간대에 집계해서 보고서를 작성한다.
→ Data collected throughout the day is aggregated overnight to generate reports.

테이블 설계를 제대로 정한 후에 데이터를 저장한다.
→ Data should be stored only after the table design has been properly defined.

모든 데이터가 데이터 웨어하우스를 가정해서 만들어지지는 않는다.
→ Not all data is designed with a data warehouse in mind.

바이너리 데이터 등 그대로 데이터 웨어하우스에 넣을 수 없는 것도 있다.
→ Some data, like binary files, can’t be stored directly in a data warehouse.

모든 데이터를 원래 형태로 저장해두고, 나중에 필요할 때 가공하는 구조가 필요하다.
→ It’s important to have a structure where all data is stored in its original form and processed later when needed.

미가공한 원시 데이터를 그대로 데이터 레이크에 저장하고, 나중에 필요한 것만 꺼내서 사용한다.
→ Unprocessed raw data is stored in a data lake, and only the necessary data is retrieved and used later.

데이터 엔지니어는 시스템의 구축 및 운영, 자동화 등을 담당한다.
→ Data engineers are responsible for building, managing, and automating the systems.

데이터 분석가는 데이터에서 가치 있는 정보를 추출한다.
→ Data analysts extract meaningful insights from data.

가능한 한 작은 시스템에서 시작하여 나중에 단계적으로 확장해 나가는 것이 좋다.
→ It’s best to start with a small system and gradually scale it up over time.

시작 단계에서, 자동화 등을 생각하지 않고 수작업으로 데이터를 집계 및 분석하는 것을 ad hoc 분석이라고 한다.
→ In the early stages, manually collecting and analyzing data without automation is called ad hoc analysis.

데이터 처리를 자동화해서 장기적으로 운영하기 위해서는 안정된 워크플로 관리가 필수적이다.
→ Reliable workflow management is essential for long-term operations through automated data processing.

대량의 데이터 중에서 조건에 맞는 것을 찾는 것을 데이터 검색 이라고 한다.
→ Searching for data that meets specific criteria within a large dataset is called data retrieval.

센서 데이터의 비정상적인 상태를 감지하여 통보하는 경우다.
→ This refers to detecting anomalies in sensor data and sending out alerts.

데이터의 가공에는 자동화가 필수적이다.
→ Automation is essential for processing data efficiently.

표 형식의 데이터는 가로와 세로의 2차원 배열로 나뉘어져 있다.
→ Tabular data is organized in a two-dimensional array of rows and columns.

'time' 커럼값은 다루기 어려우므로, 표준적인 시간 포맷으로 변환한다.
→ Since values in the 'time' column can be tricky to handle, they should be converted into a standard time format.

보다 계획적으로 데이터의 변화를 추적해 나가는 것이 '모니터링'이다.
→ Monitoring refers to systematically tracking changes in data over time.

1개월 혹은 1주일마다 정기적인 일정으로 동일한 집계를 반복하고 그 추이를 관찰한다.
→ The same aggregation is repeated on a regular schedule—weekly or monthly—to observe trends over time.

데이터라는 것은 현재 상황을 파악하기 위한 하나의 도구로 사용할 수 있다.
→ Data can be used as a tool to understand the current situation.

다음 행동을 결정하기 위한 기준으로서 데이터를 살펴본다.
→ Data is examined as a basis for deciding the next course of action.

광고 표시 횟수에 대한 광고 클릭 비율
→ Click-through rate (CTR) based on the number of ad impressions.

하루에 서비스를 이용한 고객 수
→ The number of customers who used the service in a day.

객관적인 데이터를 근거하여 판단하는 것을 '데이터 기반(data-driven) 의사 결정'이라고 한다.
→ Making decisions based on objective data is called data-driven decision making.

이 테이블에서 a 컬럼 값이 b 컬럼 값보다 전체적으로 높다는/낮다는/비슷하다는 것을 알 수 있다.
→ From this table, we can see that the values in column A are generally higher/lower/similar to those in column B.

숫자를 정리한 데이터만 있으면 필요한 테이블을 만들 수 있다.
→ As long as you have organized numerical data, you can create any table you need.

테이블 내 데이터를 그대로 사용해 그래프를 만든다.
→ Graphs are created directly from the data in the table.

'월간 보고서'처럼 일관성이 높은 보고서가 필요하다.
→ You need a consistent report like a monthly report.

A, B, 그리고 C 중에서 중요성이 높은 것부터 차례대로 자동화한다.
→ Automate A, B, and C in order of importance.

 

 

+ Recent posts