책 '빅데이터를 지탱하는 기술' 에서 발췌한 '영어로 표현해보고 싶은 문장들' 임
- 빅데이터를 지탱하는 기술 공부 필기 : https://eyeballs.tistory.com/m/574
< 2. 빅데이터의 탐색 >
이 테이블의 행 방향으로는 '상품명' 이 나열되고, 열 방향으로는 '매출 월'이 나열된다.
→ In this table, product names are listed in rows, and sales months are listed in columns.
행과 열이 교차하는 부분에 숫자 데이터가 들어가기 때문에, 이 테이블을 '크로스 테이블'이라고 부른다.
→ Since the numeric data appears at the intersections of rows and columns, this is called a cross table.
크로스 테이블은 사람들이 보기 편하지만, 데이터베이스에서는 다루기 어렵다.
→ Cross tables are easy for people to read, but difficult for databases to work with.
데이터베이스에서 새로운 행을 추가하는 것은 간단하지만, 새로운 열을 추가하는 것은 간단하지 않다.
→ Adding new rows in a database is easy, but adding new columns is not as straightforward.
새로운 데이터가 행 방향으로만 증가하는 테이블을 트랜잭션 테이블이라고 한다.
→ A table where new data is only added as rows is called a transaction table.
트랜잭션 테이블에 다른 테이블을 결합하고 싶은 경우 사용되는 것이 'lookup 테이블' 이다.
→ A lookup table is used when you want to join additional information to a transaction table.
상품 정보를 하나의 독립된 테이블로 정리해두면, 나중에 속성을 추가하거나 변경하는 것이 간단해진다.
→ If you organize product information into a separate table, it becomes easier to add or update attributes later.
각각의 테이블들을 독립적으로 관리할 수 있다.
→ Each table can be managed independently.
SQL 에서 제공하는 데이터 집계 함수를 이용하여 데이터양 감소를 고려할 필요가 있다.
→ You should consider reducing the data volume using SQL’s built-in aggregation functions.
메모리에 다 올라가지 못 할 정도로 큰 용량의 데이터도 신속하게 집계할 수 있다.
→ Even large datasets that can't fully fit in memory can be aggregated efficiently.
미리 데이터를 집계에 적합한 형태로 변환하는 것이 필요하다.
→ It’s important to pre-process the data into a format that is suitable for aggregation.
tip :
- Whether something is appropriate and acceptable -> use "be suitable for"
- Whether something is a good match(well-matched) and more specific -> use "be suited for"
집계를 위한 대기 시간이 늘어나면 모든 작업이 느려진다.
→ If the wait time for aggregation increases, all processes slow down.
초 단위로 데이터를 집계하려면 처음부터 그것을 예상해서 시스템을 마련해야 한다.
→ If you plan to aggregate data by the second, your system needs to be designed for it from the start.
일반적으로 '데이터 처리 응답이 빠르다'는 표현을 '대기 시간(latency)이 적다' 고 표현한다.
→ In general, fast data processing is described as having low latency.
지연이 적은 데이터베이스를 만들기 위한 방법이 크게 두 가지 있다.
→ There are two main approaches to building a low-latency database.
모든 데이터를 메모리에 올린다.
→ Load all the data into memory.
RDB 는 메모리가 부족하면 급격히 성능이 저하/향상된다.
→ Relational databases (RDBs) experience a sharp drop/improvement in performance when memory is insufficient.
데이터를 가능한 한 작게 압축하고 그것을 여러 디스크에 분산함으로써 데이터 IO 에 드는 지연을 줄인다.
→ By compressing data as much as possible and distributing it across multiple disks, you can reduce data I/O latency.
수치가 증가하거나 감소하거나 둘 중 하나다.
→ The number either increases or decreases. The figure changes in one of two directions.
분산된 데이터를 읽을 때, 멀티 코어를 활용하며 디스크 IO 를 병렬처리하는 것이 효과적이다. 이러한 아키텍처를 MPP 라고 부른다.
→ When reading distributed data, it's effective to utilize multi-core processors and perform disk I/O in parallel—this architecture is called MPP (Massively Parallel Processing) = Hadoop MapReduce.
클라우드 서비스의 보급 등으로 MPP 도입 문턱이 낮아져 널리 이용되고 있다.
→ With the spread of cloud services, the barrier to adopting MPP has lowered, making it widely used.
빅데이터로 취급되는 데이터 대부분은 디스크 상에 있다.
→ Most big data is stored on disk.
일반적인 데이터베이스는 레코드 단위의 읽고 쓰기에 최적화되어있다.
→ Traditional databases are optimized for reading and writing data at the record level.
데이터 분석에 사용되는 데이터베이스는 컬럼 단위의 집계에 최적화되어있다.
→ Databases used for data analysis are optimized for column-based aggregation.
데이터 처리 성능은 두 종류 숫자로 표현된다.
→ Data processing performance is typically described using two metrics.
'일정 시간 내에 처리할 수 있는 데이터의 양'을 데이터 처리량(throughput) 이라고 한다.
→ The amount of data that can be processed within a certain period of time is called "throughput".
'데이터 처리가 끝날 때 까지 대기하는 시간'을 지연 시간 이라고 한다.
→ The time you wait for data processing to complete is called latency.
메모리 크기에 따라 지연 시간이 단축되거나 증가한다.
→ Latency can decrease or increase depending on the amount of memory available.
인덱스의 유무에 따라 디스크IO 가 줄어들거나 늘어나고, 그로 인해 성능이 저하되거나 증가한다.
→ The presence or absence of indexes affects disk I/O, which in turn (and that leads to) impacts performance—either improving or degrading it. It's a chain of cause and effect.
열 지향 데이터베이스는 같은 문자열을 반복하여 저장하기 때문에 압축 효율도 우수하다.
→ Column-oriented databases often store repeated strings, which results in excellent compression efficiency.
MPP 에서는 하나의 쿼리를 다수의 작은 태스크로 분해하고, 이를 가능한 한 병렬로 실행한다.
→ In MPP (Massively Parallel Processing), a query is broken down into many smaller tasks and executed in parallel as much as possible.
MPP 성능 향상을 위해 CPU 와 디스크 모두 균형 있게 늘려야/줄여야한다.
→ To improve MPP performance, you need to scale both CPU and disk resources in a balanced way.
둘 중 어느 쪽을 선택할지는 때에 따라 다르다.
→ Which option to choose depends on the situation.
과부하가 발생하지 않도록 사용자마다 사용 가능한 시스템 리소스를 제한할 수 있다.
→ You can limit the system resources available to each user to prevent overload.
어떤 데이터 분석이라도 처음엔 ad hoc 분석부터 시작한다.
→ All data analysis typically starts with ad hoc analysis.
여러번 시행착오를 반복하면서 데이터를 살펴보는 것이다.
→ It involves exploring the data through repeated trial and error.
ad hoc 분석과는 대조적으로, 정기적으로 쿼리를 실행해 보고서를 작성할 수 있다.
→ In contrast to ad hoc analysis, you can run queries on a regular schedule to generate reports.
시간을 들여 차분히 데이터를 보고 싶은 경우에 이러한 도구가 적합하다/비적합하다.
→ These tools are suitable/unsuitable when you want to take your time and carefully examine the data.
대시보드에서 최신 집계 결과를 즉시 확인하길 기대한다.
→ Users expect to see the latest aggregated results instantly on the dashboard.
A 집곗값은 실시간으로 업데이트된다. B 집곗값은 하루에 한 번 업데이트 된다.
→ Metric A is updated in real time, while Metric B is updated once a day.
컴퓨터 성능 향상에 따라 데이터 집계 속도는 해마다 빨라지고 있다.
→ Thanks to improvements in computing power, data aggregation speeds are increasing year by year.
데이터 마트를 만들지 않아도 되는 경우가 늘어나고/줄어들고 있다.
→ There are more/fewer cases now where building a data mart is unnecessary.
관계형 모델(relational model) 내용에서 정규화와 비정규화에 대해 알 수 있다.
→ The relational model covers/explains both normalization and denormalization.
정규화를 진행하면, 테이블들을 최대한 나누고, 각 테이블들을 외래키를 통해 연결한다.
→ Normalization involves splitting tables as much as possible and linking them using foreign keys.
비정규화를 진행하면, 테이블들을 최대한 결합한다.
→ Denormalization involves combining tables as much as possible.
데이터베이스 설계시, 테이블을 'fact table' 과 'dimension table' 로 구분한다.
→ In database design, tables are categorized into fact tables and dimension tables.
'fact table' 에는 시간에 따라 증가하는 데이터가 저장된다.
→ Fact tables store data that accumulates over time.
'dimension table' 에는 주로 데이터를 분류하기 위한 속성값들이 저장된다.
→ Dimension tables typically store attributes used to categorize the data.
fact table 을 중심으로 여러 dimension tables 가 결합한 모델을 스타 스키마 라고 부른다.
→ A model where a fact table is surrounded by multiple dimension tables is called a star schema.
데이터 마트는 비정규화 테이블로 구성하는 것이 가장 단순하고 효율적이다.
→ Building a data mart with denormalized tables is the simplest and most efficient approach.
데이터를 몇 개의 그룹으로 나누고 정리한다.
→ The data is divided and organized into several groups.
각 레코드는 반드시 어느 하나의 그룹에 속한다.
→ Each record must belong to one and only one group.
'English' 카테고리의 다른 글
| [IT] 개발 영어 공부 - 빅데이터를 지탱하는 기술 4 (1) | 2025.06.20 |
|---|---|
| [IT] 개발 영어 공부 - 빅데이터를 지탱하는 기술 3 (2) | 2025.06.19 |
| [IT] 개발 영어 공부 - 빅데이터를 지탱하는 기술 1 (2) | 2025.06.12 |
| [Duo] section 01 ~ 43 (1) | 2025.05.20 |
| [English] 개발 영어 공부 (0) | 2025.02.09 |