์ฃผ์š” ์ปจํ…์ธ ๋กœ ์ด๋™

Translated by HaUn Kim - Original Blog Post

๋ธŒ๋žœ๋“œ ๋ฆฌ์Šคํฌ์˜ ์ค‘์š”์„ฑ์€ ๋ฌด์—‡์ผ๊นŒ์š”?

'์œ„ํ—˜ ๊ด€๋ฆฌ'๋ผ๋Š” ๊ฐœ๋…๊ณผ ๊ด€๋ จํ•ด ๊ธˆ์œต ์„œ๋น„์Šค ๊ธฐ๊ด€(FSI)์€ ์˜ค๋žซ๋™์•ˆ ๋ฐ”์ ค ํ˜‘์•ฝ์˜ ์ž๋ณธ ์š”๊ฑด ์ง€์นจ๊ณผ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ฐธ๊ณ ํ•ด์™”์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ด ์ง€์นจ๋“ค์€ ํ‰ํŒ ์œ„ํ—˜์— ๋Œ€ํ•ด ์–ธ๊ธ‰ํ•˜์ง€ ์•Š์œผ๋ฉฐ, ์กฐ์ง๋“ค์€ ์ˆ˜๋…„ ๋™์•ˆ ํ‰ํŒ ์œ„ํ—˜ ๊ฐ™์€ ๋น„์žฌ๋ฌด์  ์œ„ํ—˜์„ ๊ด€๋ฆฌํ•˜๊ณ  ์ธก์ •ํ•˜๋Š” ๋ฐ ๋ช…ํ™•ํ•œ ๋ฐฉ๋ฒ•๋ก ์ด ๋ถ€์กฑํ–ˆ์Šต๋‹ˆ๋‹ค. ์ตœ๊ทผ ํ™˜๊ฒฝ, ์‚ฌํšŒ, ๊ฑฐ๋ฒ„๋„Œ์Šค(ESG)์˜ ์ค‘์š”์„ฑ์ด ๋ถ€๊ฐ๋˜๋ฉด์„œ ๊ธฐ์—…๋“ค์€ ํ‰ํŒ๊ณผ ํ˜„์‹ค ์‚ฌ์ด์˜ ๊ฐ„๊ทน์„ ์ขํžˆ๊ณ  ์ดํ•ด๊ด€๊ณ„์ž ๋ฐ ๊ณ ๊ฐ์˜ ๋ณ€ํ™”ํ•˜๋Š” ์‹ ๋…๊ณผ ๊ธฐ๋Œ€์— ๋ถ€์‘ํ•  ์ˆ˜ ์žˆ๋Š” ์ ˆ์ฐจ๋ฅผ ๋งˆ๋ จํ•ด์•ผ ํ•  ํ•„์š”์„ฑ์ด ์ปค์กŒ์Šต๋‹ˆ๋‹ค.

ย 

For a FSI, reputation is arguably its most important asset.

ย 

FSI์— ์žˆ์–ด ํ‰ํŒ์€ ๊ฐ€์žฅ ์ค‘์š”ํ•œ ์ž์‚ฐ ์ค‘ ํ•˜๋‚˜์ž…๋‹ˆ๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด, ๊ณจ๋“œ๋งŒ์‚ญ์Šค๋Š” ๊ทธ๋“ค์˜ ์œ ๋ช…ํ•œ ๊ฒฝ์˜ ์›์น™ ์ค‘ "์šฐ๋ฆฌ์˜ ์ž์‚ฐ์€ ์‚ฌ๋žŒ, ์ž๋ณธ, ๊ทธ๋ฆฌ๊ณ  ํ‰ํŒ์ด๋‹ค. ์ด ์ค‘ ์–ด๋Š ํ•˜๋‚˜๋ผ๋„ ์†์ƒ๋˜๋ฉด ๊ฐ€์žฅ ํšŒ๋ณตํ•˜๊ธฐ ์–ด๋ ค์šด ๊ฒƒ์€ ๋ฐ”๋กœ ํ‰ํŒ์ด๋‹ค"๋ผ๊ณ  ๋ช…์‹œํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ƒ์—… ์€ํ–‰์˜ ๊ฒฝ์šฐ, ์†Œ๋น„์ž ๋ถˆ๋งŒ๊ณผ ํ”ผ๋“œ๋ฐฑ์— ์ ๊ทน์ ์œผ๋กœ ๋Œ€์‘ํ•˜๋Š” ๋ธŒ๋žœ๋“œ๋Š” ๊ฒฝ์Ÿ์‚ฌ๋ณด๋‹ค ๋ฒ•์ , ์ƒ์—…์ , ํ‰ํŒ ์œ„ํ—˜์„ ๋” ํšจ๊ณผ์ ์œผ๋กœ ๊ด€๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. American Banker๋Š” ์ด ๊ธฐ์‚ฌ๋ฅผ ํ†ตํ•ด ๊ธ‰๋ณ€ํ•˜๋Š” ์‹œ์žฅ ํ™˜๊ฒฝ์—์„œ ๊ธˆ์œต๊ธฐ๊ด€์ด ์ง๋ฉดํ•œ ๋น„์žฌ๋ฌด์  ์œ„ํ—˜, ํŠนํžˆ ํ‰ํŒ ์œ„ํ—˜์˜ ์ค‘์š”์„ฑ์„ ์žฌํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค.

๊ณ ๊ฐ ์‹ ๋ขฐ๋ฅผ ์–ป๊ธฐ ์œ„ํ•œ ๊ณผ์ •์—์„œ๋Š” ๋ธŒ๋žœ๋“œ ํ‰ํŒ์— ๋ถ€์ •์  ์˜ํ–ฅ์„ ๋ฏธ์น  ์ˆ˜ ์žˆ๋Š” ๋ฌธ์ œ์— ๋Œ€ํ•œ ์ธ์‚ฌ์ดํŠธ๋ฅผ ์ฐพ๊ธฐ ์œ„ํ•ด ๋‹ค์–‘ํ•œ ์ฑ„๋„์„ ํ†ตํ•ด ๋ฐฉ๋Œ€ํ•œ ์–‘์˜ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•˜๋Š” ๊ฒƒ์ด ํฌํ•จ๋ฉ๋‹ˆ๋‹ค. ๊ณ ๊ฐ ๋งŒ์กฑ์„ ๋†’์ด๋Š” ๋ฐ ์žˆ์–ด ๋ฐ์ดํ„ฐ์˜ ์ค‘์š”์„ฑ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , ๋Œ€๋‹ค์ˆ˜ ์กฐ์ง์€ ๋ฐ์ดํ„ฐ ๊ฐœ์ธ์ •๋ณด ๋ณดํ˜ธ, ๊ทœ๋ชจ ๋ฐ ๋ชจ๋ธ ๊ฑฐ๋ฒ„๋„Œ์Šค์™€ ๊ฐ™์€ ๊ธˆ์œต ์„œ๋น„์Šค ์—…๊ณ„์—์„œ ํ”ํžˆ ๋ฐœ์ƒํ•˜๋Š” ๊ทผ๋ณธ์ ์ธ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ํ”Œ๋žซํผ ๊ตฌ์ถ•์— ์–ด๋ ค์›€์„ ๊ฒช๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

์ด ๋ธ”๋กœ๊ทธ ํฌ์ŠคํŠธ์—์„œ๋Š” ๋ฐ์ดํ„ฐ๋ธŒ๋ฆญ์Šค์˜ ํ†ตํ•ฉ ๋ฐ์ดํ„ฐ ๋ถ„์„ ํ”Œ๋žซํผ์˜ ๊ฐ•๋ ฅํ•œ ๊ธฐ๋Šฅ์„ ํ™œ์šฉํ•˜์—ฌ ์ด๋Ÿฌํ•œ ๋„์ „์„ ๊ทน๋ณตํ•˜๊ณ  ์ธ์‚ฌ์ดํŠธ๋ฅผ ์–ป์œผ๋ฉฐ ๊ฐœ์„  ์กฐ์น˜๋ฅผ ์ทจํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์†Œ๊ฐœํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค. GDPR ๋ฐ CCPA ๊ทœ์ •์„ ์‰ฝ๊ฒŒ ์ค€์ˆ˜ํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋œ ์˜คํ”ˆ ์†Œ์Šค ์Šคํ† ๋ฆฌ์ง€ ๊ณ„์ธต์ธ Delta Lake์„ ํ†ตํ•ด ๋ฐ์ดํ„ฐ ๋ ˆ์ดํฌ์— ์•ˆ์ •์„ฑ๊ณผ ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•˜๊ณ , ๋จธ์‹ ๋Ÿฌ๋‹ ๋Ÿฐํƒ€์ž„๊ณผ ๊ด€๋ฆฌํ˜• MLflow๋Š” ๋ฐ์ดํ„ฐ ์‚ฌ์ด์–ธํ‹ฐ์ŠคํŠธ์™€ ๋น„์ฆˆ๋‹ˆ์Šค ๋ถ„์„๊ฐ€๊ฐ€ ์ธ๊ธฐ ์žˆ๋Š” ์˜คํ”ˆ ์†Œ์Šค ๋จธ์‹ ๋Ÿฌ๋‹ ๋ฐ ๊ฑฐ๋ฒ„๋„Œ์Šค ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํ™œ์šฉํ•ด ์ตœ์ฒจ๋‹จ ๋จธ์‹ ๋Ÿฌ๋‹ ๋ชจ๋ธ์„ ๊ตฌ์ถ•ํ•˜๊ณ  ๋ฐฐํฌํ•  ์ˆ˜ ์žˆ๋„๋ก ์ง€์›ํ•˜๋Š” ๋ฐ์ดํ„ฐ๋ธŒ๋ฆญ์Šค ํ†ตํ•ฉ ๋ถ„์„ ํ”Œ๋žซํผ์˜ ์ผ๋ถ€์ž…๋‹ˆ๋‹ค. ์ด ๋ธ”๋กœ๊ทธ ํฌ์ŠคํŠธ์—์„œ๋Š” ํ‰ํŒ ๋ฆฌ์Šคํฌ์— ๋Œ€์‘ํ•˜๋Š” ์ ‘๊ทผ ๋ฐฉ์‹์„ ํ†ตํ•ด ๊ธˆ์œต ๊ธฐ๊ด€์ด ๋ธŒ๋žœ๋“œ ์ธ์‹์„ ์ธก์ •ํ•˜๊ณ  ์—ฌ๋Ÿฌ ์ดํ•ด๊ด€๊ณ„์ž์™€ ํ˜‘๋ ฅํ•˜์—ฌ ๊ณ ๊ฐ ๋งŒ์กฑ๋„์™€ ์‹ ๋ขฐ๋„๋ฅผ ๋†’์ผ ์ˆ˜ ์žˆ๋Š” ๋ฐฉ๋ฒ•์„ ๋‹ค๋ฃน๋‹ˆ๋‹ค.

Databricks Unified Risk Architecture for assessing reputational risk.

๋ฐ์ดํ„ฐ๋ธŒ๋ฆญ์Šค๋Š” ํ‰ํŒ ๋ฆฌ์Šคํฌ๋ฅผ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ํ†ตํ•ฉ ๋ฆฌ์Šคํฌ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

์ด ๋ธ”๋กœ๊ทธ ๊ฒŒ์‹œ๋ฌผ์€ ํ‰ํŒ ์œ„ํ—˜ ๊ด€๋ฆฌ๋ฅผ ํ˜„๋Œ€ํ™”ํ•˜๊ธฐ ์œ„ํ•ด ํ•ด๊ฒฐํ•ด์•ผ ํ•  ์—ฌ๋Ÿฌ ๋ฐ์ดํ„ฐ ์—”์ง€๋‹ˆ์–ด๋ง ๋ฐ ๋ฐ์ดํ„ฐ ์‚ฌ์ด์–ธ์Šค ๊ณผ์ œ๋ฅผ ๋‹ค๋ฃจ๋Š” ๋…ธํŠธ๋ถ์„ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค:

  • Delta Lake๋ฅผ ์‚ฌ์šฉํ•ด ์ต๋ช…ํ™”๋œ ๊ณ ๊ฐ ๋ถˆ๋งŒ์„ ์‹ค์‹œ๊ฐ„์œผ๋กœ ์ˆ˜์ง‘ํ•˜๊ธฐ
  • Koalas๋ฅผ ์‚ฌ์šฉํ•ด ๋Œ€๊ทœ๋ชจ ๊ณ ๊ฐ ํ”ผ๋“œ๋ฐฑ ํƒ์ƒ‰ํ•˜๊ธฐ
  • AI์™€ ์˜คํ”ˆ ์†Œ์Šค๋ฅผ ํ™œ์šฉํ•ด ์‚ฌ์ „ ์˜ˆ๋ฐฉ์  ๋ฆฌ์Šคํฌ ๊ด€๋ฆฌ ์ง€์›ํ•˜๊ธฐ
  • SQL ๋ฐ ๋น„์ฆˆ๋‹ˆ์Šค ์ธํ…”๋ฆฌ์ „์Šค(BI)/๋จธ์‹ ๋Ÿฌ๋‹(ML) ๋ณด๊ณ ์„œ๋ฅผ ์‚ฌ์šฉํ•ด ๋ฆฌ์Šคํฌ ๋ฐ ์˜นํ˜ธ ํŒ€์— AI๋ฅผ ๋Œ€์ค‘ํ™”ํ•˜๊ธฐ

ํด๋ผ์šฐ๋“œ ์Šคํ† ๋ฆฌ์ง€ ํ™œ์šฉ

์˜ค๋ธŒ์ ํŠธ ์Šคํ† ๋ฆฌ์ง€๋Š” ๊ธฐ์กด ๋ฐ์ดํ„ฐ ์›จ์–ดํ•˜์šฐ์Šค์— ๋น„ํ•ด ์ €๋ ดํ•œ ๋น„์šฉ์œผ๋กœ ๋ฐฉ๋Œ€ํ•œ ์–‘์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ €์žฅํ•  ์ˆ˜ ์žˆ๋Š” ํฐ ์ด์ ์„ ์กฐ์ง์— ์ œ๊ณตํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ด ๊ณผ์ •์—์„œ ์šด์˜ ์˜ค๋ฒ„ํ—ค๋“œ๊ฐ€ ๋ฐœ์ƒํ•ฉ๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ๊ฐ€ ๊ธ‰์ฆํ•จ์— ๋”ฐ๋ผ ์†์ƒ๋˜๊ฑฐ๋‚˜ ์‹ ๋ขฐํ•  ์ˆ˜ ์—†๋Š” ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๋กœ ์ธํ•ด ๋ฐœ์ƒํ•˜๋Š” ๋ถˆ์ผ์น˜๋ฅผ ๋‚˜์ค‘์— ์ˆ˜์ •ํ•˜๊ธฐ ์–ด๋ ค์šธ ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ๋ฐ์ดํ„ฐ ๊ด€๋ฆฌ๊ฐ€ ํฐ ๋„์ „์ด ๋˜๊ณค ํ•ฉ๋‹ˆ๋‹ค.

์ด๋Š” ๋งŽ์€ ๊ธˆ์œต ๊ธฐ๊ด€๋“ค์ด AI ์—ฌ์ •์„ ์‹œ์ž‘ํ•˜๋ฉด์„œ ๋” ๋น ๋ฅธ ์ธ์‚ฌ์ดํŠธ๋ฅผ ์–ป๊ณ  ์ˆ˜์ง‘๋œ ๋ฐ์ดํ„ฐ๋ฅผ ์ตœ๋Œ€ํ•œ ํ™œ์šฉํ•˜๊ธฐ ์œ„ํ•ด ์ง๋ฉดํ•˜๋Š” ์ฃผ์š” ๋ฌธ์ œ์ž…๋‹ˆ๋‹ค. ํ‰ํŒ ๋ฆฌ์Šคํฌ๋ฅผ ๊ด€๋ฆฌํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ์กฐ์ง์ด ๊ณ ๊ฐ ๋งŒ์กฑ๋„์™€ ๋ธŒ๋žœ๋“œ ์ธ์‹์„ ์ธก์ •ํ•˜๊ธฐ ์œ„ํ•ด ๋งŽ์€ ๋…ธ๋ ฅ์„ ๊ธฐ์šธ์—ฌ์•ผ ํ•˜๋ฉฐ, ๊ณ ๊ฐ ์‹ ๋ขฐ๋ฅผ ์œ ์ง€ํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ๋ฐ์ดํ„ฐ์™€ AI ์ ‘๊ทผ ๋ฐฉ์‹์„ ์ทจํ•˜๋ฉฐ, ๋ฐฉ๋Œ€ํ•œ ์–‘์˜ ๊ณ ๊ฐ ๋ฐ์ดํ„ฐ๋ฅผ ์•ˆ์ „ํ•˜๊ฒŒ ์ €์žฅํ•˜๊ณ  ๊ฐœ์ธ ์‹๋ณ„ ์ •๋ณด(PII)๊ฐ€ ์•…์šฉ๋˜์ง€ ์•Š๋„๋ก ๋ณด์žฅํ•˜๋ฉฐ, PCI-DSS ๊ทœ์ •์„ ์™„๋ฒฝํ•˜๊ฒŒ ์ค€์ˆ˜ํ•  ์ˆ˜ ์žˆ๋Š” ์ธํ”„๋ผ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ๋ฅผ ์•ˆ์ „ํ•˜๊ฒŒ ๋ณดํ˜ธํ•˜๊ณ  ์ €์žฅํ•˜๋Š” ๊ฒƒ์€ ์‹œ์ž‘์— ๋ถˆ๊ณผํ•˜์ง€๋งŒ, ์ˆ˜๋ฐฑ๋งŒ ๊ฑด์˜ ๋ถˆ๋งŒ ์‚ฌํ•ญ์„ ๋Œ€๊ทœ๋ชจ๋กœ ์ฒ˜๋ฆฌํ•˜๊ณ  ์ฒ˜๋ฐฉ์  ์ธ์‚ฌ์ดํŠธ๋ฅผ ์ œ๊ณตํ•˜๋Š” ๋ชจ๋ธ์„ ๊ตฌ์ถ•ํ•˜๋Š” ๊ฒƒ์ด ์„ฑ๊ณต์ ์ธ ๊ตฌํ˜„์˜ ํ•ต์‹ฌ์ž…๋‹ˆ๋‹ค.

ย 

ํ†ตํ•ฉ ๋ฐ์ดํ„ฐ ๋ถ„์„ ํ”Œ๋žซํผ์ธ ๋ฐ์ดํ„ฐ๋ธŒ๋ฆญ์Šค๋Š” ๋Œ€๋Ÿ‰์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•˜๊ณ  ์ฒ˜๋ฆฌํ•˜๋Š” ๊ฒƒ์€ ๋ฌผ๋ก  ์‚ฌ์šฉ์ž๊ฐ€ ๋Œ€๊ทœ๋ชจ๋กœ AI๋ฅผ ํ™œ์šฉํ•˜์—ฌ ํ‰ํŒ๊ณผ ๊ณ ๊ฐ ์ธ์‹์— ๋Œ€ํ•œ ์ธ์‚ฌ์ดํŠธ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ๋„๋ก ์ง€์›ํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ธ”๋กœ๊ทธ ๊ฒŒ์‹œ๊ธ€์—์„œ๋Š” ์†Œ๋น„์ž๊ธˆ์œต๋ณดํ˜ธ๊ตญ(CFPB)์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•˜๊ณ  ๋ฐ์ดํ„ฐ ํŒŒ์ดํ”„๋ผ์ธ์„ ๊ตฌ์ถ•ํ•ด์„œ ๋ธํƒ€ ๋ ˆ์ดํฌ์™€ ์ฝ”์•Œ๋ผ API๋ฅผ ํ™œ์šฉํ•ด ์†Œ๋น„์ž์˜ ์ œํ’ˆ ํ”ผ๋“œ๋ฐฑ์„ ๋” ํšจ๊ณผ์ ์œผ๋กœ ํƒ์ƒ‰ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์†Œ๊ฐœํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์˜คํ”ˆ ์†Œ์Šค ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋ฅผ ์ด์šฉํ•˜์—ฌ ๋‹ค์–‘ํ•œ ์ œํ’ˆ๊ณผ ์„œ๋น„์Šค์— ๋Œ€ํ•œ ๊ณ ๊ฐ ๋ถˆ๋งŒ์˜ ์‹ฌ๊ฐ๋„๋ฅผ ๋ถ„๋ฅ˜ํ•˜๊ณ  ์ธก์ •ํ•˜๋Š” ML ๋ชจ๋ธ์„ ๊ตฌ์ถ•ํ•˜๊ณ  ๋ฐฐํฌํ•  ์˜ˆ์ •์ž…๋‹ˆ๋‹ค. ์ผ๊ด„ ์ฒ˜๋ฆฌ์™€ ์ŠคํŠธ๋ฆฌ๋ฐ์„ ๊ฒฐํ•ฉํ•ด ๋ถˆ๋งŒ ์‚ฌํ•ญ์„ ๋ถ„๋ฅ˜ํ•˜๊ณ  ์‹ค์‹œ๊ฐ„์œผ๋กœ ์ ํ•ฉํ•œ ๊ณ ๊ฐ ์ง€์› ํŒ€์œผ๋กœ ์ „๋‹ฌํ•จ์œผ๋กœ์จ ์ ‘์ˆ˜๋˜๋Š” ๋ถˆ๋งŒ์„ ๋” ์ž˜ ๊ด€๋ฆฌํ•˜๊ณ  ๊ณ ๊ฐ ๋งŒ์กฑ๋„๋ฅผ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๊ณจ๋“œ ๋ฐ์ดํ„ฐ ํ‘œ์ค€ ์ˆ˜๋ฆฝ

๋ฐ์ดํ„ฐ๋ธŒ๋ฆญ์Šค๋Š” ์ด๋ฏธ ํด๋ผ์šฐ๋“œ ๊ณต๊ธ‰์—…์ฒด๊ฐ€ ์ œ๊ณตํ•˜๋Š” ๋ชจ๋“  ๋ณด์•ˆ ๋„๊ตฌ๋ฅผ ํ™œ์šฉํ•˜๊ณ  ์žˆ์œผ๋ฉฐ, Apache SparkTM์™€ Delta Lake๋Š” ๋ฐ์ดํ„ฐ ๊ฒฉ๋ฆฌ ๋ฐ ์Šคํ‚ค๋งˆ ์ ์šฉ๊ณผ ๊ฐ™์€ ์ถ”๊ฐ€์ ์ธ ๊ฐœ์„  ๊ธฐ๋Šฅ์„ ํ†ตํ•ด ๋ฐ์ดํ„ฐ์˜ ํ’ˆ์งˆ์„ ์‹œ๊ธฐ์ ์ ˆํ•˜๊ฒŒ ์œ ์ง€ํ•˜๊ณ  ๋ณดํ˜ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ์Šคํ‚ค๋งˆ๋ฅผ ํ™œ์šฉํ•ด ๋ถˆ๋งŒ ๋ฐ์ดํ„ฐ๋ฅผ ์ฝ๊ณ  Delta Lake์— ์ €์žฅํ•˜๊ธฐ ์œ„ํ•ด Spark๋ฅผ ์‚ฌ์šฉํ•  ์˜ˆ์ •์ž…๋‹ˆ๋‹ค. ์ด ๊ณผ์ •์—์„œ ์Šคํ‚ค๋งˆ ๋ถˆ์ผ์น˜, ๋ฐ์ดํ„ฐ ์†์ƒ ๋˜๋Š” ๊ตฌ๋ฌธ ์˜ค๋ฅ˜๋กœ ์ธํ•ด ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ๋Š” ๋ฌธ์ œ ๋ ˆ์ฝ”๋“œ๋ฅผ ๋ณ„๋„ ์œ„์น˜์— ์ €์žฅํ•ด ๋‚˜์ค‘์— ์ผ๊ด€์„ฑ ๊ฒ€์‚ฌ๋ฅผ ์œ„ํ•ด ์กฐ์‚ฌํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

df = spark.read
  .option("header", "true")
  .option("delimiter", ",")
  .option("quote", """)
  .option("escape", """)
  .option("badRecordsPath", "/tmp/complaints_invalid")
  .schema(schema)
  .csv("/tmp/complaints.csv")

PII์™€ ๊ฐ™์€ ๋ฏผ๊ฐํ•œ ๋ฐ์ดํ„ฐ๊ฐ€ ์ฃผ์š” ์œ„ํ˜‘์ด๊ณ  ๋ชจ๋“  ๊ธฐ์—…์˜ ๊ณต๊ฒฉ ํ‘œ๋ฉด์„ ํ™•๋Œ€ํ•œ๋‹ค๋Š” ๊ฒƒ์€ ๋„๋ฆฌ ์•Œ๋ ค์ง„ ์‚ฌ์‹ค์ž…๋‹ˆ๋‹ค. ๊ฐ€๋ช… ์ฒ˜๋ฆฌ์™€ ํ•จ๊ป˜ ACID ํŠธ๋žœ์žญ์…˜ ๊ธฐ๋Šฅ ๋ฐ ์‹œ๊ฐ„์— ๋”ฐ๋ฅธ ๋ฐ์ดํ„ฐ ๋ณด์กด ์ •์ฑ…์„ ์‹œํ–‰ํ•จ์œผ๋กœ์จ, Delta Lake๋ฅผ ์‚ฌ์šฉํ•  ๋•Œ ๋ฐ์ดํ„ฐ ์ปดํ”Œ๋ผ์ด์–ธ์Šค๋ฅผ ์œ ์ง€ํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๊ฐ ๋ถˆ๋งŒ ์‚ฌํ•ญ์ด ์Œ์„ฑ ํ†ตํ™”, ์›น ์ฑ„ํŒ…, ์ด๋ฉ”์ผ์˜ ๋…น์ทจ๋ก์ธ ๊ฒฝ์šฐ ๊ณ ๊ฐ์˜ ์ด๋ฆ„๊ณผ ์„ฑ ๋“ฑ ๊ฐœ์ธ ์ •๋ณด๊ฐ€ ํฌํ•จ๋  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์†Œ๋น„์ž์˜ '์žŠํ˜€์งˆ ๊ถŒ๋ฆฌ'(์˜ˆ: GDPR ์ค€์ˆ˜)์™€ ๊ฐ™์€ ๋น„์ •ํ˜• ๋ฐ์ดํ„ฐ์—์„œ๋Š” ์ด๊ฒƒ์ด ์ง„์ •ํ•œ ๋„์ „์ด ๋ฉ๋‹ˆ๋‹ค. ์•„๋ž˜ ์˜ˆ์—์„œ๋Š” ์กฐ์ง์ด ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ(NLP) ๊ธฐ์ˆ ์„ ํ™œ์šฉํ•ด ๊ณ ๋„๋กœ ๊ตฌ์กฐํ™”๋˜์ง€ ์•Š์€ ๊ธฐ๋ก์„ ์ต๋ช…ํ™”ํ•˜๋ฉด์„œ๋„ ์˜๋ฏธ๋ฅผ ๋ณด์กดํ•˜๋Š” ๋ฐฉ๋ฒ•(์ฆ‰, ์ด๋ฆ„ ์–ธ๊ธ‰์„ ๋Œ€์ฒดํ•ด๋„ ์†Œ๋น„์ž ๋ถˆ๋งŒ์˜ ๋ณธ์งˆ์€ ์œ ์ง€ํ•ด์•ผ ํ•จ)์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

์กฐ์ง์€ spaCy์™€ ๊ฐ™์€ ์˜คํ”ˆ ์†Œ์Šค ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ณ ๊ฐ ๋ฐ ์ƒ๋‹ด์›์˜ ์ด๋ฆ„๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์‚ฌํšŒ๋ณด์žฅ๋ฒˆํ˜ธ(SSN), ๊ณ„์ขŒ ๋ฒˆํ˜ธ ๋ฐ ๊ธฐํƒ€ PII(์˜ˆ์‹œ์—์„œ์™€ ๊ฐ™์ด ์ด๋ฆ„ ๋“ฑ)์™€ ๊ฐ™์€ ํŠน์ • ์—”ํ‹ฐํ‹ฐ๋ฅผ ์ถ”์ถœํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

Example of how Databricksโ€™ reputational risk framework uses Spacy to highlight entities

๋ฐ์ดํ„ฐ๋ธŒ๋ฆญ์Šค ํ‰ํŒ ์œ„ํ—˜ ํ”„๋ ˆ์ž„์›Œํฌ์—์„œ Spacy๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์—”ํ‹ฐํ‹ฐ๋ฅผ ๊ฐ•์กฐ ํ‘œ์‹œํ•˜๋Š” ๋ฐฉ๋ฒ•์˜ ์˜ˆ์‹œ์ž…๋‹ˆ๋‹ค.

์•„๋ž˜ ์ฝ”๋“œ์—์„œ๋Š” ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ๊ธฐ์ˆ ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๋Š” ๊ฐ„๋‹จํ•œ ์ต๋ช…ํ™” ์ „๋žต์ด ์‚ฌ์šฉ์ž ์ •์˜ ํ•จ์ˆ˜(UDF)๋กœ ์–ด๋–ป๊ฒŒ ํ™œ์„ฑํ™”๋˜๋Š”์ง€ ๋ณด์—ฌ ์ค๋‹ˆ๋‹ค.

def anonymize_record(original, nlp):
  doc = nlp(original)
  for X in doc.ents:
    if(X.label_ == 'PERSON'):
      original = original.replace(X.text, "John Doe")
  return original
    
@pandas_udf('string')
def anonymize(csi: Iterator[pd.Series]) -> Iterator[pd.Series]:

  # load spacy model only once
  spacy.cli.download("en_core_web_sm")
  nlp = spacy.load("en_core_web_sm")
  
  # Extract organisations for a batch of content 
  for cs in csi:
    yield cs.map(lambda x: anonymize_record(x, nlp))

NLP๋ฅผ ํ†ตํ•ด ๊ฐ ๋‹จ์–ด(์˜ˆ: ์ด๋ฆ„)์˜ ์˜๋ฏธ์  ๊ฐ€์น˜๋ฅผ ์ดํ•ดํ•จ์œผ๋กœ์จ ์กฐ์ง์€ ์•„๋ž˜ ์˜ˆ์‹œ์™€ ๊ฐ™์ด ๋น„์ •ํ˜• ๋ฐ์ดํ„ฐ์—์„œ ๋ฏผ๊ฐํ•œ ์ •๋ณด๋ฅผ ์‰ฝ๊ฒŒ ๋‚œ๋…ํ™”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

With Databricksโ€™ approach to reputational risk assessment, more advanced entity recognition models can be applied to obfuscate sensitive information from an unstructured dataset.

Databricks์˜ ํ‰ํŒ ์œ„ํ—˜ ํ‰๊ฐ€ ์ ‘๊ทผ ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•˜๋ฉด ๊ณ ๊ธ‰ ์—”ํ„ฐํ‹ฐ ์ธ์‹ ๋ชจ๋ธ์„ ์ ์šฉํ•˜์—ฌ ๋น„์ •ํ˜• ๋ฐ์ดํ„ฐ ์„ธํŠธ์—์„œ ๋ฏผ๊ฐํ•œ ์ •๋ณด๋ฅผ ๋‚œ๋…ํ™”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ด ๋ฐฉ๋ฒ•์€ ๋ฐ์ดํ„ฐ ์‚ฌ์ด์–ธํ‹ฐ์ŠคํŠธ์™€ ๋น„์ฆˆ๋‹ˆ์Šค ๋ถ„์„๊ฐ€๊ฐ€ ์ถ”๊ฐ€ ๋ถ„์„์„ ์œ„ํ•ด ์‚ฌ์šฉํ•  ๋Œ€์ƒ ๋ธํƒ€ ํ…Œ์ด๋ธ”์˜ ์ตœ์‹  ์ •๋ณด ์ƒํƒœ๋ฅผ ์ง€์†์ ์œผ๋กœ ์—…๋ฐ์ดํŠธํ•˜๊ณ  ์œ ์ง€ํ•  ์ˆ˜ ์žˆ๋„๋ก, ์ผ๊ด„ ์ฒ˜๋ฆฌ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์—ฌ๋Ÿฌ ๋ฐ์ดํ„ฐ ์ŠคํŠธ๋ฆผ์„ ์‹ค์‹œ๊ฐ„์œผ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ํ™•์žฅ์„ฑ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

Databricks increases data controls and quality in real time, enabling data engineers, data scientists, and business analysts to collaborate on a unified data analytics platform

Databricks๋Š” ๋ฐ์ดํ„ฐ ์—”์ง€๋‹ˆ์–ด, ๋ฐ์ดํ„ฐ ์‚ฌ์ด์–ธํ‹ฐ์ŠคํŠธ, ๋น„์ฆˆ๋‹ˆ์Šค ๋ถ„์„๊ฐ€๊ฐ€ ํ†ตํ•ฉ ๋ฐ์ดํ„ฐ ๋ถ„์„ ํ”Œ๋žซํผ์—์„œ ํ˜‘์—…ํ•  ์ˆ˜ ์žˆ๋„๋ก ์‹ค์‹œ๊ฐ„์œผ๋กœ ๋ฐ์ดํ„ฐ ์ œ์–ด ๋ฐ ํ’ˆ์งˆ์„ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค.

๋ฐ์ดํ„ฐ ์‚ฌ์ด์–ธ์Šค์— ๋Œ€ํ•œ ์ด๋Ÿฌํ•œ ์‹ค์šฉ์ ์ธ ์ ‘๊ทผ ๋ฐฉ์‹์€ ์กฐ์ง์ด ๊ธฐ์กด์˜ ๋ฐ์ดํ„ฐ ์‚ฌ์ด์–ธ์Šค ํ™œ๋™๊ณผ ์ผ์ƒ์ ์ธ ๋ฐ์ดํ„ฐ ์šด์˜ ์‚ฌ์ด์— ์กด์žฌํ•˜๋Š” ๋ถ„๋ฆฌ๋ฅผ ์—†์• ๊ณ  ๋ชจ๋“  ์ธ๋ฌผ์„ ๋™์ผํ•œ ๋ฐ์ดํ„ฐ ๋ฐ ๋ถ„์„ ํ”Œ๋žซํผ์œผ๋กœ ํ†ตํ•ฉํ•ด์•ผ ํ•  ํ•„์š”์„ฑ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

Measuring brand perception and customer sentiment

๋” ๋‚˜์€ ํ‰ํŒ ๊ด€๋ฆฌ ์‹œ์Šคํ…œ์„ ํ†ตํ•ด ๊ธˆ์œต๊ธฐ๊ด€์€ ๊ธฐ๊ด€์—์„œ ์ œ๊ณตํ•˜๋Š” ํŠน์ • ์ƒํ’ˆ๊ณผ ์„œ๋น„์Šค์— ๋Œ€ํ•œ ๊ณ ๊ฐ ํ”ผ๋“œ๋ฐฑ์„ ์ถ”์ ํ•˜๊ณ  ๋ถ„๋ฆฌํ•˜์—ฌ ์šฐ์ˆ˜ํ•œ ๊ณ ๊ฐ ๊ฒฝํ—˜์„ ๊ตฌ์ถ•ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋ฌธ์ œ ์˜์—ญ์„ ๋ฐœ๊ฒฌํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋  ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ๋‚ด๋ถ€ ํŒ€์ด ๋ณด๋‹ค ์ ๊ทน์ ์œผ๋กœ ๋ฌธ์ œ๋ฅผ ๊ฒช๊ณ  ์žˆ๋Š” ๊ณ ๊ฐ์—๊ฒŒ ์ ‘๊ทผํ•˜๋Š” ๋ฐ๋„ ๋„์›€์ด ๋ฉ๋‹ˆ๋‹ค.

๋ฐ์ดํ„ฐ๋ฅผ ๋” ์ž˜ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•ด ๋ฐ์ดํ„ฐ ์‚ฌ์ด์–ธํ‹ฐ์ŠคํŠธ๋“ค์€ ์ „ํ†ต์ ์œผ๋กœ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ ์„ธํŠธ๋ฅผ ์ƒ˜ํ”Œ๋งํ•ด ๋” ์ž‘์€ ์„ธํŠธ๋ฅผ ์ƒ์„ฑํ•˜๊ณ , ์ด๋ฅผ Pandas ๋ฐ์ดํ„ฐ ํ”„๋ ˆ์ž„์ด๋‚˜ Matplotlib ์‹œ๊ฐํ™”์™€ ๊ฐ™์€ ์นœ์ˆ™ํ•œ ๋„๊ตฌ๋ฅผ ์‚ฌ์šฉํ•ด ๊นŠ์ด ์žˆ๊ฒŒ ํƒ์ƒ‰ํ•ฉ๋‹ˆ๋‹ค(๊ฐ€๋”์€ ๋žฉํ†ฑ์—์„œ ์ด๋ฅผ ์ˆ˜ํ–‰ํ•˜๊ธฐ๋„ ํ•ฉ๋‹ˆ๋‹ค). ๋ฐ์ดํ„ฐ ์ด๋™์„ ์ตœ์†Œํ™”ํ•˜๊ณ (๊ทธ์— ๋”ฐ๋ผ ๋ฐ์ดํ„ฐ ์ด๋™๊ณผ ๊ด€๋ จ๋œ ์œ„ํ—˜๋„ ์ค„์ด๋ฉด์„œ) ๋Œ€๊ทœ๋ชจ ํƒ์ƒ‰ ๋ฐ์ดํ„ฐ ๋ถ„์„์˜ ํšจ์œจ์„ฑ๊ณผ ํšจ๊ณผ๋ฅผ ๊ทน๋Œ€ํ™”ํ•˜๊ธฐ ์œ„ํ•ด, ๋ฐ์ดํ„ฐ ์‚ฌ์ด์–ธํ‹ฐ์ŠคํŠธ๋“ค์€ ์ž์‹ ๋“ค์ด ๊ฐ€์žฅ ์ต์ˆ™ํ•œ ๊ตฌ๋ฌธ(Pandas์™€ ์œ ์‚ฌํ•œ)์„ ์‚ฌ์šฉํ•ด ๋ชจ๋“  ๋ฐ์ดํ„ฐ๋ฅผ ํƒ์ƒ‰ํ•  ์ˆ˜ ์žˆ๋Š” Koalas๋ฅผ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์•„๋ž˜ ์˜ˆ์‹œ์—์„œ๋Š” ๋ถ„์‚ฐ๋œ Spark ์—”์ง„์„ ๋‚ด๋ถ€์ ์œผ๋กœ ํ™œ์šฉํ•˜๋ฉด์„œ ๊ฐ„๋‹จํ•œ Pandas์™€ ์œ ์‚ฌํ•œ ๊ตฌ๋ฌธ์„ ์‚ฌ์šฉํ•ด J.P Morgan Chase์˜ ๋ชจ๋“  ๋ถˆ๋งŒ ์‚ฌํ•ญ์„ ํƒ์ƒ‰ํ•ฉ๋‹ˆ๋‹ค.

import databricks.koalas as ks
kdf = spark.read.table("complaints.complaints_anonymized").to_koalas()

jp_kdf = kdf[kdf['company'] == 'JPMORGAN CHASE & CO.']
jp_kdf['product'].value_counts().plot('bar')

Sample chart visualizing number of complaints across multiple products using Koalas API

Koalas API๋ฅผ ์‚ฌ์šฉํ•ด ์—ฌ๋Ÿฌ ์ œํ’ˆ์˜ ๋ถˆ๋งŒ ๊ฑด์ˆ˜๋ฅผ ์‹œ๊ฐํ™”ํ•œ ์˜ˆ์‹œ ์ฐจํŠธ์ž…๋‹ˆ๋‹ค.

๊ณ ๊ฐ ๋ถˆ๋งŒ์— ๋Œ€ํ•œ ์šฉ์–ด ๋นˆ๋„ ๋ถ„์„์„ ์‹คํ–‰ํ•ด ํŠน์ • ๊ธˆ์œต ์„œ๋น„์Šค ์‚ฐ์—…์—์„œ ๊ณ ๊ฐ์ด ๊ฐ€์žฅ ๋งŽ์ด ์ œ๊ธฐํ•œ ๋ฌธ์ œ๋ฅผ ํŒŒ์•…ํ•จ์œผ๋กœ์จ ๋ถ„์„์„ ํ•œ ๋‹จ๊ณ„ ๋ฐœ์ „์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ํ”ผํ•ด์ž ์‹ ์› ๋„์šฉ ๋ฐ ๋ถ€๋‹นํ•œ ์ฑ„๊ถŒ ์ถ”์‹ฌ๊ณผ ๊ด€๋ จ๋œ ๋ฌธ์ œ๋ฅผ ํ•œ๋ˆˆ์— ์‰ฝ๊ฒŒ ํŒŒ์•…ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

Sample term frequency analysis chart visualizing the most descriptive n-gram mentioned in consumer complaints, produced via the Databricks approach to reputational risk analysis.

๋ฐ์ดํ„ฐ๋ธŒ๋ฆญ์Šค์˜ ํ‰ํŒ ์œ„ํ—˜ ๋ถ„์„ ์ ‘๊ทผ ๋ฐฉ์‹์„ ํ†ตํ•ด ์ƒ์„ฑ๋œ ์†Œ๋น„์ž ๋ถˆ๋งŒ์—์„œ ์–ธ๊ธ‰๋œ ๊ฐ€์žฅ ์„ค๋ช…์ ์ธ n-๊ทธ๋žจ์„ ์‹œ๊ฐํ™”ํ•œ ์˜ˆ์‹œ ์šฉ์–ด ๋นˆ๋„ ๋ถ„์„ ์ฐจํŠธ์ž…๋‹ˆ๋‹ค.

์›Œ๋“œ ํด๋ผ์šฐ๋“œ๋ฅผ ์‚ฌ์šฉํ•ด ์†Œ๋น„์ž ๋Œ€์ถœ ๋ฐ ์‹ ์šฉ์นด๋“œ์™€ ๊ฐ™์€ ๊ฐœ๋ณ„ ์ƒํ’ˆ์„ ๋” ์ž์„ธํžˆ ๋ถ„์„ํ•ด ๊ณ ๊ฐ์˜ ๋ถˆ๋งŒ ์‚ฌํ•ญ์„ ๋” ์ž˜ ์ดํ•ดํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

Understanding consumer complaints through word cloud visualization, produced via the Databricks approach to reputational risk analysis.

๋ฐ์ดํ„ฐ๋ธŒ๋ฆญ์Šค์˜ ํ‰ํŒ ์œ„ํ—˜ ๋ถ„์„ ์ ‘๊ทผ ๋ฐฉ์‹์„ ํ†ตํ•ด ์ƒ์„ฑ๋œ ์›Œ๋“œ ํด๋ผ์šฐ๋“œ ์‹œ๊ฐํ™”๋ฅผ ํ†ตํ•ด ์†Œ๋น„์ž ๋ถˆ๋งŒ์„ ์ดํ•ดํ•ฉ๋‹ˆ๋‹ค.

ํƒ์ƒ‰์  ๋ฐ์ดํ„ฐ ๋ถ„์„์€ ๋น„์ฆˆ๋‹ˆ์Šค ์ธํ…”๋ฆฌ์ „์Šค(BI) ๋ฐ ๋ฐ˜์‘ํ˜• ๋ถ„์„์— ์œ ์šฉํ•˜์ง€๋งŒ, ์‹ ๋ขฐ๋ฅผ ๊ตฌ์ถ•ํ•˜๊ณ  ํšจ๊ณผ์ ์ธ ๊ณ ๊ฐ ์„œ๋น„์Šค๋ฅผ ์ œ๊ณตํ•˜๋ฉฐ ๊ฐœ๋ณ„ ์ œํ’ˆ์˜ ์„ฑ๊ณผ๋ฅผ ์ธก์ •ํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ์ง์ ‘์ ์ธ ๊ณ ๊ฐ ํ”ผ๋“œ๋ฐฑ, ๊ณต๊ฐœ ๋ฆฌ๋ทฐ ๋ฐ ๊ธฐํƒ€ ์†Œ์…œ ๋ฏธ๋””์–ด ์ƒํ˜ธ์ž‘์šฉ์„ ์‹ค์‹œ๊ฐ„์œผ๋กœ ์ดํ•ดํ•˜๊ณ  ์˜ˆ์ธกํ•˜๋ฉฐ ๋ถ„๋ฅ˜ํ•˜๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค. ๋งŽ์€ ์†”๋ฃจ์…˜์„ ํ†ตํ•ด ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•˜๊ณ  ์ €์žฅํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, ํ‰ํŒ ๊ด€๋ฆฌ ์‹œ์Šคํ…œ์„ ๊ตฌ์ถ•ํ•  ๋•Œ๋Š” ํ†ตํ•ฉ ํ”Œ๋žซํผ ๋‚ด์—์„œ ๋ฐ์ดํ„ฐ๋ฅผ ์›ํ™œํ•˜๊ฒŒ ๋ถ„์„ํ•˜๊ณ  ์กฐ์น˜ํ•˜์—ฌ ํ•ต์‹ฌ ์ธ์‚ฌ์ดํŠธ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ๋Š” ๊ธฐ๋Šฅ์ด ํ•„์ˆ˜์ ์ž…๋‹ˆ๋‹ค.

์†Œ๋น„์ž ๋ฐ์ดํ„ฐ์˜ ์˜ˆ์ธก ๊ฐ€๋Šฅ์„ฑ์„ ๊ฒ€์ฆํ•˜๊ณ  ๋ฐ์ดํ„ฐ ์„ธํŠธ๊ฐ€ ๋จธ์‹ ๋Ÿฌ๋‹์— ์ ํ•ฉํ•œ์ง€ ํ™•์ธํ•˜๊ธฐ ์œ„ํ•ด, ์•„๋ž˜ ์˜ˆ์‹œ์ฒ˜๋Ÿผ t-SNE(๋ถ„์‚ฐ ํ™•๋ฅ  ์ด์›ƒ ์ž„๋ฒ ๋”ฉ)๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๋ถˆ๋งŒ ์‚ฌํ•ญ ๊ฐ„์˜ ์œ ์‚ฌ์„ฑ์„ ์‹๋ณ„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ผ๋ถ€ ์†Œ๋น„์ž ๋ถˆ๋งŒ์€ ๊ฐ€๋Šฅํ•œ ์นดํ…Œ๊ณ ๋ฆฌ ์ธก๋ฉด์—์„œ ๊ฒน์น  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค(์˜ˆ: ๋‹ด๋ณด ๋Œ€์ถœ๊ณผ ๋ฌด๋‹ด๋ณด ๋Œ€์ถœ์ด ์œ ์‚ฌํ•œ ํ‚ค์›Œ๋“œ๋ฅผ ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ์Œ), ํ•˜์ง€๋งŒ ๊ธฐ๊ณ„๊ฐ€ ์‰ฝ๊ฒŒ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋Š” ๋ช…ํ™•ํ•œ ๊ตฐ์ง‘์„ ๊ด€์ฐฐํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

Validating the predictive potential of consumer complaints through t-SNE visualization

t-SNE ์‹œ๊ฐํ™”๋ฅผ ํ†ตํ•ด ์†Œ๋น„์ž ๋ถˆ๋งŒ์˜ ์˜ˆ์ธก ๊ฐ€๋Šฅ์„ฑ์„ ๊ฒ€์ฆํ•˜๋Š” ๊ณผ์ •์ž…๋‹ˆ๋‹ค.

์œ„์˜ ๋„ํ‘œ๋Š” ๋ถˆ๋งŒ์„ ๋ถ„๋ฅ˜ํ•  ์ˆ˜ ์žˆ๋Š” ํŒจํ„ด์„ ๋‹ค์‹œ ํ•œ๋ฒˆ ๊ฐ•์กฐํ•ด ์ค๋‹ˆ๋‹ค. ๋˜ํ•œ, ์ž ์žฌ์ ์ธ ์ค‘๋ณต์€ ์ตœ์ข… ์‚ฌ์šฉ์ž๋‚˜ ์ƒ๋‹ด์›์ด ์ผ๋ถ€ ๋ถˆ๋งŒ์„ ์ž˜๋ชป ๋ถ„๋ฅ˜ํ•  ์ˆ˜ ์žˆ์Œ์„ ์‹œ์‚ฌํ•˜๋ฉฐ, ์ด๋Š” ๋ถˆ๋งŒ ๊ด€๋ฆฌ ์‹œ์Šคํ…œ์˜ ์ตœ์ ํ™”๊ฐ€ ์ด๋ฃจ์–ด์ง€์ง€ ์•Š๊ณ  ๊ณ ๊ฐ ๊ฒฝํ—˜์ด ์ €ํ•˜๋  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

ML ๋ฐ ์ฆ๊ฐ• ์ง€๋Šฅ

๋ฐ์ดํ„ฐ๋ธŒ๋ฆญ์Šค์˜ ML ๋Ÿฐํƒ€์ž„ ํŒจํ‚ค์ง€๋Š” scikit-learn, XGboost, Tensorflow, Jon Snow Labs NLP์™€ ๊ฐ™์€ ์•ˆ์ •์ ์ด๊ณ  ์„ฑ๋Šฅ์ด ๋›ฐ์–ด๋‚œ ์˜คํ”ˆ ์†Œ์Šค ํ”„๋ ˆ์ž„์›Œํฌ์— ๋Œ€ํ•œ ์•ก์„ธ์Šค๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๋ฐ์ดํ„ฐ ์‚ฌ์ด์–ธํ‹ฐ์ŠคํŠธ๊ฐ€ ์ธํ”„๋ผ, ํŒจํ‚ค์ง€ ๋ฐ ์ข…์†์„ฑ ๊ด€๋ฆฌ์— ๋“œ๋Š” ์‹œ๊ฐ„๊ณผ ๋…ธ๋ ฅ์„ ์ค„์ด๊ณ  ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•ด ๊ฐ€์น˜๋ฅผ ์ฐฝ์ถœํ•˜๋Š” ๋ฐ ๋” ์ง‘์ค‘ํ•  ์ˆ˜ ์žˆ๋„๋ก ๋•์Šต๋‹ˆ๋‹ค.

์ด ์˜ˆ์‹œ์—์„œ๋Š” ๊ฐ„๋‹จํ•œ scikit-learn ํŒŒ์ดํ”„๋ผ์ธ์„ ๊ตฌ์ถ•ํ•˜์—ฌ ๋ถˆ๋งŒ ์‚ฌํ•ญ์„ t-SNE ํ”Œ๋กฏ์—์„œ ๋ณผ ์ˆ˜ ์žˆ๋Š” ๋„ค ๊ฐ€์ง€ ์ฃผ์š” ์ œํ’ˆ ๋ฒ”์ฃผ๋กœ ๋ถ„๋ฅ˜ํ•˜๊ณ , ์ด์ „์— ๋ถ„์Ÿ์ด ์žˆ์—ˆ๋˜ ํด๋ ˆ์ž„์„ ํ•™์Šตํ•˜์—ฌ ๋ถˆ๋งŒ ์‚ฌํ•ญ์˜ ์‹ฌ๊ฐ๋„๋ฅผ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค. ๋ธํƒ€ ๋ ˆ์ดํฌ๋Š” ๋ฐ์ดํ„ฐ์˜ ์‹ ๋ขฐ์„ฑ๊ณผ ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•˜๋Š” ๋ฐ˜๋ฉด, MLFlow๋Š” ์ธ์‚ฌ์ดํŠธ์˜ ํšจ์œจ์„ฑ๊ณผ ํˆฌ๋ช…์„ฑ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ๋ชจ๋“  ML ์‹คํ—˜์„ ์ถ”์ ํ•˜๊ณ  ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ํ•œ ๊ณณ์— ์ž๋™์œผ๋กœ ๊ธฐ๋กํ•จ์œผ๋กœ์จ ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” ๊ณ ํ’ˆ์งˆ์˜ ์•„ํ‹ฐํŒฉํŠธ๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

import mlflow
import mlflow.sklearn

with mlflow.start_run(run_name='complaint_classifier'):

  # Train pipeline, automatically logging all parameters
  pipeline.fit(X_train, y_train)  
  y_pred = pipeline.predict(X_test)
  accuracy = accuracy_score(y_pred, y_test)
  
  # Log pipeline and metrics to mlflow
  mlflow.sklearn.log_model(pipeline, "pipeline")
  mlflow.log_metric("accuracy", accuracy

๋ชจ๋“  ์‹คํ—˜์ด ํ•œ ๊ณณ์— ๊ธฐ๋ก๋˜๊ธฐ ๋•Œ๋ฌธ์—, ๋ฐ์ดํ„ฐ ์‚ฌ์ด์–ธํ‹ฐ์ŠคํŠธ๋Š” ๊ฐ€์žฅ ์ ํ•ฉํ•œ ๋ชจ๋ธ์„ ์‰ฝ๊ฒŒ ์ฐพ์„ ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์šด์˜ํŒ€์€ ๋ชจ๋ธ ์œ„ํ—˜ ๊ด€๋ฆฌ ํ”„๋กœ์„ธ์Šค์˜ ์ผํ™˜์œผ๋กœ ์Šน์ธ๋œ ๋ชจ๋ธ์„ ๊ฒ€์ƒ‰ํ•˜๊ณ  ์ตœ์ข… ์‚ฌ์šฉ์ž๋‚˜ ๋‹ค์šด์ŠคํŠธ๋ฆผ ํ”„๋กœ์„ธ์Šค์— ์ด๋Ÿฌํ•œ ์ธ์‚ฌ์ดํŠธ๋ฅผ ์ œ๊ณตํ•˜์—ฌ ๋ชจ๋ธ ์ˆ˜๋ช… ์ฃผ๊ธฐ ํ”„๋กœ์„ธ์Šค๋ฅผ ์ˆ˜๊ฐœ์›”์—์„œ ์ˆ˜์ฃผ๋กœ ๋‹จ์ถ•ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

# load our model as a spark UDF
model_udf = mlflow.pyfunc.spark_udf(spark, "models:/complaints/production")

# load our model as a SQL function
spark.udf.register("classify", model_udf)

# classify complaints in real time
spark
  .readStream
  .table("complaints_fsi.complaints_anonymized")
  .withColumn("product", model_udf("complaint")

์ด์ œ ML์„ ์ ์šฉํ•˜์—ฌ ์ƒˆ๋กœ์šด ๋ถˆ๋งŒ์ด ๋ฐœ์ƒํ•˜๋ฉด ์‹ค์‹œ๊ฐ„์œผ๋กœ ์ž๋™์œผ๋กœ ๋ถ„๋ฅ˜ํ•˜๊ณ  ๊ฒฝ๋กœ๋ฅผ ์žฌ์ง€์ •ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, SQL ์ฝ”๋“œ์—์„œ UDF๋ฅผ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜๋ฉด์„œ ๋น„์ฆˆ๋‹ˆ์Šค ๋ถ„์„๊ฐ€๊ฐ€ ์‹œ๊ฐํ™”๋ฅผ ์œ„ํ•ด ๋ฐ์ดํ„ฐ๋ฅผ ์ฟผ๋ฆฌํ•˜๋ฉด์„œ ๋ชจ๋ธ๊ณผ ์ง์ ‘ ์ƒํ˜ธ ์ž‘์šฉํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

SELECT 
  received_date, 
  classify(complaint) AS product,
  count(1) as total
FROM 
  complaints.complaints_anonymized
GROUP BY
  received_date

Databricks approach to reputational risk assessment augmenting BI with artificial intelligence for a more descriptive approach to analyze complaints and disputes for reputational risk management

๋ฐ์ดํ„ฐ๋ธŒ๋ฆญ์Šค์˜ ํ‰ํŒ ์œ„ํ—˜ ํ‰๊ฐ€ ๋ฐฉ์‹์€ ์ธ๊ณต ์ง€๋Šฅ์„ ํ™œ์šฉํ•˜์—ฌ BI๋ฅผ ๊ฐ•ํ™”ํ•จ์œผ๋กœ์จ, ํ‰ํŒ ์œ„ํ—˜ ๊ด€๋ฆฌ๋ฅผ ์œ„ํ•œ ๋ถˆ๋งŒ ๋ฐ ๋ถ„์Ÿ ๋ถ„์„์— ๋ณด๋‹ค ์„ค๋ช…์ ์ธ ์ ‘๊ทผ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

์ด๋ฅผ ํ†ตํ•ด ์‚ฌ์šฉ์ž๋Š” ๋ฐ์ดํ„ฐ๋ธŒ๋ฆญ์Šค ๋‚ด์—์„œ ๋ฐ์ดํ„ฐ๋ธŒ๋ฆญ์Šค ๋…ธํŠธ๋ถ ์‹œ๊ฐํ™”๋‚˜ SQL ๋ถ„์„๊ณผ ๊ฐ™์€ ์‚ฌ์šฉํ•˜๊ธฐ ์‰ฌ์šด ์›น ๊ธฐ๋ฐ˜ ์‹œ๊ฐํ™” ๋ฐ ๋Œ€์‹œ๋ณด๋“œ ๋„๊ตฌ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๋ฐ์ดํ„ฐ๋ฅผ ํƒ์ƒ‰, ์ฟผ๋ฆฌ, ์‹œ๊ฐํ™” ๋ฐ ๊ณต์œ ํ•จ์œผ๋กœ์จ ๋ณด๋‹ค ์‹คํ–‰ ๊ฐ€๋Šฅํ•œ ์ธ์‚ฌ์ดํŠธ๋ฅผ ๋„์ถœํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ฐ„๋‹จํ•œ SQL ๊ตฌ๋ฌธ์„ ํ†ตํ•ด ํŠน์ • ์œ„์น˜์—์„œ ์ผ์ • ๊ธฐ๊ฐ„ ๋™์•ˆ ๋‹ค์–‘ํ•œ ์ œํ’ˆ์— ๋Œ€ํ•œ ๋ถˆ๋งŒ ์‚ฌํ•ญ์„ ์‰ฝ๊ฒŒ ๊ฒ€ํ† ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด๋ฅผ ์ŠคํŠธ๋ฆฌ๋ฐ์œผ๋กœ ๊ตฌํ˜„ํ•˜๋ฉด ๊ณ ๊ฐ ์ง€์› ํŒ€์ด ์‹ ์†ํ•œ ์กฐ์น˜๋ฅผ ์ทจํ•˜๊ณ  ๊ณ ๊ฐ์—๊ฒŒ ๋Œ€์‘ํ•  ์ˆ˜ ์žˆ๋Š” ์ธ์‚ฌ์ดํŠธ๋ฅผ ์ œ๊ณตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์‹ ์› ๋„์šฉ ๋ฐ ๋ฐ์ดํ„ฐ ๋ณด์•ˆ๊ณผ ๊ฐ™์€ ์ผ๋ฐ˜์ ์ธ ๊ณ ๊ฐ ๋ถˆ๋งŒ์€ ๋ธŒ๋žœ๋“œ ํ‰ํŒ์— ํฐ ์˜ํ–ฅ์„ ๋ฏธ์น˜๊ณ  ๊ทœ์ œ ๊ธฐ๊ด€์œผ๋กœ๋ถ€ํ„ฐ ๊ฑฐ์•ก์˜ ๋ฒŒ๊ธˆ์„ ๋ถ€๊ณผ๋ฐ›์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์œ ํ˜•์˜ ์‚ฌ๊ณ ๋Š” ๋ณธ ๋ธ”๋กœ๊ทธ ๊ฒŒ์‹œ๋ฌผ์—์„œ ์„ค๋ช…ํ•œ ํŒŒ์ดํ”„๋ผ์ธ์„ ํ†ตํ•ด ์‰ฝ๊ฒŒ ๊ด€๋ฆฌํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด๋Š” ๊ธฐ์—…์ด ํ–‰๋ณตํ•œ ๊ณ ๊ฐ๊ณผ ๋ณ€ํ™”ํ•˜๋Š” ๋””์ง€ํ„ธ ํ™˜๊ฒฝ์„ ์œ„ํ•œ ์ „๋žต์˜ ์ผํ™˜์œผ๋กœ ํ‰ํŒ ๋ฆฌ์Šคํฌ๋ฅผ ๊ด€๋ฆฌํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋ฉ๋‹ˆ๋‹ค.

๊ธฐ์—… ๊ฑฐ๋ฒ„๋„Œ์Šค ์ „๋žต์— ํ‰ํŒ ๋ฆฌ์Šคํฌ ๊ตฌ์ถ•

์ด ๋ธ”๋กœ๊ทธ์—์„œ๋Š” ๊ธฐ์—…์ด ๋ฐ์ดํ„ฐ๋ธŒ๋ฆญ์Šค์˜ ํ†ตํ•ฉ ๋ถ„์„ ํ”Œ๋žซํผ์„ ํ™œ์šฉํ•˜์—ฌ ๊ณ ๊ฐ ํ”ผ๋“œ๋ฐฑ์„ ์•ˆ์ „ํ•˜๊ฒŒ ์‹ค์‹œ๊ฐ„์œผ๋กœ ๋ถ„์„ํ•  ์ˆ˜ ์žˆ๋Š” ๋ฆฌ์Šคํฌ ์—”์ง„์„ ๊ตฌ์ถ•ํ•จ์œผ๋กœ์จ ํ‰ํŒ ๋ฆฌ์Šคํฌ๋ฅผ ์กฐ๊ธฐ์— ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐฉ๋ฒ•์„ ์†Œ๊ฐœํ–ˆ์Šต๋‹ˆ๋‹ค. CFPB์—์„œ ๊ฐ€์ ธ์˜จ ๋ฐ์ดํ„ฐ๋ฅผ ์ค‘์‹ฌ์œผ๋กœ ์„ค๋ช…ํ–ˆ์ง€๋งŒ, ์ด ๋ฐฉ๋ฒ•์€ ์†Œ์…œ ๋ฏธ๋””์–ด, ์ง์ ‘์ ์ธ ๊ณ ๊ฐ ํ”ผ๋“œ๋ฐฑ, ๊ธฐํƒ€ ๋น„์ •ํ˜• ๋ฐ์ดํ„ฐ ์†Œ์Šค์—๋„ ์ ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ฐ์ดํ„ฐ ํŒ€์€ ๋ฐ์ดํ„ฐ ๋ณผ๋ฅจ์ด ์ฆ๊ฐ€ํ•จ์— ๋”ฐ๋ผ ํ™•์žฅ ๊ฐ€๋Šฅํ•œ ํ‰ํŒ ์œ„ํ—˜ ๊ด€๋ฆฌ ํ”Œ๋žซํผ์„ ๋น ๋ฅด๊ฒŒ ๊ตฌ์ถ•ํ•˜๊ณ  ๋ฐ˜๋ณตํ•˜๋ฉฐ, ์—…๊ณ„ ์ตœ๊ณ ์˜ ์˜คํ”ˆ ์†Œ์Šค AI ๋„๊ตฌ๋ฅผ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

AI๋ฅผ ํ™œ์šฉํ•˜์—ฌ ํ‰ํŒ ๋ฆฌ์Šคํฌ๋ฅผ ์™„ํ™”ํ•˜๋Š” ๋ฐฉ๋ฒ•๊ณผ ๋น„์Šทํ•œ ์‚ฌ์šฉ ์‚ฌ๋ก€๋ฅผ ๊ฐ€์ง„ ๊ธˆ์œต๊ธฐ๊ด€์„ ์–ด๋–ป๊ฒŒ ์ง€์›ํ•˜๋Š”์ง€ ์ž์„ธํžˆ ์•Œ์•„๋ณด๊ณ  ์‹ถ๋‹ค๋ฉด, ์•„๋ž˜์˜ ๋ฐ์ดํ„ฐ๋ธŒ๋ฆญ์Šค ๋…ธํŠธ๋ถ์„ ํ†ตํ•ด ๋ฌธ์˜ํ•ด ์ฃผ์„ธ์š”.

  1. Delta Lake์„ ์‚ฌ์šฉํ•˜์—ฌ ์ต๋ช…ํ™”๋œ ๊ณ ๊ฐ ๋ถˆ๋งŒ์„ ์‹ค์‹œ๊ฐ„์œผ๋กœ ์ˆ˜์ง‘
  2. Koalas๋กœ ๋Œ€๊ทœ๋ชจ ๋ถˆ๋งŒ ๋ฐ์ดํ„ฐ ํƒ์ƒ‰
  3. AI๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๊ณ ๊ฐ ๋ถˆ๋งŒ ์‚ฌํ•ญ์„ ๋” ํšจ๊ณผ์ ์œผ๋กœ ์ฒ˜๋ฆฌ
  4. ์ฆ๊ฐ• ์ธํ…”๋ฆฌ์ „์Šค๋กœ BI ๋ณด๊ณ ์„œ ๊ฐ•ํ™”
Databricks ๋ฌด๋ฃŒ๋กœ ์‹œ์ž‘ํ•˜๊ธฐ

๊ด€๋ จ ํฌ์ŠคํŠธ

๋ชจ๋“  ์—”์ง€๋‹ˆ์–ด๋ง ๋ธ”๋กœ๊ทธ ํฌ์ŠคํŠธ ๋ณด๊ธฐ