About
目次
複雑なデータ問題を解決することに情熱を注いでいます。日本最大の通信会社でソフトウェアおよびデータエンジニアとして、データプラットフォームを開発しました。また、文化や言語の壁についても学びました。この経験により、優れた技術力、コミュニケーション能力、そして複数のステークホルダーと協力する能力を身につけました。データ移行、異常検知、データ可視化、データウェアハウス設計、機械学習モデルの開発、MLOps、ETLなどのデータプロジェクトに取り組んできました。
職歴 💼#
Slalom Build
July 2023 ~ Current
Senior Data Engineer
予測モデルのSnowflakeへの移行 (2024年)
- AWSからSnowflakeへの予測モデル移行をPythonとSnowparkを活用して成功させ、統合とパフォーマンスを向上。
- Snowflakeのベストプラクティスを遵守し、パイプライン設計を最適化することで、MLパイプラインの実行時間を2時間から30分に短縮し、大幅な効率改善を達成。
- サンプリングや特徴量エンジニアリングなど、広範な実験を行いモデルの精度を向上させ、より信頼性の高い予測結果を実現。パイプラインの各ステップでデータ品質を確保し、信頼性を向上。
- プロジェクトアーキテクチャを設計し、データサイエンスチームにソフトウェアエンジニアリングのベストプラクティスを導入。これにより、実験の柔軟性が高まり、開発ワークフローが効率化され、チームの生産性が向上。
- テックリードとして、週次マイルストーンの設定、技術的方向性の策定、および顧客との要件収集や調整をリード。
SQLServer to Snowflake migration (2023)
- 13TBの顧客データをSnowflakeに効率的に移行。Airflowを活用してジョブオーケストレーションを合理化し、シームレスなデータ移行を実現。
- BCPのような効率的なデータエクスポートツールを採用し、Snowflakeのステージを最適化することで、迅速かつ効率的なデータの取り込みと保存を実現。
- AWS S3を統合してセキュアでスケーラブルなデータ転送を実現し、移行プロセスにおけるデータの整合性とアクセシビリティを確保。
- 増加分のみのデータコピーと動的データパイプラインのアプローチを通じてSQL Serverの変更をSnowflakeに継続的に同期されるためのシステムを実装。このリアルタイムのデータ可用性により、分析機能とレポーティングの精度が向上した。
Data Visualization and anomaly detection (2023)
- TerraformクラウドとGoogle Cloud Platformを使ってプロジェクト全体のインフラ設定をデプロイ。CloudFunctionとCloudSchedulerを使用したサーバーレスデータパイプラインのデプロイ。
- GCPのApplication Integrationを使用して、異常検知とE-メールアラートシステムのエンドツーエンドソリューションを設計。
- CI/CDとインフラのデプロイメントにおける最適なパターンを導入。
Tech Stack
NTT Communications & Docomo Business
April 2017 ~ June 2023
Software Engineer (Data)
Data Engineering
- 様々な社内部門からのデータを収集・分析するデータ分析プラットフォームの開発と保守に貢献しました。プラットフォームのコアコンポーネントのシステムアーキテクチャを設計しました。これには、コンピュートSQLエンジンTrino、ストレージHDFS、認証ワークフロー、およびHadoopエコシステムが含まれます。
- データ分析チームと協力し、データを取得するためのクエリをチューニングし、基盤となる物理スキーマを改善することで、BIダッシュボードのパフォーマンスを向上させました。
- Apache KafkaからHDFSへネットワークトラフィックフローデータを取り込むためのデータパイプラインをPysparkを使用して開発しました。このパイプラインは秒間100万レコード以上を処理し、DDoS攻撃を緩和するためのリアルタイム異常検出に使用されました。
- SQLエンジンTrinoをBIツール、認証システム、データウェアハウスツールなど、他の社内データプラットフォームコンポーネントと統合しました。Javaを使用してTrinoのためのカスタムコネクターを開発し、オープンソースコミュニティに貢献しました。
- Java、Docker、JavaScriptを使用してYouTube再生統計データ収集ツールを開発し、1000ノード以上からYouTube再生のランタイム統計を収集して、QUICプロトコルとHTTPによるインターネットのエンドユーザー品質体験を分析・比較しました。Pythonのデータ可視化ツールplotlyを使用して、1000ノード以上から収集・分析したデータをもとに、2018年ギリシャで開催されたACM CoNEXTで研究成果を発表しました。
Software Engineering
- ReactJSを使用してデータカタログメタデータプラットフォームを開発し、日本語テキストの高度な検索、テーブル検索、スキーマ情報、および10以上の異なる社内システムおよびツールからのメタデータなどの機能を提供することで、チームの生産性を向上させました。
- DeepL API、JavaScript、およびNode.jsを使用して、オープンソースのマークダウンドキュメンテーションツール「CodiMD」に、日英および英日翻訳機能と日本語の漢字に対するふりがな(平仮名での読み)を開発しました。この機能は、日本語を話さないエンジニアと日本人エンジニア間のコミュニケーションと協力を強化しました。
- 2021年に開催されたTrino Japan Virtual Meetupで、NTTコミュニケーションズのTrino使用状況とアーキテクチャ設計について発表しました。
- 新しいチームメンバーをトレーニングし、データプラットフォームの全体的なアーキテクチャを理解するのを助けました。役立つチュートリアルやガイドを作成し、チームの生産性を向上させました。
Tech Stack
Persistent Systems
June 2016 ~ January 2017
Software Developer (UI)
- IBMのTivoli Netcoolパフォーマンスマネージャープロダクトのために、SQLクエリとダッシュボードウィジェットを開発しました。
- センサーおよびインターネットゲートウェイを使用してリアルタイムの水質を監視するフルスタックアプリケーションのために、データベースの関係を設計しました。
Tech Stack
認定資格 🏆#
学歴 🎓#
University of Texas at Austin
Remote
Master of Artificial Intelligence
Vishwakarma Institute of Technology
Pune, India
Bachelor of Technology Computer Engineering
ここに掲載する記事はまだありません。