Senior Software Engineer - Query Engines & Storage
Treasure Data:
At Treasure Data, we’re on a mission to radically simplify how companies use data and AI to create connected customer experiences. Our intelligent customer data platform (CDP) drives revenue growth and operational efficiency across the enterprise to deliver powerful business outcomes.
We are thrilled that Forrester has recognized Treasure Data as a Leader in The Forrester Wave™: Customer Data Platforms For B2C. It's an honor to be acknowledged for our efforts in advancing the CDP industry with cutting-edge AI and real-time capabilities.
Furthermore, Treasure Data employees are enthusiastic, data-driven, and customer-obsessed. We are a team of drivers—self-starters who take initiative, anticipate needs, and proactively jump in to solve problems. Our actions reflect our values of honesty, reliability, openness, and humility.
トレジャーデータのミッションは、企業がデータとAIを活用して「つながる顧客体験(Connected Customer Experiences)」を創出するプロセスを、シンプルにすることです。
当社のCDP(Customer Data Platform)は、企業全体の収益成長と業務効率を向上させ、強力なビジネス成果をもたらします。
私たちは、Forrester社による「The Forrester Wave™: Customer Data Platforms For B2C」においてリーダーに選出されたことを誇りに思っています。
最先端のAIとリアルタイム機能によってCDP業界を牽引してきた私たちの取り組みが評価された証です。
ただし現状に満足するのではなく、トレジャーデータの従業員は情熱的でデータに基づいた思考を持ち、顧客中心主義を徹底しています。私たちは「ドライバー(推進者)」の集団です。自ら主体的に動き、ニーズを先読みし、積極的に問題解決に取り組みます。
私たちの行動は、常にhonesty, reliability, openness, humilityという価値観を基に実践されています。
Your Role:
The Plazma team at Treasure Data is one of the essential elements of our CDP solution and is part of the Core Services group, which supports customer data ingestion and availability at a rate of 70B records per day. You are expected to help the team develop the future of our Hadoop/Hive & Trino query engines and expand from there into our in-house developed storage solution. This includes maintaining technical excellence to address challenges that currently lack industry-wide solutions and delivering the roadmap together with your team. Our team consists of Big Data experts across Japan, Korea and Canada who are passionate about OSS contribution, and we take pride in the quality of service we offer.
トレジャーデータの「Plazmaチーム」は、当社のCDPソリューションにおける不可欠な要素の一つであり、Core Servicesグループに属しています。このグループは、1日あたり700億件ものレコードの取り込みと可用性を支えています。
あなたには、Hadoop/HiveおよびTrinoクエリエンジンの次世代開発を支援し、さらに自社開発のストレージソリューションへと領域を広げていくことを期待しています。これには、業界全体でもまだ解決策が見つかっていない課題に対し、技術的な卓越性をもって取り組むことや、チームと共にロードマップを実現することが含まれます。
私たちのチームは日本、韓国、カナダのビッグデータ・エキスパートで構成されており、OSS(オープンソースソフトウェア)への貢献に情熱を注ぎ、提供するサービスの品質に誇りを持っています。
Responsibilities & Duties:
Design and develop Hadoop/Hive & Trino solutions, providing technical expertise for modern data architecture assessment and use case development
Establish engineering standards for design, development, tuning, deployment, and maintenance of advanced data access frameworks and distributed systems
Collaborate with your team to define product roadmaps based on operational needs and customer-requested features while mentoring and training new team members
Own version and release management, including baseline evaluation, patch backporting, and deployment of customer-facing features
Coordinate with Support and Product teams on release cycles and feature delivery
Contribute to Hadoop/Hive & Trino OSS through bug fixes, new features, and technical documentation
Partner with SRE to automate cluster operations, reducing operational overhead through automated lifecycle management and load balancing workflows
Design and implement observability solutions, including health metrics, capacity planning tools, and automated failure detection and recovery systems
Provide expert customer support, including on-call responsibilities, escalation handling, and in-depth troubleshooting of performance and defect issues
Develop custom technical solutions, including user-defined functions (UDFs) and specialized tooling for Hadoop/Hive & Trino
Hadoop/HiveおよびTrinoソリューションの設計・開発。最新のデータアーキテクチャの評価やユースケース開発における技術的知見の提供。
高度なデータアクセスフレームワークおよび分散システムの設計、開発、チューニング、デプロイ、保守に関するエンジニアリング標準の確立。
運用ニーズや顧客の要望に基づく製品ロードマップの定義、および新チームメンバーのメンタリングとトレーニング。
ベースライン評価、パッチのバックポート、顧客向け機能のデプロイを含む、バージョンおよびリリース管理の統括。
リリースサイクルや機能提供に関するサポートチームおよび製品チームとの調整。
バグ修正、新機能開発、技術ドキュメント作成を通じたHadoop/HiveおよびTrinoのOSSコミュニティへの貢献。
SREと連携したクラスター運用の自動化。ライフサイクル管理や負荷分散ワークフローの自動化による運用負荷の軽減。
ヘルス指標、キャパシティプランニングツール、自動障害検知・復旧システムを含むオブザーバビリティ(可観測性)ソリューションの設計・実装。
オンコール対応、エスカレーション対応、パフォーマンスや不具合に関する詳細なトラブルシューティングを含む、エキスパートレベルのカスタマーサポートの提供。
ユーザー定義関数(UDF)やHadoop/Hive・Trino向けの専用ツールなど、カスタム技術ソリューションの開発。
Required Qualifications:
5+ years building and operating distributed systems
Strong Java and deep understanding of algorithms, data structures, and distributed systems fundamentals
Solid understanding of cloud architecture and services in public clouds like AWS, GCP, or Microsoft Azure
Strong capability in implementing new and improved data solutions for multi-tenant environments
Experience in developing use cases, functional specs, design specs, etc.
Experience working with distributed, scalable Big Data stores or NoSQL, including HDFS, S3, Cassandra, Big Table, etc.
Strong analytical and communication skills; able to influence across Product, SRE, and Support
分散システムの構築および運用経験(5年以上)。
Javaスキルと、アルゴリズム、データ構造、分散システムの基礎に関する深い理解。
AWS、GCP、Microsoft Azureなどのパブリッククラウドにおけるクラウドアーキテクチャとサービスの確かな理解。
マルチテナント環境に向けた、新規または改良されたデータソリューションの実装能力。
ユースケース、機能仕様書、設計仕様書などの作成経験。
HDFS、S3、Cassandra、Big Tableなどの分散型スケーラブル・ビッグデータストア、またはNoSQLの使用経験。
高い分析能力とコミュニケーション能力(プロダクト、SRE、サポートの各部門に影響を与えられること)。
It would be nice if you had:
Understanding of the capabilities of Hadoop/Hive or Trino
Proven experience operating production query engines on a petabyte scale
Microservices architecture, data integration patterns, and extending OSS
Infra-as-Code, SRE practices, and advanced observability
UDF development and familiarity with data visualization ecosystems
Security and privacy-by-design expertise
Experience with storage patterns and optimizations for massive parallel processing
Hadoop/HiveまたはTrinoの機能に関する深い理解。
ペタバイト規模でのプロダクション・クエリエンジンの運用実績。
マイクロサービスアーキテクチャ、データ統合パターン、およびOSSの拡張経験。
IaC(Infrastructure as Code)、SREのプラクティス、高度なオブザーバビリティの知識。
UDF開発の経験、およびデータ可視化エコシステムへの精通。
セキュリティおよび「プライバシー・バイ・デザイン」に関する専門知識。
超並列処理(MPP)のためのストレージパターンと最適化の経験。
Physical Requirements:
3 days at Treasure Data Office
About Treasure Data:
Treasure Data is the Intelligent Customer Data Platform (CDP) built for enterprise scale and powered by AI. Recognized as a Leader by Forrester and IDC, Treasure Data empowers the world’s largest and most innovative companies to deliver hyper-personalized customer experiences at scale that increase revenue, reduce costs, and build trust.
Through unique capabilities such as the Diamond Record, AI Agent Foundry, and AI Decisioning with Real-Time Personalization, Treasure Data enables marketing and CX teams to personalize cross-channel engagement in real-time, optimize marketing spend while increasing ROI, and drive customer lifetime value through more intelligent retention and loyalty.
Our Dedication to You:
We value and promote diversity, equity, inclusion, and belonging in all aspects of our business and at all levels. Success comes from acknowledging, welcoming, and incorporating diverse perspectives.
Diverse representation alone is not the desired outcome. We also strive to create an inclusive culture that encourages growth, ownership of your role, and achieving innovation in new and unique ways. Your voice will be heard, and we will help amplify it.
Agencies and Recruiters:
We cannot consider your candidate(s) without a contract in place. Any resumes received without having an active agreement will be considered gratis referrals to us. Thank you for your understanding and cooperation!
- Department
- Engineering | R&D
- Role
- Senior Software Engineer
- Locations
- Tokyo, Japan
- Remote status
- Hybrid
- Employment type
- Full-time
- Employment level
- Professionals
About Treasure Data
Treasure Data is the Intelligent Customer Data Platform (CDP) built for enterprise scale and powered by AI. Recognized as a Leader by Forrester and IDC, Treasure Data empowers the world’s largest and most innovative companies to deliver hyper-personalized customer experiences at scale that increase revenue, reduce costs, and build trust.
Through unique capabilities such as the Diamond Record, AI Agent Foundry, and AI Decisioning with Real-Time Personalization, Treasure Data enables marketing and CX teams to personalize cross-channel engagement in real-time, optimize marketing spend while increasing ROI, and drive customer lifetime value through more intelligent retention and loyalty.