零服务器部署 AI 应用：Lambda + Bedrock 全流程实战记录

亚马逊云开发者

399人浏览 · 2026-03-17 09:17:20

亚马逊云开发者 · 2026-03-17 09:17:20 发布

é›¶æœåŠ¡å™¨éƒ¨ç½² AI åº”ç”¨ï¼šLambda + Bedrock å

¨æµç¨‹å®žæˆ˜è®°å½•

æŠ˜è
¾äº†ä¸¤å¤©ï¼Œç»ˆäºŽæŠŠä¸€å¥— Serverless AI åº”ç”¨è·‘é€šäº†ã€‚ä»Ž Lambda å‡½æ•°åˆ° Bedrock æ¨¡åž‹è°ƒç”¨ï¼Œè¸©äº†ä¸å°‘å‘ï¼Œè¿™é‡Œå®Œæ•´è®°å½•ä¸‹æ¥ã€‚

ä¸ºä»€ä¹ˆè¦ç”¨ Serverless æž AI

è¯´å®žè¯ï¼Œä¸€å¼€å§‹æˆ‘ä¹Ÿæ²¡æƒ³ç”¨ Lambdaã€‚æˆ‘ä»¬å›¢é˜Ÿæœ‰ä¸ªéœ€æ±‚â€”â€”åšä¸€ä¸ªå†
éƒ¨çŸ¥è¯†é—®ç”å·¥å
·ï¼Œç”¨å¤§æ¨¡åž‹æ¥å›žç”æŠ€æœ¯é—®é¢˜ã€‚æœ€åˆçš„æƒ³æ³•æ˜¯èµ·ä¸ª EC2 è·‘ FastAPIï¼Œä½†ç®—äº†ä¸‹æˆæœ¬ï¼š

24 å°æ—¶æŒ‚ç€ EC2ï¼šå°±ç®—ç”¨ t3.mediumï¼Œä¸€ä¸ªæœˆä¹Ÿè¦å‡ åç¾Žé‡‘
å®žé™
ä½¿ç”¨çŽ‡ï¼šå·¥ä½œæ—¶é—´å¤§æ¦‚ 8 å°æ—¶ï¼Œå‘¨æœ«åŸºæœ¬æ²¡äººç”¨
çœŸæ£åœ¨å¤„ç†è¯·æ±‚çš„æ—¶é—´ï¼šå¯èƒ½ä¸€å¤©åŠ èµ·æ¥å°±å‡ åˆ†é’Ÿ

è¿™ä¸ªåˆ©ç”¨çŽ‡ä¹Ÿå¤ªä½Žäº†ã€‚åŽæ¥æƒ³åˆ° Lambdaâ€”â€”æŒ‰è°ƒç”¨æ¬¡æ•°æ”¶è´¹ï¼Œæ²¡è¯·æ±‚å°±æ˜¯ $0ï¼Œå®Œç¾Žç¬¦åˆè¿™ä¸ªåœºæ™¯ã€‚

æŠ€æœ¯æž¶æž„é•¿ä»€ä¹ˆæ ·

æ•´ä¸ªé“¾è·¯å
¶å®žä¸å¤æ‚ï¼š

ç”¨æˆ· â†’ API Gateway â†’ Lambda â†’ Bedrock (Claude) â†’ è¿”å›žç»“æžœ

ç”¨åˆ°çš„äºšé©¬é€Šäº‘ç§‘æŠ€æœåŠ¡ï¼š

API Gatewayï¼šHTTP å
¥å£ï¼Œå¤„ç†è·¯ç”±å’Œè®¤è¯
Lambdaï¼šä¸šåŠ¡é€»è¾‘ï¼ŒPython 3.12 runtime
Bedrockï¼šè°ƒç”¨ Claude 3.5 Sonnet æ¨¡åž‹
IAMï¼šæƒé™æŽ§åˆ¶ï¼ŒLambda éœ€è¦ bedrock:InvokeModel æƒé™

ç¬¬ä¸€æ¥ï¼šå†™ Lambda å‡½æ•°

å
ˆæŠŠæ ¸å¿ƒé€»è¾‘è·‘é€šã€‚æ–°å»ºä¸€ä¸ª lambda_function.pyï¼š

import json
import boto3

bedrock = boto3.client('bedrock-runtime', region_name='us-east-1')

def lambda_handler(event, context):
    # ä»Žè¯·æ±‚ä¸æ‹¿åˆ°ç”¨æˆ·é—®é¢˜
    body = json.loads(event.get('body', '{}'))
    question = body.get('question', '')
    
    if not question:
        return {
            'statusCode': 400,
            'body': json.dumps({'error': 'é—®é¢˜ä¸èƒ½ä¸ºç©º'})
        }
    
    # è°ƒç”¨ Bedrock Claude
    response = bedrock.invoke_model(
        modelId='anthropic.claude-3-5-sonnet-20241022-v2:0',
        contentType='application/json',
        accept='application/json',
        body=json.dumps({
            'anthropic_version': 'bedrock-2023-05-31',
            'max_tokens': 2048,
            'messages': [
                {
                    'role': 'user',
                    'content': question
                }
            ]
        })
    )
    
    result = json.loads(response['body'].read())
    answer = result['content'][0]['text']
    
    return {
        'statusCode': 200,
        'headers': {'Content-Type': 'application/json'},
        'body': json.dumps({'answer': answer})
    }

è¿™æ®µä»£ç å°±åšäº†ä¸‰ä»¶äº‹ï¼š

ä»Ž API Gateway ä¼ è¿‡æ¥çš„ event é‡Œæ‹¿é—®é¢˜
è°ƒ Bedrock çš„ Claude æ¨¡åž‹
æŠŠå›žç”è¿”å›žåŽ»

ç¬¬äºŒæ¥ï¼šé

ç½® IAM æƒé™

Lambda æ‰§è¡Œè§’è‰²éœ€è¦è¿™ä¸¤ä¸ªæƒé™ï¼š

{
  "Version": "2012-10-17",
  "Statement": [
    {
      "Effect": "Allow",
      "Action": [
        "bedrock:InvokeModel",
        "bedrock:InvokeModelWithResponseStream"
      ],
      "Resource": "arn:aws:bedrock:us-east-1::foundation-model/anthropic.claude-3-5-sonnet-*"
    },
    {
      "Effect": "Allow",
      "Action": [
        "logs:CreateLogGroup",
        "logs:CreateLogStream",
        "logs:PutLogEvents"
      ],
      "Resource": "arn:aws:logs:*:*:*"
    }
  ]
}

è¿™é‡Œæœ‰ä¸ªå‘â€”â€”Bedrock æ¨¡åž‹çš„ ARN æ ¼å¼è·Ÿå
¶ä»–æœåŠ¡ä¸å¤ªä¸€æ ·ï¼Œè´¦å·é‚£æ®µæ˜¯ç©ºçš„ï¼ˆä¸¤ä¸ªå†’å·ä¹‹é—´æ²¡ä¸œè¥¿ï¼‰ã€‚ç¬¬ä¸€æ¬¡é
çš„æ—¶å€™å†™æˆäº† arn:aws:bedrock:us-east-1:123456789:foundation-model/...ï¼Œç»“æžœä¸€ç›´æŠ¥ AccessDeniedï¼ŒæŸ¥äº†åŠå¤©æ‰å‘çŽ°ã€‚

ç¬¬ä¸‰æ¥ï¼šAPI Gateway é›†æˆ

ç”¨ HTTP APIï¼ˆä¸æ˜¯ REST APIï¼‰ï¼Œæ›´ä¾¿å®œæ›´å¿«ï¼š

# åˆ›å»º HTTP API
aws apigatewayv2 create-api \
  --name ai-qa-api \
  --protocol-type HTTP

# åˆ›å»º Lambda é›†æˆ
aws apigatewayv2 create-integration \
  --api-id YOUR_API_ID \
  --integration-type AWS_PROXY \
  --integration-uri arn:aws:lambda:us-east-1:ACCOUNT:function:ai-qa \
  --payload-format-version 2.0

# åˆ›å»ºè·¯ç”±
aws apigatewayv2 create-route \
  --api-id YOUR_API_ID \
  --route-key "POST /ask"

è¸©å‘è®°å½•

å‘ 1ï¼šLambda è¶

æ—¶

Lambda é»˜è®¤è¶
æ—¶æ˜¯ 3 ç§’ï¼Œä½† Bedrock è°ƒ Claude ä¸€æ¬¡å“åº”å¯èƒ½è¦ 5-15 ç§’ã€‚ç¬¬ä¸€æ¬¡æµ‹è¯•ç›´æŽ¥è¶
æ—¶äº†ã€‚

è§£å†³ï¼šæŠŠ Lambda è¶
æ—¶æ”¹æˆ 30 ç§’ã€‚åœ¨æŽ§åˆ¶å°æ”¹æˆ–è€
ç”¨ CLIï¼š

aws lambda update-function-configuration \
  --function-name ai-qa \
  --timeout 30

å‘ 2ï¼šå†·å¯åŠ¨å»¶è¿Ÿ

Lambda å†·å¯åŠ¨ + Bedrock é¦–æ¬¡è°ƒç”¨ï¼Œç¬¬ä¸€æ¬¡è¯·æ±‚å¯èƒ½è¦ç‰ 10+ ç§’ã€‚åŽé¢å°±æ£å¸¸äº†ã€‚

è§£å†³æ–¹æ¡ˆï¼š

é
ç½® Provisioned Concurrencyï¼ˆé¢„ç½®å¹¶å‘ï¼‰ï¼Œä¿æŒå‡ ä¸ªå®žä¾‹å¸¸çƒ
æˆ–è€
ç”¨ CloudWatch Events å®šæ—¶ pingï¼Œä¿æŒå‡½æ•°æ¸©çƒ

aws lambda put-provisioned-concurrency-config \
  --function-name ai-qa \
  --qualifier prod \
  --provisioned-concurrent-executions 2

å‘ 3ï¼šè¿”å›žä½“å¤§å°é™åˆ¶

API Gateway åŒæ¥å“åº”ä¸Šé™ 10MBï¼ŒLambda è¿”å›žä¸Šé™ 6MBã€‚ä¸€èˆ¬é—®ç”æ²¡é—®é¢˜ï¼Œä½†å¦‚æžœè®©æ¨¡åž‹ç”Ÿæˆé•¿æ–‡ï¼Œè¦æ³¨æ„è¿™ä¸ªé™åˆ¶ã€‚

å‘ 4ï¼šBedrock åŒºåŸŸ

ä¸æ˜¯æ‰€æœ‰åŒºåŸŸéƒ½æ”¯æŒ Bedrockã€‚ç›®å‰ us-east-1 å’Œ us-west-2 æ¨¡åž‹æœ€å
¨ã€‚å¦‚æžœä½ çš„ Lambda åœ¨ä¸œäº¬ï¼ˆap-northeast-1ï¼‰ï¼Œéœ€è¦è·¨åŒºåŸŸè°ƒç”¨ Bedrockï¼š

bedrock = boto3.client('bedrock-runtime', region_name='us-east-1')

è·¨åŒºåŸŸè°ƒç”¨ä¼šå¢žåŠ 50-100ms å»¶è¿Ÿï¼Œä½†å¯¹äºŽ AI åº”ç”¨æ¥è¯´è¿™ä¸ªå»¶è¿ŸåŸºæœ¬å¯ä»¥å¿½ç•¥ã€‚

æˆæœ¬å¯¹æ¯”

è·‘äº†ä¸€ä¸ªæœˆï¼Œå®žé™
æ•°æ®ï¼š

æ–¹æ¡ˆ	æœˆæˆæœ¬
EC2 t3.medium 24/7	~$30
Lambda + API Gateway	~$3

Lambda æ–¹æ¡ˆçœäº† 90%ã€‚å½“ç„¶ï¼Œå¦‚æžœä½ çš„ QPS å¾ˆé«˜ï¼ˆæ¯”å¦‚æ¯ç§’ä¸Šç™¾æ¬¡è¯·æ±‚ï¼‰ï¼ŒLambda åè€Œå¯èƒ½æ›´è´µã€‚æŒ‰éœ€é€‰æ‹©å°±å¥½ã€‚

Lambda è®¡è´¹é€»è¾‘ï¼š

æ¯æœˆå‰ 100 ä¸‡æ¬¡è¯·æ±‚å
è´¹
ä¹‹åŽ $0.20/ç™¾ä¸‡æ¬¡
å†
å˜æŒ‰ GB-ç§’è®¡è´¹ï¼š$0.0000166667/GB-ç§’

ä»¥ 256MB å†
å˜ã€å¹³å‡æ‰§è¡Œ 5 ç§’æ¥ç®—ï¼š

æ¯æ¬¡è°ƒç”¨æˆæœ¬ â‰ˆ $0.0000208
ä¸€å¤© 100 æ¬¡ = $0.002
ä¸€ä¸ªæœˆ â‰ˆ $0.06

Bedrock è°ƒç”¨è´¹æ˜¯å¦ç®—çš„ï¼ˆæŒ‰ token è®¡è´¹ï¼‰ï¼Œè¿™é‡Œä¸å±•å¼€ã€‚

è¿›é˜¶ï¼šæµå¼å“åº”

ç”¨æˆ·ç‰ 10 ç§’çœ‹åˆ°å®Œæ•´å›žç”ï¼Œä½“éªŒä¸å¥½ã€‚æ”¹æˆæµå¼å“åº”ï¼Œè¾¹ç”Ÿæˆè¾¹è¿”å›žï¼š

def lambda_handler(event, context):
    body = json.loads(event.get('body', '{}'))
    question = body.get('question', '')
    
    response = bedrock.invoke_model_with_response_stream(
        modelId='anthropic.claude-3-5-sonnet-20241022-v2:0',
        contentType='application/json',
        accept='application/json',
        body=json.dumps({
            'anthropic_version': 'bedrock-2023-05-31',
            'max_tokens': 2048,
            'messages': [{'role': 'user', 'content': question}]
        })
    )
    
    # æµå¼å¤„ç†éœ€è¦ Lambda Response Streaming
    chunks = []
    for event_chunk in response['body']:
        chunk = json.loads(event_chunk['chunk']['bytes'])
        if chunk['type'] == 'content_block_delta':
            chunks.append(chunk['delta']['text'])
    
    return {
        'statusCode': 200,
        'body': json.dumps({'answer': ''.join(chunks)})
    }

çœŸæ£çš„æµå¼éœ€è¦é
åˆ Lambda Response Streamingï¼ˆå‡½æ•° URL + RESPONSE_STREAMï¼‰æˆ– WebSocket APIã€‚ä¸Šé¢çš„å†™æ³•åªæ˜¯æŠŠæµå¼æŽ¥æ”¶åˆ°çš„å†
å®¹æ‹¼èµ·æ¥ä¸€æ¬¡è¿”å›žï¼Œé€‚åˆç®€å•åœºæ™¯ã€‚

æ€»ç»“

Lambda + Bedrock æ AI åº”ç”¨ï¼Œæ ¸å¿ƒä¼˜åŠ¿å°±ä¸€ä¸ªå—ï¼šçœã€‚çœé’±ï¼ˆæŒ‰è°ƒç”¨è®¡è´¹ï¼‰ã€çœå¿ƒï¼ˆä¸ç”¨ç®¡æœåŠ¡å™¨ï¼‰ã€çœæ—¶ï¼ˆå‡ ä¸ªæ–‡ä»¶å°±èƒ½éƒ¨ç½²ï¼‰ã€‚

é€‚åˆçš„åœºæ™¯ï¼š

å†
éƒ¨å·¥å
·ã€é—®ç”æœºå™¨äºº
åŽŸåž‹éªŒè¯ã€å¿«é€Ÿä¸Šçº¿

ä¸é€‚åˆçš„åœºæ™¯ï¼š

é«˜å¹¶å‘å®žæ—¶å¯¹è¯ï¼ˆWebSocket åœºæ™¯å»ºè®®ç”¨ ECS/EKSï¼‰
éœ€è¦ GPU æŽ¨ç†çš„è‡ªå®šä¹‰æ¨¡åž‹

å¦‚æžœä½ ä¹Ÿåœ¨è€ƒè™‘æ€Žä¹ˆä½Žæˆæœ¬ä¸Šçº¿ä¸€ä¸ª AI åŠŸèƒ½ï¼ŒLambda + Bedrock å¯ä»¥è¯•è¯•ã€‚

ðŸ“Œ å®Œæ•´ä»£ç å’Œ CloudFormation æ¨¡æ¿æˆ‘æ”¾åœ¨æ–‡æœ«ï¼Œæœ‰éœ€è¦çš„ç›´æŽ¥æ‹¿èµ°ã€‚æ‰€æœ‰ä»£ç åŸºäºŽäºšé©¬é€Šäº‘ç§‘æŠ€ Lambda Python 3.12 è¿è¡Œæ—¶æµ‹è¯•é€šè¿‡ã€‚